Excerpt from PDF:

RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning Yuanhuiyi Lyu 1 Xu Zheng 1 Yibo Yan 1 Lutao Jiang 1 Xin Zou 1 Huiyu Zhou 2 Linfeng Zhang 3 Xuming Hu 1 4 Abstract Recent text-to-image generative models, e.g., Sta- ble Diffusion V3 and Flux, have achieved notable progress. However, these models are strongly re- stricted to their limited knowledge, a.k.a., their own fixed parameters, that are trained with closed datasets. This leads to significant hallucinations or distortions when facing fine-grained and un- seen novel real-world objects, e.g., the appearance of the Tesla Cybertruck. To this end, we present the first real-object-based retrieval-augmented generation framework (RealRAG), which aug- ments fine-grained and unseen novel object gener- ation by learning and retrieving real-world images to overcome the knowledge gaps of generative models. Specifically, to integrate missing mem- ory for unseen novel object generation, we train a reflective retriever by self-reflective contrastive learning, which injects the generator’s knowl- edge into the sef-reflective negatives, ensuring that the retrieved augmented images compensate for the model’s missing knowledge. Furthermore, the real-object-based framework integrates fine- grained visual knowledge for the generative mod- els, tackling the distortion problem and improv- ing the realism for fine-grained object generation. Our Real-RAG is superior in its modular applica- tion to all types of state-of-the-art text-to-image generative models and also delivers remarkable performance boosts with all of them, such as a gain of 16.18% FID score with the auto-regressive model on the Stanford Car benchmark. 1The Hong Kong University of Science and Technology (Guangzhou) 2Guangxi Zhuang Autonomous Region Big Data Research Institute 3Shanghai Jiao Tong University 4The Hong Kong University of Science and Technology. Text-to-Image Generative Model Prompt: “A Cybertruck is speeding along the Great Wall” Text-to-Image Generative Model (1) (2) Retrieve Ref. Image (2) Similarity Score (1) Prompt: “A Cybertruck is speeding along the Great Wall” Reflective Retriever (a) (b) Prompt: “A Cybertruck is speeding along the Great Wall” Text-to-Image Generative Model Retrieve Ref. Image (c) “A photo of cybertruck” “A truck is speeding along the Great Wall” (1) (2) “A photo of cybertruck” “A truck is speeding along the Great Wall” Figure 1. (a) The pipeline of text-to-image generative models. (b) The framework of existing retrieval-augmented methods. (c) The framework of our proposed RealRAG. 1. Introduction Recent text-to-image generators have achieved notable progress in image synthesis from the given textual prompts. There are three mainstream types of generative models, including the U-Net-based diffusion model (Rombach et al., 2022; Podell et al., 2023), the DiT-based diffusion model (Xiao et al., 2024; Sun et al., 2024), and the auto- regressive model (Esser et al., 2024; BlackForest, 2024). Typically, these models store all their visual memory (e.g., the appearance of Big Ben) implicitly in the parameters of the underlying neural network, requiring a lot of pa- rameters(e.g., 10B). Furthermore, similar to the hallucina- tion problem of Large Language Models (LLMs) (OpenAI, 2023; Touvron et al., 2023), the large-scale text-to-image generative models also show the same problem. Some gen- erated images include ghosting, …더보기

This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!

번역 (Translation):

realrag : 자체 반영 대조 학습을 통한 검색 된 현실적인 이미지 생성 Yuanhuiyi Lyu 1 Xu Zheng 1 yibo yan 1 lutao jiang 1 xin zou 1 huiyu zhou 2 linfeng zhang 3 xuming hu 1 4 최신 텍스트–영상 모델, 예를 들어, sta-recusion v3 and hane wrook. 진전. 그러나 이러한 모델은 폐쇄 된 데이터 세트로 교육을받은 자체 고정 매개 변수 인 제한된 지식 (즉, 고정 된 고정 매개 변수)에 강력하게 반영됩니다. 이것은 세밀하고 보이지 않는 새로운 실제 대상, 예를 들어 Tesla Cybertruck의 모양에 직면 할 때 상당한 환각이나 왜곡으로 이어집니다. 이를 위해, 우리는 생성 모델의 지식 간격을 극복하기 위해 실제 이미지를 학습하고 검색함으로써 세밀하고 보이지 않는 새로운 물체 생성을 연기하는 최초의 실제 객체 기반 검색-구제 생성 프레임 워크 (Realrag)를 제시합니다. 구체적으로, 보이지 않는 소설 객체 생성을 위해 누락 된 밈을 통합하기 위해, 우리는 발전기의 지식을 SEF- 반사적 부정에 주입하여 검색 된 증강 된 이미지가 모델의 누락 된 지식을 보상하도록하기 위해 생성기의 지식을 SEF- 반사적 부정에 주입하는 자기 반성 대비 학습을 통해 반사적 리트리버를 훈련시킵니다. 또한, 실제 객체 기반 프레임 워크는 생성 모드에 대한 미세한 시각적 지식을 통합하여 왜곡 문제를 해결하고 세밀한 물체 생성에 대한 현실주의를 개선합니다. 우리의 실제 라그는 모든 유형의 최첨단 텍스트-이미지 생성 모델에 대한 모듈 식 응용 분야에서 우수하며 Stanford 자동차 벤치 마크의 자동 회귀 모델로 16.18% FID 점수의 이득과 같은 놀라운 성능 향상을 제공합니다. 1 홍콩 과학 기술 대학 (광저우) 2Guangxi Zhuang 자 텍스트-이미지 생성 모델 프롬프트 : “사이버 트럭은 큰 벽을 따라 속도를 내고 있습니다”텍스트-이미지 생성 모델 (1) (2) Refrieve Ref. 이미지 (2) 유사성 점수 (1) 프롬프트 : “사이버 트럭은 큰 벽을 따라 속도를 높이고 있습니다”반사 리트리버 (a) (b) 프롬프트 : “사이버 트럭은 큰 벽을 따라 속도를 높이고 있습니다.”텍스트-이미지 생성 모델 검색 Reg. 이미지 (c)“Cybertruck의 사진”“트럭은 큰 벽을 따라 속도를 내고 있습니다”(1) (2)“Cybertruck의 사진”“트럭은 큰 벽을 따라 속도를 높이고 있습니다”그림 1. (a) 텍스트-이미지 생성 모델의 파이프 라인. (b) 기존 검색 방지 방법의 프레임 워크. (c) 제안 된 realrag의 프레임 워크. 1. 소개 최근 텍스트-이미지 생성기는 주어진 텍스트 프롬프트에서 이미지 합성에서 주목할만한 진전을 달성했습니다. U-Net 기반 확산 모델 (Rombach et al., 2022; Podell et al., 2023), DIT 기반 확산 모델 (Xiao et al., 2024; Sun et al., 2024) 및 자동 회귀 모델 (Esser et al., 2024; Blackforest, 2024)을 포함한 세 가지 주류 유형의 생성 모델이 있습니다. 일반적으로, 이들 모델은 기본 신경망의 매개 변수에 암묵적으로 모든 시각적 기억 (예를 들어, Big Ben의 모양)을 저장하여 많은 양의 고장물 (예 : 10B)이 필요합니다. 또한, 대형 언어 모델 (LLMS)의 환각 문제와 유사하게, 대규모 텍스트-이미지 생성 모델도 동일한 문제를 보여줍니다. 일부 생성 된 이미지에는 유령이 포함됩니다

이 논문은 arXiv에서 제공
되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!

PDF 다운로드

Leave a comment

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다