요약본 (Summary):
This paper presents a new method for generating customized human and object videos using Video Diffusion Models (VDMs). The authors argue that previous methods relying on additional models to extract and inject reference subject features are not optimal, as they struggle to maintain consistent subject appearance. Instead, the proposed framework leverages VDM’s inherent force to enable high-quality zero-shot customized video generation. For feature extraction, the method directly inputs reference images into the VDM and uses its intrinsic feature extraction process. For injection, a bidirectional interaction between subject features and generated content is established through spatial self-attention within the VDM, ensuring better subject fidelity while maintaining diversity in the generated videos. The proposed framework was validated through experiments on customized human and object video generation.
이 백서는 비디오 확산 모델 (VDMS)을 사용하여 맞춤형 인간 및 객체 비디오를 생성하는 새로운 방법을 제시합니다. 저자는 기준 주제 특징을 추출하고 주사하기 위해 추가 모델에 의존하는 이전 방법이 일관된 대상 외관을 유지하기 위해 노력하기 때문에 최적이 아니라고 주장합니다. 대신 제안 된 프레임 워크는 VDM의 고유 한 힘을 활용하여 고품질 제로 샷 사용자 정의 비디오 생성을 가능하게합니다. 기능 추출을 위해이 방법은 참조 이미지를 VDM에 직접 입력하고 본질적인 기능 추출 프로세스를 사용합니다. 주입을 위해, 대상 특징과 생성 된 컨텐츠 사이의 양방향 상호 작용은 VDM 내의 공간적 자기 변환을 통해 확립되어 생성 된 비디오의 다양성을 유지하면서 더 나은 주제 충실도를 보장합니다. 제안 된 프레임 워크는 맞춤형 인간 및 객체 비디오 생성에 대한 실험을 통해 검증되었습니다.
Excerpt from PDF:
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models Tao Wu 1,2 *, Yong Zhang 3 *, Xiaodong Cun 3 *, Zhongang Qi 4 †, Junfu Pu 2, Huanzhang Dou 1, Guangcong Zheng 1, Ying Shan2,3, Xi Li 1 † 1College of Computer Science and Technology, Zhejiang University 2ARC Lab, Tencent PCG 3Tencent AI Lab 4Huawei Noah’s Ark Lab (a) Customized Human Video Generation (b) Customized Object Video Generation A panda walking through a bamboo forest. A panda running through a field of wildflowers. A dog is running on a sunny park trail. A dog is walking on a street. A person is enjoying a cup of coffee in a cozy café. A person playing an acoustic guitar. A person holding a book open, reading a book. A person watching a laptop, focused on the task at hand. Reference Image Figure 1. Visualization for our VideoMaker. Our method achieves high-fidelity zero-shot customized human and object video generation based on AnimateDiff [26]. Abstract Zero-shot customized video generation has gained sig- nificant attention due to its substantial application poten- tial. Existing methods rely on additional models to ex- tract and inject reference subject features, assuming that the Video Diffusion Model (VDM) alone is insufficient for zero- shot customized video generation. However, these methods often struggle to maintain consistent subject appearance due to suboptimal feature extraction and injection tech- niques. In this paper, we reveal that VDM inherently pos- sesses the force to extract and inject subject features. De- 1∗These authors contributed equally. † Corresponding author. 2Work done during Zhongang Qi’s tenure at Tencent PCG ARC Lab. parting from previous heuristic approaches, we introduce a novel framework that leverages VDM’s inherent force to enable high-quality zero-shot customized video generation. Specifically, for feature extraction, we directly input refer- ence images into VDM and use its intrinsic feature extrac- tion process, which not only provides fine-grained features but also significantly aligns with VDM’s pre-trained knowl- edge. For feature injection, we devise an innovative bidirec- tional interaction between subject features and generated content through spatial self-attention within VDM, ensur- ing that VDM has better subject fidelity while maintaining the diversity of the generated video. Experiments on both customized human and object video generation validate the effectiveness of our framework. arXiv:2412.19645v1 [cs.CV] 27 Dec 2024 1. Introduction Video Diffusion Models (VDMs) [5, 9, 19, 57, 70] can generate high-quality videos from a given text prompt. However, these pretrained models unable to create specific videos from a given subject since this customized subject is hard to be described by a text prompt only. This prob- lem is so-called customized generation and has been ex- plored by personalized fine-tuning [6, 53, 65, 67]. Yet, the time-consuming subject-specific finetune limits its usage in the real world. Recently, Some methods [23, 32] based on [58, 71] have initially explored zero-shot customized video generation. But these methods still fail to maintain a consistent appearance with the reference subject. Two keys for customized video generation are subject feature extraction …더보기
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
번역 (Translation):
Videomaker : 비디오 확산 모델의 고유 한 힘 Tao Wu 1,2 *, Yong Zhang 3 *, Xiaodong Cun 3 *, Zhongang Qi 4 †, Junfu PU 2, Huanzhang Dou 1, Guangcong Zheng 1, Ying Shan2,3, Xi Li 1 † 1College의 컴퓨터 및 University 1College 1College 2ARC LAB, TENCENT PCG 3TENCENT AI LAB 4HUAWEI NOAH ARK LAB (A) 맞춤형 인간 비디오 생성 (B) 맞춤형 개체 비디오 생성 대나무 숲을 걷는 팬더. 야생화 밭을 통과하는 팬더. 개가 햇볕이 잘 드는 공원 트레일에서 달리고 있습니다. 개가 길거리를 걷고 있습니다. 사람이 아늑한 카페에서 커피 한 잔을 즐기고 있습니다. 어쿠스틱 기타를 연주하는 사람. 책을 열고 책을 읽는 사람. 노트북을보고있는 사람은 당면한 과제에 집중했습니다. 참조 이미지 그림 1. 비디오 제조업체의 시각화. 우리의 방법은 애니메이션 디프를 기반으로 한 고 충실도 제로 샷 사용자 정의 인간 및 객체 비디오 생성을 달성합니다 [26]. Abstract Zero-Shot 맞춤형 비디오 생성은 상당한 응용 프로그램으로 인해 큰 관심을 끌었습니다. 기존 방법은 비디오 확산 모델 (VDM)만으로는 제로 샷 사용자 정의 비디오 생성에 불충분하다고 가정 할 때, 기준 주제 기능을 주입하고 참조 주제 기능을 주입합니다. 그러나, 이러한 방법은 종종 차선 적 특징 추출 및 주입 기술로 인해 일관된 대상 외관을 유지하기 위해 고군분투합니다. 이 논문에서 우리는 VDM이 본질적으로 주제 특징을 추출하고 주입하는 힘을 제시한다는 것을 밝혀 냈습니다. DE-1 *이 저자들은 동일하게 기여했습니다. † 해당 저자. 2 Work는 Tencent PCG Arc Lab에서 Zhongang Qi의 재임 기간 동안 완료되었습니다. 이전 휴리스틱 접근 방식과 헤어지면서, 우리는 VDM의 고유 한 힘을 활용하여 고품질 제로 샷 사용자 정의 비디오 생성을 가능하게하는 새로운 프레임 워크를 소개합니다. 구체적으로, 피처 추출을 위해, 우리는 참조 이미지를 VDM에 직접 입력하고 고유 기능 추적 프로세스를 사용하여 세밀한 기능을 제공 할뿐만 아니라 VDM의 미리 훈련 된 지식과 크게 정렬됩니다. 피처 주입을 위해, 우리는 VDM 내에서 공간적 자체 변환을 통해 주제 기능과 생성 된 컨텐츠 사이의 혁신적인 입찰 상호 작용을 고안하여 VDM이 생성 된 비디오의 다양성을 유지하면서 더 나은 주제 충실도를 가지고 있음을 알 수 있습니다. 맞춤형 인간 및 객체 비디오 생성에 대한 실험은 프레임 워크의 효과를 검증합니다. ARXIV : 2412.19645V1 [CS.CV] 27 12 월 1 일. 소개 비디오 확산 모델 (VDMS) [5, 9, 19, 57, 70]은 주어진 텍스트 프롬프트에서 고품질 비디오를 생성 할 수 있습니다. 그러나이 사기꾼이 텍스트 프롬프트로만 설명하기 어렵 기 때문에 주어진 주제로부터 특정 비디오를 만들 수없는이 사기꾼 모델. 이 문제는 소위 맞춤형 생성이며 개인화 된 미세 조정에 의해 전달되었습니다 [6, 53, 65, 67]. 그러나 시간이 많이 걸리는 주제 별 정관은 현실 세계에서의 사용을 제한합니다. 최근에, [58, 71]에 기초한 일부 방법 [23, 32]은 처음에 제로 샷 사용자 정의 비디오 생성을 탐색했다. 그러나 이러한 방법은 여전히 기준 주제와 일관된 외관을 유지하지 못합니다. 맞춤형 비디오 생성을위한 두 가지 키는 주제 기능 추출입니다 … 더보기
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!