Excerpt from PDF:
Bolt3D: Generating 3D Scenes in Seconds Stanislaw Szymanowicz1,2 Jason Y. Zhang1 Pratul Srinivasan3 Ruiqi Gao3 Arthur Brussee3 Aleksander Hoły´nski3 Ricardo Martin-Brualla1 Jonathan T. Barron3 Philipp Henzler1 1Google Research 2VGG – University of Oxford 3Google DeepMind Interactive 3D scene Any number of input image(s) 3D scenes generated by Bolt3D Bolt3D: 6.25 seconds Render: Novel View Render: Novel View Input Render: Novel View Render: Novel View Figure 1. Given an arbitrary number of input images, Bolt3D directly outputs a 3D representation which can be rendered at interactive frame-rates. Operating in a feed-forward manner, generation takes mere seconds. Bolt3D features a latent diffusion model with a scalable 2D architecture, trained on large-scale appearance and geometry data, enabling generation of full 360◦scenes from one or multiple input images. We encourage the reader to explore these scenes in the interactive viewer available on the project website. Abstract We present a latent diffusion model for fast feed-forward 3D scene generation. Given one or more images, our model Bolt3D directly samples a 3D scene representation in less than seven seconds on a single GPU. We achieve this by leveraging powerful and scalable existing 2D dif- fusion network architectures to produce consistent high- fidelity 3D scene representations. To train this model, we create a large-scale multiview-consistent dataset of 3D ge- ometry and appearance by applying state-of-the-art dense 3D reconstruction techniques to existing multiview image datasets. Compared to prior multiview generative mod- els that require per-scene optimization for 3D reconstruc- tion, Bolt3D reduces the inference cost by a factor of up to 300×. Project website: szymanowiczs.github.io/ bolt3d. 1. Introduction Modern image and video generative models generate com- pelling high-quality visual content, but these models sample 2D images, rather than an underlying 3D scene. The ability to directly generate 3D content instead would enable nu- merous applications, such as interactive visualization and editing. However, scaling modern diffusion-based genera- tive models to generate detailed 3D scenes remains a signif- icant challenge for the research community, primarily due to two reasons. First, representing and structuring (possibly unbounded) 3D data to enable training a diffusion model that generates full scenes at high resolution is an unsolved problem. Second, “ground truth” 3D scenes are extremely scarce compared to the abundant 2D image and video data used to train state-of-the-art generative models. As a re- sult, many recent 3D generative models are limited to syn- arXiv:2503.14445v1 [cs.CV] 18 Mar 2025 thetic objects [28, 62, 64, 74] or partial “forward-facing” scenes [27, 60, 67, 68]. Models that scale to real, full 360◦ scenes use camera-conditioned multiview or video diffusion models to turn input image(s) into a large “dataset” of syn- thetic observations [12, 34], from which an explicit 3D rep- resentation (such as a neural [36] or 3D Gaussian [23] ra- diance field) is then recovered via test-time optimization. While this approach is capable of producing high-quality 3D content, it is impractical; both sampling hundreds of augmented images with the multiview diffusion model and optimizing a 3D representation to match these images are slow and compute-intensive. …더보기
This paper was uploaded based on materials provided by arXiv.
This paper is an open academic resource, and the original text can be accessed on arXiv.
Source: arXiv – A free repository for scientific and technical researchers.
This paper is provided for academic research purposes, and the original can be downloaded from arXiv.
Visit arXiv to explore more recent papers!
번역 (Translation):
BOLT3D : STANISLAW SZYMANOWICZ1,2 JASON Y. ZHANG1 PRATUL SRINIVASAN3 RUIQI GAO3 ARTHUR BRUSSEE3 aleksander Hoły´nski3 Ricardo Martin-Brualla1 Jonathan T. Barron3 Philzler1 1good Of Univerle Of University 2vgog-2vgoger 2vgog. Deepmind Interactive 3D Scen 피드 포워드 방식으로 작동하면 세대는 몇 초가 걸립니다. BOLT3D는 확장 가능한 2D 아키텍처를 갖춘 잠재적 확산 모델을 특징으로하며, 대규모 모양 및 지오메트리 데이터에 대해 훈련되어 하나 또는 다중 입력 이미지에서 전체 360 ◦ 스케인을 생성 할 수 있습니다. 우리는 독자가 프로젝트 웹 사이트에서 사용 가능한 대화식 뷰어에서 이러한 장면을 탐색하도록 권장합니다. 초록 우리는 빠른 피드 포워드 3D 장면 생성을위한 잠재 확산 모델을 제시합니다. 하나 이상의 이미지가 주어지면, 우리의 모델 Bolt3D는 단일 GPU에서 7 초 이내에 3D 장면 표현을 직접 샘플링합니다. 우리는 강력하고 확장 가능한 기존 2D 차이 네트워크 아키텍처를 활용하여 일관된 고 충실도 3D 장면 표현을 생성함으로써이를 달성합니다. 이 모델을 훈련시키기 위해 최첨단 조밀 한 3D 재구성 기술을 기존 멀티 뷰 이미지 데이터 세트에 적용하여 대규모 멀티 뷰에 연결된 3D 지구법 및 외관 데이터 세트를 만듭니다. 3D 재구성에 대한 현미 당 최적화가 필요한 이전의 멀티 뷰 생성 모드와 비교하여 Bolt3d는 추론 비용을 최대 300 ×의 계수만큼 줄입니다. 프로젝트 웹 사이트 : szymanowiczs.github.io/ bolt3d. 1. 소개 최신 이미지 및 비디오 생성 모델은 고품질의 시각적 컨텐츠를 생성하지만 이러한 모델은 기본 3D 장면이 아닌 2D 이미지를 샘플링합니다. 대신 3D 컨텐츠를 직접 생성하는 기능을 사용하면 대화식 시각화 및 편집과 같은 핵심 응용 프로그램이 가능합니다. 그러나 현대적인 확산 기반의 세대 모델을 스케일링하여 세부 3D 장면을 생성하는 것은 주로 두 가지 이유로 인해 연구 커뮤니티에 중요한 과제로 남아 있습니다. 첫째, 고해상도에서 전체 장면을 생성하는 확산 모델을 훈련시킬 수 있도록 (가능하지 않은) 3D 데이터를 표현하고 구조화하는 것은 해결되지 않은 문제입니다. 둘째, “Ground Truth”3D 장면은 최첨단 생성 모델을 훈련시키는 데 사용되는 풍부한 2D 이미지 및 비디오 데이터에 비해 매우 부족합니다. 다시 말해서, 많은 최근의 3D 생성 모델은 Syn-Arxiv : 2503.14445V1 [CS.CV] 18 3 월 2025 년 THETIC OBTERS [28, 62, 64, 74] 또는 부분적인 “전진”장면 [27, 60, 67, 68]으로 제한됩니다. 전체 360 ◦ 장면에서 카메라 조절 된 멀티 뷰 또는 비디오 확산 모델을 사용하여 입력 이미지를 입력 이미지 [12, 34]로 전환하여 명백한 3D 반응 (예 : 신경 [36] 또는 3D 가우시안 [23] RA- 디언 필드)로 전환하는 모델을 입력한다. 이 접근법은 고품질 3D 컨텐츠를 생성 할 수 있지만 비현실적입니다. 멀티 뷰 확산 모델을 사용하여 수백 개의 증강 된 이미지를 샘플링하고 이러한 이미지와 일치하도록 3D 표현을 최적화하는 것은 느리고 컴퓨팅 집약적입니다. … 더보기
이 논문은 arXiv에서 제공되는 자료를 바탕으로 업로드되었습니다.
본 논문은 공개된 학술 자료이며, 원문은 arXiv에서 확인할 수 있습니다.
출처: arXiv – 과학 및 기술 연구자들을 위한 무료 논문 저장소.
이 논문은 학술 연구 목적으로 제공되며, 원문은 arXiv에서 다운로드할 수 있습니다.
더 많은 최신 논문을 보려면 arXiv를 방문하세요!