0

0

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

聖光之護

聖光之護

发布时间:2024-10-08 13:12:11

|

867人浏览过

|

来源于机器之心

转载

数据空间研究中心是中国科学技术大学网络空间安全学院布局建设的创新型科研平台。中心于 2021 年 9 月 20 日正式揭牌成立,由吴曼青院士领衔、中青年教师为骨干,聚焦从数据到网络空间(from data to cyberspace),以数据重构网络空间为使命,瞄准网络空间、智能感知、大数据等领域的前沿问题,探索打造一支结构合理、优势互补的科技力量,服务国家重大需求。

来自中国科学技术大学数据空间研究中心、香港科技大学、香港理工大学以及奥胡斯大学的研究者们提出一种新的场景生成方法 DreamScene,只需要提供场景的文本就可以生成高质量,视角一致和可编辑的 3D 场景。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


  • 项目主页:https://dreamscene-project.github.io/ 
  • 论文地址:https://arxiv.org/abs/2404.03575
  • 代码开源:https://github.com/DreamScene-Project/DreamScene

关键问题

基于蒸馏的文本生成 3D 方法通常采用预训练的 2D 文本到图像模型如 Stable Diffusion 作为先验,通过朝向物体中心的相机渲染优化生成物体的可微分 3D 表示。而文本生成 3D 场景方法需要从预定义的相机位置向外渲染,以生成这些有限视角的场景。

目前的文本生成 3D 场景方法(如下图所示)面临几个关键挑战,包括:

  • 低效的生成过程,常导致低质量的生成和较长的生成时间。
  • 不一致的 3D 场景视角,仅在有限视角下有着良好的渲染结果。
  • 无法将物体与环境分离,无法对单个物体进行灵活编辑。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

技术方案

DreamScene 主要由形成模式采样(Formation Pattern Sampling)和相机采样 (Camera Sampling) 两部分组成,其中形成模式采样根据 3D 模型生成的规律由多时间步采样(Multi-timestep Sampling)、3D 高斯过滤(3D Gaussian Filtering)以及重建式生成(Reconstructive Generation)三种操作组成;

相机采样通过三阶段的策略逐步生成 3D 环境,保证场景全局的视角一致性。总体的算法流程如图所示,DreamScene 首先利用大语言模型(LLM)根据文本描述(prompt)分离出场景中的物体描述和环境描述。首先生成场景中的单个物体,DreamScene 利用 Point-E 得到相应的初始化点云,之后使用形成模式采样方法生成对应文本的 3D 表示;再将生成的物体根据布局放置在对应的位置上;最后对四周环境进行生成,DreamScene 将室内场景初始化为长方体,将室外场景初始化为半球体,通过三阶段优化,逐步优化远处环境,近处地面和整体的场景。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


形成模式采样(Formation Pattern Sampling)主要使用多时间步采样(Multi-timestep Sampling),多时间步采样每次迭代过程中混合了多个 2D 扩散模型时间步长提供的指导信息,而这些时间步长通过在一个线性递减的滑动窗口上进行分层抽样得到,这种优化策略不仅保证了在优化过程中对 3D 内容的形状约束,同时可以丰富语义信息。

此外,生成的过量 3D 高斯会阻碍优化过程,因此 DreamScene 使用 3D 高斯过滤(3D Gaussian Filtering)在优化过程中过滤掉冗余的 3D 高斯,保留距离渲染平面较近且体积较大的 3D 高斯。在优化的后期阶段,使用较小步长 t 的信息可以提供一致但是精细纹理的信息,所以 DreamScene 使用重建式生成(Reconstructive Generation)方法来加速生成 3D 内容的合理表面纹理。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

对于场景中的环境,DreamScene 使用一个渐进式的三阶段相机采样(Camera Sampling)策略优化环境生成。在相机采样的第一阶段,DreamScene 在场景中心的一定范围内进行相机位姿采样以生成周围环境(室内的墙壁、室外远处环境)的粗略表示(MTS 指导优化);在第二阶段,DreamScene 通过采样一些特定区域的相机位姿来生成粗糙的地面,并且会尽可能保证地面与周围环境接触部分的连贯性;在第三阶段,DreamScene 使用在前两阶段中所有的相机位姿来优化所有的的环境元素(MTS 指导优化),之后使用 3D 重建的方法以获得更合理的纹理和细节。

实验评估

对比试验  下图展示了 DreamScene 场景生成的定性对比实验,上半部分图像采用生成时出现的相机位姿渲染的,下图是在场景中随机选择的相机位姿渲染的。我们可以看到,Text2Room 和 Text2NeRF 只能在生成过程中遇到的相机位姿下生成令人满意的结果,DreamScene 实现了最佳的 3D 一致性,同时有着很高的生成质量。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

绘蛙AI商品图
绘蛙AI商品图

电商场景的AI创作平台,无需高薪聘请商拍和文案团队,使用绘蛙即可低成本、批量创作优质的商拍图、种草文案

下载
下图展示了形成模式采样可以在短时间内根据文本提示生成高质量的 3D 表示,DreamGaussian 的速度更快但生成质量太低。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


作者计算了环境生成阶段的生成时间。如下表的左侧显示,具有编辑功能的环境生成方法中 DreamScene 的时间最短,右侧显示了用户研究,其中 DreamScene 在一致性和合理性方面明显优于其他 SOTA 方法,生成质量最高。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

一致性 如下图所示 DreamScene 的生成结果在较高生成质量的同时,保证了较好的 3D 一致性。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

编辑性 DreamScene 可以添加或删除对象或者通过调整对象的仿射变量的值来重新设计其在场景中的位置。在进行这些编辑时,用户需要在物体的原始位置和新位置重新采样相机姿势,重新优化地面和周围方向。此外,用户还可以改变文本提示来改变场景中的环境或对象的样式。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景


消融实验 在 “A DSLR photo of Iron Man” 提示下,经过 30 分钟优化后的结果。如下图所示,与 DreamTime 和 DreamFusion 中提到的分数蒸馏采样 (SDS) 相比,多时间步采样形成了更好的几何结构和纹理。形成模式采样是在多时间步采样的基础上建立起来的,采用重建式生成的方法来创建更加合理的纹理结构,在指导 3D 内容优化方面十分具有优越性。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

总结

本文介绍了一种新颖的文本到 3D 场景生成策略 DreamScene。通过生成模式采样和相机采样策略,将物体和环境整合在一起,解决了目前文本到 3D 场景生成方法中存在的低效、不一致和可编辑性有限等问题。广泛的实验证明,DreamScene 是三维场景生成领域的一项里程碑式成就,在众多领域,如游戏、影视和房屋设计中有着巨大的应用潜力。

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景ECCV 2024 | 新梦幻场景生成方法,高质量、视角一致、可编辑3D场景

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

577

2026.01.21

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

406

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2065

2024.08.16

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

23

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

6

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

21

2026.01.26

npd人格什么意思 npd人格有什么特征
npd人格什么意思 npd人格有什么特征

NPD(Narcissistic Personality Disorder)即自恋型人格障碍,是一种心理健康问题,特点是极度夸大自我重要性、需要过度赞美与关注,同时极度缺乏共情能力,背后常掩藏着低自尊和不安全感,影响人际关系、工作和生活,通常在青少年时期开始显现,需由专业人士诊断。

3

2026.01.26

windows安全中心怎么关闭 windows安全中心怎么执行操作
windows安全中心怎么关闭 windows安全中心怎么执行操作

关闭Windows安全中心(Windows Defender)可通过系统设置暂时关闭,或使用组策略/注册表永久关闭。最简单的方法是:进入设置 > 隐私和安全性 > Windows安全中心 > 病毒和威胁防护 > 管理设置,将实时保护等选项关闭。

5

2026.01.26

2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】
2026年春运抢票攻略大全 春运抢票攻略教你三招手【技巧】

铁路12306提供起售时间查询、起售提醒、购票预填、候补购票及误购限时免费退票五项服务,并强调官方渠道唯一性与信息安全。

29

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3万人学习

Django 教程
Django 教程

共28课时 | 3.5万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号