上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

王林

发布时间：2023-05-17 08:02:08

1990人浏览过

来源于51CTO.COM

转载

随着大型语言模型（llm）、扩散（diffusion）等技术的发展，chatgpt、midjourney等产品的诞生掀起了新一波的ai热潮，生成式ai也成为备受关注的话题。

与文本和图像不同，3D生成仍处于技术探索阶段。

2022年年底，Google、NVIDIA和微软相继推出了自己的3D生成工作，但大多基于先进的神经辐射场（NeRF）隐式表达，与工业界3D软件如Unity、Unreal Engine和Maya等的渲染管线不兼容。

即使通过传统方案将其转换为Mesh表达的几何和颜色贴图，也会造成精度不足和视觉质量下降，不能直接应用于影视制作和游戏生产。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

项目网站：https://sites.google.com/view/dreamface

论文地址：https://arxiv.org/abs/2304.03117

Web Demo：https://hyperhuman.top

HuggingFace Space：https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar

为了解决这些问题，来自影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架。

该框架引入符合CG制作标准的外部数据集（包含几何和PBR材质），可以根据文本直接生成符合该标准的3D资产，是首个支持Production-Ready 3D资产生成的框架。

为了实现文本生成可驱动的3D超写实数字人，该团队将这个框架与产品级3D数字人数据集相结合。这项工作已经被计算机图形领域国际顶级期刊Transactions on Graphics接收，并将在国际计算机图形顶级会议SIGGRAPH 2023上展示。

DreamFace主要包括三个模块，几何体生成，基于物理的材质扩散和动画能力生成。

相比先前的3D生成工作，这项工作的主要贡献包括：

· 提出了DreamFace这一新颖的生成方案，将最近的视觉-语言模型与可动画和物理材质的面部资产相结合，通过渐进式学习来分离几何、外观和动画能力。

· 引入了双通道外观生成的设计，将一种新颖的材质扩散模型与预训练模型相结合，同时在潜在空间和图像空间进行两阶段优化。

· 使用BlendShapes或生成的Personalized BlendShapes的面部资产具备动画能力，并进一步展示了DreamFace在自然人物设计方面的应用。

letterdrop

B2B内容营销自动化平台，从创意到产生潜在客户的内容的最佳实践和工具。

下载

几何生成

几何体生成模块可以根据文本提示生成与之一致的几何模型。然而，在人脸生成方面，这可能难以监督和收敛。

因此，DreamFace提出了一个基于CLIP（Contrastive Language-Image Pre-Training）的选择框架，首先从对人脸几何参数空间内随机采样的候选项中选择最佳的粗略几何模型，然后雕刻几何细节，使头部模型更符合文本提示。

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

根据输入提示，DreamFace利用CLIP模型选择匹配得分最高的粗略几何候选项。接下来，DreamFace使用隐式扩散模型（LDM）在随机视角和光照条件下对渲染图像进行得分蒸馏采样（SDS）处理。

这使得DreamFace可以通过顶点位移和详细的法线贴图向粗略几何模型添加面部细节，从而得到高度精细的几何体。

与头部模型类似，DreamFace还基于该框架进行发型和颜色的选择。

基于物理的材质扩散生成

基于物理的材质扩散模块旨在预测与预测几何体和文本提示一致的面部纹理。

首先，DreamFace将预先训练的LDM在收集的大规模UV材质数据集上微调，得到两个LDM扩散模型。

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

DreamFace采用了一种联合训练方案，协调两个扩散过程，一个用于直接去噪UV纹理贴图，另一个用于监督渲染图像，以确保面部UV贴图和渲染图像的正确形成与文本提示一致。

为了减少生成时间，DreamFace采用了一个粗糙纹理潜在扩散阶段，为细节纹理生成提供先验潜在。

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

为了确保所创建的纹理地图不含有不良特征或照明情况，同时仍保持多样性，设计了一种提示学习策略。

团队利用两种方法生成高质量的漫反射贴图：

（1）Prompt Tuning。与手工制作的特定领域文本提示不同，DreamFace将两个特定领域的连续文本提示 Cd 和 Cu 与相应的文本提示结合起来，这将在U-Net去噪器训练期间进行优化，以避免不稳定和耗时的手工撰写提示。

（2）非面部区域遮罩。LDM去噪过程将额外地受到非面部区域遮罩的限制，以确保生成的漫反射贴图不含有任何不需要的元素。

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

作为最后一步，DreamFace应用超分辨率模块生成4K基于物理的纹理，以进行高质量渲染。

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

DreamFace框架在名人生成，根据描述生成角色上都取得了相当不错的效果，在User Study中获得了远超先前工作的成绩。相比先前的工作，在运行时间上也具备明显的优势。

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

除此之外，DreamFace还支持使用提示和草图进行纹理编辑。通过直接使用微调的纹理LDM和提示，可以实现全局的编辑效果，如老化和化妆。通过进一步结合掩模或草图，可以创建各种效果，如纹身、胡须和胎记。

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

动画能力生成

上科大等发布DreamFace：只需文本即可生成「超写实3D数字人」

DreamFace生成的模型具备动画能力。与基于BlendShapes的方法不同，DreamFace的神经面部动画方法通过预测独特的变形来为生成的静息（Neutral）模型赋予动画效果，从而产生个性化的动画。

首先，训练一个几何生成器，学习表情的潜在空间，其中解码器被扩展为以中性几何形状为条件。接着，进一步训练表情编码器，从RGB图像中提取表情特征。因此，DreamFace能够通过使用单目RGB图像以中性几何形状为条件来生成个性化的动画。

与使用通用BlendShapes进行表情控制的DECA相比，DreamFace的框架提供了细致的表情细节，并且能够精细地捕捉表演。

结论

本文介绍了DreamFace，一种文本指导的渐进式3D生成框架，它结合了最新的视觉-语言模型、隐式扩散模型，以及基于物理的材质扩散技术。

DreamFace的主要创新包括几何体生成、基于物理的材质扩散生成和动画能力生成。与传统的3D生成方法相比，DreamFace具有更高的准确性、更快的运行速度和较好的CG管线兼容性。

DreamFace的渐进式生成框架为解决复杂的3D生成任务提供了一种有效的解决方案，有望推动更多类似的研究和技术发展。

此外，基于物理的材质扩散生成和动画能力生成将推动3D生成技术在影视制作、游戏开发和其他相关行业的应用。

如何提高自媒体视频的粉丝粘性利用豆包AI策划长期更新的系列专题内容

如何优化简历文案的动态词汇感利用Claude将描述性形容词转为强有力的动词

ai超现实背景怎么设置_Ai超现实风格背景效果参数设置教程

如何快速生成周报月报利用通义千问梳理职场工作输出

斑马ai怎么样_斑马ai启蒙课程效果真实评价【评测】

相关专题

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

557

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

616

2023.10.25

手机安装chatgpt的方法

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

3025

2024.03.05

chatgpt国内可不可以使用

chatgpt在国内可以使用，但不能注册，港澳也不行，用户想要注册的话，可以使用国外的手机号进行注册，注意注册过程中要将网络环境切换成国外ip。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

1097

2024.03.05

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2894

2024.08.16

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

187

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

339

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板