0

0

一颗GPU,秒出3D模型!OpenAI重磅新作:Point-E用文本即可生成三维点云模型

WBOY

WBOY

发布时间:2023-04-15 08:58:02

|

1094人浏览过

|

来源于51CTO.COM

转载

席卷AI世界的下一个突破在哪里?

很多人预测,是3D模型生成器。

继年初推出的DALL-E 2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像生成模型「POINT-E」,它可通过文本直接生成3D模型。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

论文链接:https://arxiv.org/pdf/2212.08751.pdf

相比竞争对手们(如谷歌的DreamFusion)需要几个GPU工作数个小时,POINT-E只需单个GPU便可在几分钟内生成3D图像。

经小编实战测试,Prompt输入后POINT-E基本可以秒出3D图像,此外输出图像还支持自定义编辑、保存等功能。

图片

地址:https://huggingface.co/spaces/openai/point-e

网友也开始尝试不同的prompt输入。

图片

但输出的结果并不都令人满意。

图片

还有网友表示,POINT-E或许可以实现Meta的元宇宙愿景?

图片

需要注意的是,POINT-E是通过点云(point cloud),也就是空间中点的数据集来生成3D图像。

图片

简单来说,就是通过三维模型进行数据采集获取空间中代表3D形状的点云数据。

图片

从计算的角度来看,点云更容易合成,但它们无法捕获对象的细腻形状或纹理,这是目前Point-E的一个短板。

为解决这个限制,Point-E团队训练了一个额外的人工智能系统来将Point-E 的点云转换为网格。

图片

将Point-E点云转换为网格

在独立的网格生成模型之外,Point-E 由两个模型组成:

一个文本图像转化模型(text-to-image model)和图像转化3D模型(image-to-3D model)。

文本图像转化模型类似于OpenAI的DALL-E 2和Stable Diffusion,在标记图像上进行训练以理解单词和视觉概念间的关联。

然后,将一组与3D对象配对图像输入3D转化模型,以便模型学会在两者之间有效转换。

当输入一个prompt时,文本图像转化模型会生成一个合成渲染对象,该对象被馈送到图像转化3D模型,然后生成点云。

OpenAI研究人员表示,Point-E经历了数百万3D对象和相关元数据的数据集的训练。

但它并不完美,Point-E 的图像到 3D 模型有时无法理解文本到图像模型中的图像,导致形状与文本提示不匹配。尽管如此,它仍然比以前的最先进技术快几个数量级。

他们在论文中写道:

虽然我们的方法在评估中的表现比最先进的技术差,但它只用了一小部分时间就可以生成样本。这可以使它对某些应用程序更实用,并且发现更高质量的3D对象。

Point-E架构与运行机制

Build AI
Build AI

为您的业务构建自己的AI应用程序。不需要任何技术技能。

下载

Point-E模型首先使用文本到图像的扩散模型生成一个单一的合成视图,然后使用第二个扩散模型生成一个三维点云,该模型以生成的图像为条件。

虽然该方法在采样质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为一些使用情况提供了实际的权衡。

下图是该模型的一个high-level的pipeline示意图:

图片

我们不是训练单个生成模型,直接生成以文本为条件的点云,而是将生成过程分为三个步骤。

首先,生成一个以文本标题为条件的综合视图。

接下来,生成⼀个基于合成视图的粗略点云(1,024 个点) 。

最后, 生成了⼀个以低分辨率点云和合成视图为条件的精细点云(4,096  个点)。​

在数百万个3D模型上训练模型后,我们发现数据集的数据格式和质量差异很大,这促使我们开发各种后处理步骤,以确保更高的数据质量。

为了将所有的数据转换为⼀种通用格式,我们使用Blender从20个随机摄像机角度,将每个3D模型渲染为RGBAD图像(Blender支持多种3D格式,并带有优化的渲染引擎)。

对于每个模型,Blender脚本都将模型标准化为边界立方体,配置标准照明设置,最后使用Blender的内置实时渲染引擎,导出RGBAD图像。

然后,使用渲染将每个对象转换为彩色点云。首先,通过计算每个RGBAD图像中每个像素的点,来为每个对象构建⼀个密集点云。这些点云通常包含数十万个不均匀分布的点,因此我们还使用最远点采样,来创建均匀的4K点云。

通过直接从渲染构建点云,我们能够避免直接从3D网格中采样可能出现的各种问题,对模型中包含的点进行取样,或处理以不寻常的文件格式存储的三维模型。

最后,我们采用各种启发式方法,来减少数据集中低质量模型的频率。

首先,我们通过计算每个点云的SVD来消除平面对象,只保留那些最小奇异值高于某个阈值的对象。

接下来,我们通过CLIP特征对数据集进行聚类(对于每个对象,我们对所有渲染的特征进行平均)。

图片

我们发现,一些集群包含许多低质量的模型类别,而其他集群则显得更加多样化或可解释。

我们将这些集群分到几个不同质量的bucket中,并使用所得bucket的加权混合作为我们的最终数据集。

图片

应用前景

OpenAI 研究人员指出,Point-E的点云还可用于制造真实世界的物体,比如3D打印。

通过额外的网格转换模型,该系统还可以进入游戏和动画开发工作流程。

虽然目前的目光都集中在2D艺术生成器上,但模型合成人工智能可能是下一个重大的行业颠覆者。

3D模型广泛应用于影视、室内设计、建筑和各种科学领域。

当下3D模型的制造耗时通常需要几个小时,而Point-E的出现恰恰弥补了这一缺点。

研究人员表示现阶段Point-E还存在许多缺陷,如从训练数据中继承的偏差以及对于可能用于创建危险物体的模型缺乏保护措施。

Point-E只是个起点,他们希望它能激发文本到3D合成领域的「进一步工作」。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

28

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

7

2026.01.31

无需付费的漫画app大全
无需付费的漫画app大全

想找真正免费又无套路的漫画App?本合集精选多款永久免费、资源丰富、无广告干扰的优质漫画应用,涵盖国漫、日漫、韩漫及经典老番,满足各类阅读需求。阅读专题下面的文章了解更多详细内容。

19

2026.01.31

漫画免费在线观看地址大全
漫画免费在线观看地址大全

想找免费又资源丰富的漫画网站?本合集精选2025-2026年热门平台,涵盖国漫、日漫、韩漫等多类型作品,支持高清流畅阅读与离线缓存。阅读专题下面的文章了解更多详细内容。

2

2026.01.31

漫画防走失登陆入口大全
漫画防走失登陆入口大全

2026最新漫画防走失登录入口合集,汇总多个稳定可用网址,助你畅享高清无广告漫画阅读体验。阅读专题下面的文章了解更多详细内容。

8

2026.01.31

php多线程怎么实现
php多线程怎么实现

PHP本身不支持原生多线程,但可通过扩展如pthreads、Swoole或结合多进程、协程等方式实现并发处理。阅读专题下面的文章了解更多详细内容。

1

2026.01.31

php如何运行环境
php如何运行环境

本合集详细介绍PHP运行环境的搭建与配置方法,涵盖Windows、Linux及Mac系统下的安装步骤、常见问题及解决方案。阅读专题下面的文章了解更多详细内容。

0

2026.01.31

php环境变量如何设置
php环境变量如何设置

本合集详细讲解PHP环境变量的设置方法,涵盖Windows、Linux及常见服务器环境配置技巧,助你快速掌握环境变量的正确配置。阅读专题下面的文章了解更多详细内容。

0

2026.01.31

php图片如何上传
php图片如何上传

本合集涵盖PHP图片上传的核心方法、安全处理及常见问题解决方案,适合初学者与进阶开发者。阅读专题下面的文章了解更多详细内容。

2

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
前端小白零基础入门HTML5+CSS3
前端小白零基础入门HTML5+CSS3

共361课时 | 33.7万人学习

CSS3 3D 特效视频教程
CSS3 3D 特效视频教程

共14课时 | 3万人学习

7天教会你HTML5和CSS3视频教程
7天教会你HTML5和CSS3视频教程

共21课时 | 4.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号