0

0

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

WBOY

WBOY

发布时间:2023-05-15 19:04:04

|

1253人浏览过

|

来源于51CTO.COM

转载

现在,已是2022年底。

深度学习模型在生成图像上的表现,已经如此出色。很显然,它在未来会给我们更多的惊喜。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

十年来,我们是如何走到今天这一步的?

在下面的时间线里,我们会追溯一些里程碑式的时刻,也就是那些影响了AI图像合成的论文、架构、模型、数据集、实验登场的时候。

一切,都要从十年前的那个夏天说起。

开端(2012-2015)

深度神经网络面世之后,人们意识到:它将彻底改变图像分类。

同时,研究人员开始探索相反的方向,如果使用一些对分类非常有效的技术(例如卷积层)来制作图像,会发生什么?

这就是「人工智能之夏」诞生的伊始。

2012 年 12 月

一切发端于此。

这一年,论文《深度卷积神经网络的ImageNet分类》横空出世。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文作者之一,就是「AI三巨头」之一的Hinton。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

它首次将深度卷积神经网络 (CNN)、GPU和巨大的互联网来源数据集(ImageNet)结合在一起。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

2014 年 12 月

Ian Goodfellow等AI巨佬发表了史诗性论文巨作《生成式对抗网络》。

GAN是第一个致力于图像合成而非分析的现代神经网络架构(「现代」的定义即2012年后)。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

它引入了一种基于博弈论的独特学习方法,由两个子网络“生成器”和“鉴别器”进行竞争。

最终,只有「生成器」被保留在系统之外,并用于图像合成。

Hello World!来自Goodfellow等人2014年论文的GAN生成人脸样本。该模型是在Toronto Faces数据集上训练的,该数据集已从网络上删除

2015 年 11 月

具有重大意义的论文《使用深度卷积生成对抗网络进行无监督代表学习》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在这篇论文中,作者描述了第一个实际可用的GAN 架构 (DCGAN)。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这篇论文还首次提出了潜在空间操纵的问题——概念是否映射到潜在空间方向?

GAN的五年(2015-2020)

这五年间,GAN被应用于各种图像处理任务,例如风格转换、修复、去噪和超分辨率。

期间,GAN架构的论文开始爆炸式井喷。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

项目地址:https://github.com/nightrome/really-awesome-gan

与此同时,GAN的艺术实验开始兴起,Mike Tyka、Mario Klingenmann、Anna Ridler、Helena Sarin 等人的第一批作品出现。

第一个「AI 艺术」丑闻发生在2018年。三位法国学生使用「借来」的代码生成一副AI肖像,这副肖像成为第一幅在佳士得被拍卖的AI画像。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

与此同时,transformer架构彻底改变了NLP。

在不久的将来,这件事会对图像合成产生重大影响。

2017 年 6 月

《Attention Is All You Need》论文发布。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在《Transformers, Explained: Understand the Model Behind GPT-3, BERT, and T5》里,也有详实的解释。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

自此,Transformer架构(以BERT等预训练模型的形式)彻底改变了自然语言处理 (NLP) 领域。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

2018 年 7 月

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

《概念性标注:用于自动图像字幕的清理、上位化、图像替代文本数据集》论文发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这个和其他多模态数据集对于 CLIP 和 DALL-E 等模型将变得极其重要。

2018-20年

NVIDIA的研究人员对GAN 架构进行了一系列彻底改进。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在《使用有限数据训练生成对抗网络》这篇论文中,介绍了最新的StyleGAN2-ada。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

GAN 生成的图像第一次变得与自然图像无法区分,至少对于像Flickr-Faces-HQ (FFHQ)这样高度优化的数据集来说是这样。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

Mario Klingenmann, Memories of Passerby I, 2018. The baconesque faces是该地区AI艺术的典型代表,其中生成模型的非写实性是艺术探索的重点

2020 年 5 月

论文《语言模型是小样本学习者》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

OpenAI的LLM Generative Pre-trained Transformer 3(GPT-3)展示了变压器架构的强大功能。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

2020 年 12 月

论文《用于高分辨率图像合成的Taming transformers》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

ViT表明,Transformer架构可用于图像。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

本文中介绍的方法VQGAN在基准测试中产生了SOTA结果。

2010年代后期的GAN架构的质量主要根据对齐的面部图像进行评估,对于更多异构数据集的效果很有限。

因此,在学术/工业和艺术实验中,人脸仍然是一个重要的参考点。

Transformer的时代(2020-2022)

Transformer架构的出现,彻底改写了图像合成的历史。

从此,图像合成领域开始抛下GAN。

「多模态」深度学习整合了NLP和计算机视觉的技术,「即时工程」取代了模型训练和调整,成为图像合成的艺术方法。

《从自然语言监督中学习可迁移视觉模型》这篇论文中,提出了CLIP 架构。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

可以说,当前的图像合成热潮,是由CLIP首次引入的多模态功能推动的。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文中的CLIP架构

2021 年 1 月

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文《零样本文本到图像生成》发表(另请参阅OpenAI 的博客文章),其中介绍了即将轰动全世界的DALL-E的第一个版本。

这个版本通过将文本和图像(由VAE压缩为「TOKEN」)组合在单个数据流中来工作。

该模型只是「continues」the「sentence」。

数据(250M 图像)包括来自维基百科的文本图像对、概念说明和YFCM100M的过滤子集。

CLIP为图像合成的「多模态」方法奠定了基础。

2021 年 1 月

论文《从自然语言监督学习可迁移视觉模型》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

论文中介绍了CLIP,这是一种结合了ViT和普通Transformer的多模态模型。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

CLIP会学习图像和标题的「共享潜在空间」,因此可以标记图像。

模型在论文附录A.1中列出的大量数据集上进行训练。

2021 年 6 月

论文《扩散模型的发布在图像合成方面击败了GAN》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

扩散模型引入了一种不同于GAN方法的图像合成方法。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

研究者通过从人工添加的噪声中重建图像来学习。

它们与变分自动编码器 (VAE) 相关。

2021 年 7 月

DALL-E mini发布。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

它是DALL-E的复制品(体积更小,对架构和数据的调整很少)。

数据包括Conceptual 12M、Conceptual Captions以及 OpenAI 用于原始 DALL-E 模型的YFCM100M相同过滤子集。

因为没有任何内容过滤器或 API 限制,DALL-E mini为创造性探索提供了巨大的潜力,并导致推特上「怪异的 DALL-E」图像呈爆炸式增长。

2021-2022

Katherine Crowson发布了一系列CoLab笔记,探索制作 CLIP 引导生成模型的方法。

例如512x512CLIP-guided diffusion和VQGAN-CLIP(Open domain image generation and editing with natural language guidance,仅在2022年作为预印本发布但VQGAN一发布就出现了公共实验)。

就像在早期的GAN时代一样,艺术家和开发者以非常有限的手段对现有架构进行重大改进,然后由公司简化,最后由wombo.ai等「初创公司」商业化。

2022 年 4 月

论文《具有 CLIP 潜能的分层文本条件图像生成》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

该论文介绍了DALL-E 2。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字


它建立在仅几周前发布的 GLIDE论文(《 GLIDE:使用文本引导扩散模型实现逼真图像生成和编辑》的基础上。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

同时,由于 DALL-E 2 的访问受限和有意限制,人们对DALL-E mini重新产生了兴趣。

根据模型卡,数据包括「公开可用资源和我们许可的资源的组合」,以及根据该论文的完整CLIP和 DALL-E数据集。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

「金发女郎的人像照片,用数码单反相机拍摄,中性背景,高分辨率」,使用 DALL-E 2 生成。基于 Transformer 的生成模型与后来的 GAN 架构(如 StyleGAN 2)的真实感相匹配,但允许创建广泛的各种主题和图案

BlackBox AI
BlackBox AI

AI编程助手,智能对话问答助手

下载

2022 年 5-6 月

5月,论文《具有深度语言理解的真实感文本到图像扩散模型》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

6月,论文《用于内容丰富的文本到图像生成的缩放自回归模型》发表。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这两篇论文中,介绍了Imagegen和Parti。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字


以及谷歌对DALL-E 2的回答。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

「你知道我今天为什么阻止你吗?」由DALL-E 2生成,「prompt engineering」从此成为艺术图像合成的主要方法

AI Photoshop(2022年至今)

虽然DALL-E 2为图像模型设定了新标准,但它迅速商业化,也意味着在使用上从一开始就受到限制。

用户仍继续尝试DALL-E mini等较小的模型。

紧接着,随着石破天惊的Stable Diffusion的发布,所有这一切都发生了变化。

可以说,Stable Diffusion标志着图像合成「Photoshop时代」的开始。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

「有四串葡萄的静物,试图创造出像古代画家 Zeuxis Juan El Labrador Fernandez,1636 年,马德里普拉多的葡萄一样栩栩如生的葡萄」,Stable Diffusion产生的六种变化

2022 年 8 月

Stability.ai发布Stable Diffusion模型。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

在论文《具有潜在扩散模型的高分辨率图像合成》中,Stability.ai隆重推出了Stable Diffusion。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

这个模型可以实现与DALL-E 2同等的照片级真实感。

除了DALL-E 2,模型几乎立即向公众开放,并且可以在CoLab和Huggingface平台上运行。

2022 年 8 月

谷歌发表论文《DreamBooth:为主题驱动生成微调文本到图像扩散模型》。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

DreamBooth提供了对扩散模型越来越细粒度的控制。

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

然而,即使没有此类额外的技术干预,使用像 Photoshop 这样的生成模型也变得可行,从草图开始,逐层添加生成的修改。

2022 年 10 月

Hinton上榜!盘点AI图像合成10年史,那些值得被记住的论文和名字

最大的图库公司之一Shutterstock宣布与 OpenAI 合作提供/许可生成图像,可以预计,图库市场将受到Stable Diffusion等生成模型的严重影响。

相关专题

更多
Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

公务员递补名单公布时间 公务员递补要求
公务员递补名单公布时间 公务员递补要求

公务员递补名单公布时间不固定,通常在面试前,由招录单位(如国家知识产权局、海关等)发布,依据是原入围考生放弃资格,会按笔试成绩从高到低递补,递补考生需按公告要求限时确认并提交材料,及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料(确认书、资格复审材料)并准时参加面试。

44

2026.01.15

公务员调剂条件 2026调剂公告时间
公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线,且考试类别相同。 拟调剂职位设置了专业科目笔试条件的,专业科目笔试成绩还须同时达到合格分数线,且考试类别相同。 (三)未进入原报考职位面试人员名单。

58

2026.01.15

国考成绩查询入口 国考分数公布时间2026
国考成绩查询入口 国考分数公布时间2026

笔试成绩查询入口已开通,考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html,查询笔试成绩和合格分数线,点击“笔试成绩查询”按钮,凭借身份证及准考证进行查询。

11

2026.01.15

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

65

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

36

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

75

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

21

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

35

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号