只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

王林

发布时间：2024-07-30 15:07:52

764人浏览过

来源于机器之心

转载

只要一张图就能「还原」绘画过程，这篇论文比爆火的paints-undo实现得更早

aixiv专栏是本站发布学术、技术内容的栏目。过去数年，本站aixiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

作者介绍：宋亦仁：新加坡国立大学 showlab 博士研究生，主要研究方向包括图像和视频生成， ai 安全性。

黄施捷：新加坡国立大学硕士二年级学生，目前在 Tiamat AI 任算法工程师实习生，主要研究方向是视觉生成。目前在寻找 2025 fall 博士入学机会。

最近，lvmin 带来了最新模型 Paints-UNDO。这款 AI 生成工具可以根据图片还原整个绘画过程，整个 AIGC 社区都为之震撼。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

^{Paints-UNDO 的演示 demo。}

早在 1 个月前，NUS，SJTU，Tiamat 等机构联合已经发布了一篇做类似任务的工作 ProcessPainter: Learn Painting Process from Sequence Data。Paints-UNDO 技术报告还未公布，让我们一起看看 ProcessPainter 是如何实现的吧！

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

论文标题：ProcessPainter: Learn Painting Process from Sequence Data
论文链接：https://arxiv.org/pdf/2406.06062
代码链接：https://github.com/nicolaus-huang/ProcessPainter

翻开任意一本绘画教学书籍，都能看到按照步骤画画的指导。然而，在生成式 AI 时代，通过去噪过程完成图像生成和人类画家绘画过程完全不同，AI 画画的过程无法直接用于绘画教学。

为了解决这一问题，ProcessPainter 通过在合成数据和人类画师绘画视频上训练时序模型，首次实现了让扩散模型生成绘画过程。此外，不同题材、画师的绘画过程差异巨大，风格迥异。然而，目前很少有研究将绘画过程作为研究对象。论文作者在预训练的 Motion Model 基础上，通过在特定画师的少量绘画序列上训练 Motion LoRA，学习画师的绘画技法。

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

MagicArena

字节跳动推出的视觉大模型对战平台

下载

深入解读 ProcessPainter 的核心技术

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

1. 时序注意力机制（Temporal Attention）

用时序注意力学习生成绘画过程是 ProcessPainter 的核心创新。绘画序列生成的关键是，整个序列是同一张图从抽象到具体的变化过程，前后帧在内容和构图上是一致且相关的。为了实现这一目标，作者为 Unet 引入了来自 AnimateDiff 的时序注意模块。该模块位于每一层扩散层之后，通过帧间自注意机制来吸收不同帧的信息，确保整个序列的平滑过渡和连续性。

实验证明，该训练策略可以在帧之间保持一致的绘画效果。绘画过程生成和视频生成任务不同之处在于，绘画过程前后变化更加剧烈，首帧是完成度很低的色块或线稿，而尾帧是完整的画作，这对模型训练带来挑战。为此，论文作者先在大量合成数据集上预训练时序模块，让模型学习各种各种 SBR（Stroke-based rendering) 方法的逐步绘画过程，再用数十个艺术家的绘画过程数据训练 Painting LoRA 模型。

2. 艺术品复制网络（Artwork Replication Network）

绘画实践中，我们更希望知道一幅作品是如何画出来的，以及如何从半成品绘画继续细化以达到期待的成品效果。这就引申出了两个任务：绘画过程重建和补全。鉴于这两个任务都有图像的输入，论文作者提出了艺术品复制网络（Artwork Replication Network）。

这一网络设计能够处理任意帧的图像输入，灵活控制绘画过程的生成。与之前的可控性生成方法类似，论文作者引入一个 ControlNet 的变体，来控制生成结果中的特定帧与参考图一致。

3. 合成数据集与训练策略

由于真实绘画过程数据较难获取，数量不足以支持大规模训练。为此，论文作者构建了用于预训练的合成数据集。

具体采用了三种合成数据方法：

1. 采用 Learn to Paint 来产生半透明贝赛尔曲线笔触的绘画序列；

2. 通过自定义笔触，用 Neural style painting 生成油画风格和中国画风格的绘画序列。

3. 上述 SBR（Stroke base painting）方法是从粗到细的拟合一张目标图像，意味着允许对于已经绘画的部分进行覆盖和修改，然而很多绘画种类，如中国画和雕刻，由于材料的限制，无法大幅度修改已经完成的部分，绘画过程是分区域完成的。为此，论文作者采用 SAM（segment anything) 和显著性检测方法，从空白画布逐个子区域添加内容，先绘制显著性物体，然后逐步向背景扩散，从而合成绘画过程视频。

在训练阶段，论文作者首先在合成数据集上预训练了 Motion Model，然后冻结了 Motion Model 的参数并训练了 Artwork Replication Network。在微调绘画 LoRA 模型时，第一步只使用最终帧来微调空间注意力 LoRA，以防止半成品绘画训练集损害模型的生成质量。

此后，论文作者冻结了空间注意力 LoRA 的参数，并使用完整的绘画序列微调时间注意力 LoRA。在推理阶段，当从文本生成绘画序列时，ProcessPainter 不使用艺术品复制网络。在绘画过程重建和补全任务中，ProcessPainter 使用艺术品复制网络接收特定帧的参考输入。为了确保生成的绘画序列中的帧尽可能与输入图像匹配，ProcessPainter 采用了 DDIM 反演技术来获取参考图像的初始噪声，并在 UNet 中替换特定帧的初始噪声。

ProcessPainter 效果展示

在合成数据集上训练的 ProcessPainter base model 可以生成过程上有风格差异的绘画序列。

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

通过在少量人类画师的绘画序列上分别训练 Motion Lora，ProcessPainter 可以学习特定画师的绘画过程和风格。

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

指定参考图像，ProcessPainter 可以将完成的艺术品逆向解构为绘画步骤，或者从半成品推演出完整的画作。

只要一张图就能「还原」绘画过程，这篇论文比爆火的Paints-UNDO实现得更早

这些技术组件的结合，让 ProcessPainter 不仅能够从文本生成绘画过程，还能将参考图转换成绘画序列，或是对未完成的画作进行补全。这无疑为艺术教育提供了新工具，同时也为 AIGC 社区开辟了新赛道。也许不久的将来，Civitai 上会有各种模拟人类画师绘画过程的不同 Lora 出现。

更多细节，欢迎阅读论文原文或访问 Github 项目主页。

2.78亿新中产的数字生活新宠！腾讯元宝成AIGC唯一上榜应用

AI一键生成游戏关卡地图 AI游戏地图设计工具推荐

美图联手阿里放大招！照片秒变动画，视频创作一键搞定

陆川联手MiniMax开发AI漫剧，全球2852部作品投稿引期待

腾讯混元图像3.0上线LiblibAI，80B参数助力创作者高效出图

相关专题

github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started，GitHub 是一种基于云的平台，可在其中存储、共享并与他人一起编写代码。通过将代码存储在GitHub 上的“存储库”中，你可以： “展示或共享”你的工作。持续“跟踪和管理”对代码的更改。

3346

2026.01.21

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

485

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2771

2024.08.16

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

2026.02.28