0

0

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

PHPz

PHPz

发布时间:2023-08-29 20:25:03

|

836人浏览过

|

来源于机器之心

转载

近年来,文本生成图像领域取得了许多令人惊讶的突破,许多模型都能够根据文本指令创建高质量和多样化的图像。尽管生成的图像已经非常逼真,但目前的模型通常擅长生成风景、物体等实物图像,而难以生成具有高度连贯细节的图像,例如带有汉字等复杂字形文本的图像

为了解决这个问题,来自OPPO等机构的研究者们提出了一个名为GlyphDraw的通用学习框架。该框架的目标是让模型能够生成嵌入连贯文本的图像。这项工作是图像合成领域中首个解决汉字生成问题的工作

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

  • 请点击以下链接查看论文:https://arxiv.org/abs/2303.17870

  • 项目主页链接:https://1073521013.github.io/glyph-draw.github.io/

让我们先来看一下生成效果,比如为展览馆生成警示标语:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

制作广告牌:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

为图片添加简要的文字说明,同时还可以多样化文字样式

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

还有一个有趣且实用的例子是生成表情包:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

尽管结果有一些缺陷,但总体而言,该研究的生成效果已经非常出色。该研究的主要贡献包括:

  • 该研究提出了一个名为GlyphDraw的汉字图像生成框架。在整个生成过程中,利用汉字字形和位置等辅助信息,该框架能够提供细粒度的指导,从而使得生成的汉字图像能够高质量地无缝嵌入到图像中

  • 这项研究提出了一种有效的训练策略,通过限制预训练模型中可训练参数的数量,以防止过拟合和灾难性遗忘(catastrophic forgetting),成功地保持了模型在开放域生成方面的强大性能,并且能够准确地生成汉字图像

  • 这项研究详细描述了构建训练数据集的过程,并提出了一种新的基准方法来评估汉字图像生成的质量。其中,GlyphDraw 的生成准确率达到了75%,明显优于之前的图像合成方法

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

模型介绍:

首先,该研究设计了一种复杂的图像-文本数据集构建策略。接着,利用开源图像合成算法Stable Diffusion,提出了一种通用学习框架GlyphDraw,如图2所示

Imagine By Magic Studio
Imagine By Magic Studio

AI图片生成器,用文字制作图片

下载

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

稳定扩散的整体训练目标可以表示为以下公式:

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

GlyphDraw是基于Stable Diffusion中的交叉注意力机制的。它将原始输入的潜在向量z_t与图像的潜在向量z_t、文本掩码l_m和字形图像l_g进行级联替代

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

此外,通过使用特定领域的融合模块,条件 C 配备了混合字形和文本特征。引入文本掩码和字形信息,使整个训练过程实现了细粒度的扩散控制,这是提高模型性能的关键组成部分,最终能够生成带有汉字文本的图像

具体来说,文本信息的像素表征,在特别是复杂的文本形式中,如象形汉字,与自然物体存在明显的差异。举例来说,中文词语「天空(sky)」是由二维结构的多个笔画组成,而对应的自然图像是「点缀着白云的蓝天」。相比之下,汉字具有非常细粒度的特性,即使是微小的移动或变形也会导致文本渲染不正确,从而无法实现图像生成

嵌入字符到自然图像背景中还需要考虑一个关键问题,即在不影响相邻自然图像像素的情况下,精确控制文本像素的生成。为了在自然图像上展示出完美的汉字,作者设计了两个关键组件,即位置控制和字形控制,它们被集成到了扩散合成模型中

与其他模型的全局条件输入不同,字符生成需要更多地关注图像的特定局部区域,因为字符像素的潜在特征分布与自然图像像素的潜在特征分布有很大差异。为了防止模型学习崩溃,该研究创新性地提出了细粒度位置区域控制来解耦不同区域之间的分布

重写后的内容:除了位置控制之外,另一个重要问题是对汉字笔画合成进行精细控制。考虑到汉字的复杂性和多样性,在没有任何明确的先验知识的情况下,仅仅从大量的图像-文本数据集中学习是非常困难的。为了准确生成汉字,该研究将显式的字形图像作为额外的条件信息引入模型的扩散过程中

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

为了保持原意不变,需要将内容改写为中文,以下是改写后的内容: 研究设计和实验结果

由于此前没有专门用于汉字图像生成的数据集,该研究首先创建了一个用于定性和定量评估的基准数据集ChineseDrawText。随后,研究人员在ChineseDrawText上进行了几种方法的生成准确率测试,并通过OCR识别模型进行评估

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

该研究提出的GlyphDraw模型通过充分利用辅助字形和位置信息,达到了平均准确率为75%的出色效果,证明了该模型在字符图像生成方面的卓越能力。下图展示了几种方法的可视化比较结果

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

此外,GlyphDraw还可以通过限制训练参数来保持开放域图像合成性能,在MS-COCO FID-10k上一般图像合成的FID仅下降了2.3

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

OPPO提出GlyphDraw:一键生成带汉字图像,扩散模型输出表情包

感兴趣的读者可以阅读论文原文,了解更多研究细节。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

38

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

83

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

97

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

169

2026.03.04

Swift iOS架构设计与MVVM模式实战
Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践,系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例,帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

246

2026.03.03

C++高性能网络编程与Reactor模型实践
C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开,深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例,帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

34

2026.03.03

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号