0

0

Jodi— 中国科学院推出的视觉理解与生成统一模型

DDD

DDD

发布时间:2025-05-29 16:54:16

|

819人浏览过

|

来源于php中文网

原创

jodi 是由中国科学院计算技术研究所与中国科学院大学共同研发的一种扩散模型框架,其核心在于通过联合建模图像域与多个标签域,将视觉生成与理解功能整合在一起。该框架依托于线性扩散transformer架构,并结合角色切换机制,能够完成联合生成(即同时生成图像及其对应的多个标签)、可控生成(依据标签组合生成特定图像)以及图像感知(从图像中提取多个标签信息)三大任务。jodi 的训练数据来源于 joint-1.6m 数据集,该数据集包含约 20 万张高清图像及与之相关的 7 种视觉领域的标签信息,从而确保了模型在生成与理解任务上的卓越表现,并展现出良好的可扩展性和跨领域一致性。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Jodi— 中国科学院推出的视觉理解与生成统一模型

SlidesAI
SlidesAI

使用SlidesAI的AI在几秒钟内创建演示文稿幻灯片

下载

Jodi 的主要功能

  • 联合生成:不仅能生成图像本身,还能同步生成与之相匹配的多种标签,如深度图、法线图、边缘图等,确保生成的图像与标签在语义和空间布局上高度吻合。
  • 可控生成:允许用户根据所需特性指定特定的标签作为条件输入,进而控制生成图像的具体属性或外观特征。
  • 图像感知:可以从现有图像中准确识别并预测出多个标签信息,涵盖深度估计、边缘检测、语义分割等多个方面,为图像的理解提供了全面的支持。

Jodi 的技术原理

  • 联合建模:通过对图像域和多个标签域之间的联合概率分布进行建模,推导出生成任务所需的边际分布和条件分布,从而实现高效的图像生成与理解。
  • 角色切换机制:在训练阶段,每个域会被随机赋予生成目标([G])、条件输入([C])或者被忽略([X])的角色,这使得模型能够在同一框架下学会处理不同类型的数据分布,涵盖联合生成、可控生成和图像感知等多种应用场景。
  • 线性扩散Transformer:采用线性扩散Transformer作为基础架构,利用线性注意力机制显著降低了计算成本,使模型具备处理大规模多视觉领域数据的能力。此外,还加入了掩码线性注意力和领域不变的位置嵌入技术,进一步提升了不同视觉领域间的一致性和对齐效果。
  • 数据集构建:为了满足多视觉领域联合建模的需求,Jodi 创建了一个名为 Joint-1.6M 的数据集,其中包含了超过 20 万张高质量图像及其对应的 7 类视觉领域的自动标注,为模型训练提供了充足且多样化的数据资源。

Jodi 的项目地址

Jodi 的应用场景

  • 创意内容生成:为创作者提供高效便捷的方式去构思新颖独特的艺术作品或设计项目。
  • 多模态数据增强:帮助扩充训练数据集的质量与数量,特别是在缺乏足够标注样本的情况下尤为有用。
  • 图像编辑与修复:针对已有图像中存在的缺陷或不足之处进行修补和完善,或者按照用户意愿调整整体风格。
  • 视觉理解与分析:通过对图像进行全面细致的标签预测,辅助医疗影像诊断、自动驾驶导航等领域的工作开展。
  • 虚拟现实与增强现实:用于创建沉浸式虚拟环境或增强真实世界场景的真实感与交互性,提升用户体验。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
github中文官网入口 github中文版官网网页进入
github中文官网入口 github中文版官网网页进入

github中文官网入口https://docs.github.com/zh/get-started,GitHub 是一种基于云的平台,可在其中存储、共享并与他人一起编写代码。 通过将代码存储在GitHub 上的“存储库”中,你可以: “展示或共享”你的工作。 持续“跟踪和管理”对代码的更改。

764

2026.01.21

http500解决方法
http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

413

2023.11.09

http请求415错误怎么解决
http请求415错误怎么解决

解决方法:1、检查请求头中的Content-Type;2、检查请求体中的数据格式;3、使用适当的编码格式;4、使用适当的请求方法;5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容,可以阅读下面的文章。

418

2023.11.14

HTTP 503错误解决方法
HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容,可以阅读本专题下面的文章。

2239

2024.03.12

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2071

2024.08.16

Python 自然语言处理(NLP)基础与实战
Python 自然语言处理(NLP)基础与实战

本专题系统讲解 Python 在自然语言处理(NLP)领域的基础方法与实战应用,涵盖文本预处理(分词、去停用词)、词性标注、命名实体识别、关键词提取、情感分析,以及常用 NLP 库(NLTK、spaCy)的核心用法。通过真实文本案例,帮助学习者掌握 使用 Python 进行文本分析与语言数据处理的完整流程,适用于内容分析、舆情监测与智能文本应用场景。

10

2026.01.27

拼多多赚钱的5种方法 拼多多赚钱的5种方法
拼多多赚钱的5种方法 拼多多赚钱的5种方法

在拼多多上赚钱主要可以通过无货源模式一件代发、精细化运营特色店铺、参与官方高流量活动、利用拼团机制社交裂变,以及成为多多进宝推广员这5种方法实现。核心策略在于通过低成本、高效率的供应链管理与营销,利用平台社交电商红利实现盈利。

109

2026.01.26

edge浏览器怎样设置主页 edge浏览器自定义设置教程
edge浏览器怎样设置主页 edge浏览器自定义设置教程

在Edge浏览器中设置主页,请依次点击右上角“...”图标 > 设置 > 开始、主页和新建标签页。在“Microsoft Edge 启动时”选择“打开以下页面”,点击“添加新页面”并输入网址。若要使用主页按钮,需在“外观”设置中开启“显示主页按钮”并设定网址。

16

2026.01.26

苹果官方查询网站 苹果手机正品激活查询入口
苹果官方查询网站 苹果手机正品激活查询入口

苹果官方查询网站主要通过 checkcoverage.apple.com/cn/zh/ 进行,可用于查询序列号(SN)对应的保修状态、激活日期及技术支持服务。此外,查找丢失设备请使用 iCloud.com/find,购买信息与物流可访问 Apple (中国大陆) 订单状态页面。

131

2026.01.26

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 3.1万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号