0

0

教ChatGPT学会看图的方法来了

WBOY

WBOY

发布时间:2023-04-12 22:58:05

|

2195人浏览过

|

来源于51CTO.COM

转载

2022年流行“文生图”模型,那2023年流行什么?

机器学习工程师Daniel Bourke的答案是:反过来!

这不,一个最新发布的“图生文”模型在网上爆火,其优秀的效果引发众多网友纷纷转发、点赞。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

不仅是基础的“看图说话”功能,写情诗、讲解剧情、给图片中对象设计对话等等,这个AI都拿捏得稳稳的!

比如,当你在网上刷到诱人的美食时,只需把图片发给它,它就会立马识别出需要的食材和做菜步骤:

图片

甚至图片中的一些列文虎克的细节也能“看”得清清楚楚。

当被问到如何才能从图片中倒着的房子里离开,AI的回答是:侧面不是有滑梯嘛!

图片

这只新AI名为BLIP-2 (Bootstrapping Language-Image Pre-training 2),目前代码已开源。

最重要的是,和以前的研究不同,BLIP-2使用的是一种通用的预训练框架,因此可以任意对接自己的语言模型。

有网友已经在畅想把接口换成ChatGPT后的强强组合了。

图片

作者之一Steven Hoi更是放话:BLIP-2未来就是“多模态版ChatGPT”。

图片

那么,BLIP-2神奇的地方还有哪些?一起往下看。

理解能力一流

BLIP-2的玩法可以说非常多样了。

只需提供一张图片,你就可以与它对话,让它看图讲故事、推理、生成个性化文本等各种要求都能满足。

举个例子,BLIP-2不仅能轻松识别图片中的景点是长城,还能介绍出长城的历史:

中国的长城是公元前221年秦始皇为了保护帝都不受北方侵略而建造的。

图片

给它一张电影剧照,BLIP-2不光知道出自哪,还知道故事的结局是be:泰坦尼克号沉没,男主淹死。

图片

在对人类神态的拿捏上,BLIP-2同样把握得非常准确。

被问到这张图片中的男人是什么表情,他为什么这样时,BLIP-2的回答是:他害怕那只鸡,因为它正朝他飞来。

图片

更神奇的是,在许多开放性问题上,BLIP-2的表现也很出色。

让它根据下面的图片写一句浪漫的话:

图片

它的回答是这样的:爱情就像日落,很难预见它的到来,但当它发生时,它是如此的美丽。

图片

这不光理解能力满分,文学造诣也相当强啊!

图片

我要服装批发网
我要服装批发网

由逍遥网店系统修改而成,修改内容如下:前台商品可以看大图功能后台商品在线添加编辑功能 (允许UBB)破解了访问统计系统增加整合了更加强大的第三方统计系统 (IT学习者v1.6)并且更新了10月份的IP数据库。修正了后台会员订单折扣金额处理错误BUG去掉了会员折扣价这个功能,使用市场价,批发价。这样符合实际的模式,批发价非会员不可看修正了在线编辑无法使用 “代码&rdqu

下载

让它给图片中的两只动物生成一段对话,BLIP-2也能轻松拿捏傲娇猫猫x蠢萌狗狗的设定:

猫: 嘿,狗狗,我能骑在你背上吗?

狗: 当然,为什么不呢?

猫: 我已经厌倦了在雪地里行走。

图片

那么,如此强大的理解能力背后,BLIP-2究竟是怎么做到的?

多项视觉语言任务上实现新SOTA

考虑到大规模模型的端到端训练成本越来越高,BLIP-2使用的是一种通用且高效的预训练策略:

从现成的冻结预训练图像编码器和冻结的大型语言模型中引导视觉语言预训练。

这也意味着,每个人都可以选择自己想用的模型接入使用。

而为了弥补了模态之间的差距,研究者提出了一个轻量级的查询Transformer。

该Transformer分两个阶段进行预训练:

第一阶段从冻结图像编码器引导视觉语言表示学习,第二阶段将视觉从冻结的语言模型引导到语言生成学习。

图片

为了测试BLIP-2的性能,研究人员分别从零样本图像-文本生成、视觉问答、图像-文本检索、图像字幕任务上对其进行了评估。

最终结果显示,BLIP-2在多项视觉语言任务上都实现了SOTA。

图片

其中,BLIP-2在zero-shot VQAv2上比Flamingo 80B高8.7%,且训练参数还减少了54倍。

而且显而易见的是,更强的图像编码器或更强的语言模型都会产生更好的性能。

图片

值得一提的是,研究者在论文最后也提到,BLIP-2还存在一个不足,那就是缺乏上下文学习能力:

每个样本只包含一个图像-文本对,目前还无法学习单个序列中多个图像-文本对之间的相关性。

研究团队

BLIP-2的研究团队来自Salesforce Research。

图片

第一作者为Junnan Li,他也是一年前推出的BLIP的一作。

目前是Salesforce亚洲研究院高级研究科学家。本科毕业于香港大学,博士毕业于新加坡国立大学。

研究领域很广泛,包括自我监督学习、半监督学习、弱监督学习、视觉-语言。

以下是BLIP-2的论文链接和GitHub链接,感兴趣的小伙伴们可以自取~

​论文链接:https://arxiv.org/pdf/2301.12597.pdf

GitHub链接:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

参考链接:[1]https://twitter.com/mrdbourke/status/1620353263651688448

[2]​https://twitter.com/LiJunnan0409/status/1620259379223343107

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

8

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

1

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

5

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

517

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

184

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

318

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

10

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

13

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

10

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
R 教程
R 教程

共45课时 | 5.7万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.1万人学习

PHP新手语法线上课程教学
PHP新手语法线上课程教学

共13课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号