0

0

谷歌发布了史上最大的通用模型PaLM-E,该模型拥有5620亿个参数,被称为终结者中最强大的大脑,并且可以通过图像与机器人进行交互

王林

王林

发布时间:2023-05-09 20:28:09

|

1601人浏览过

|

来源于51CTO.COM

转载

大语言模型的飞速「变异」,让人类社会的走向越来越科幻了。点亮这棵科技树后,「终结者」的现实仿佛离我们越来越近。

前几天,微软刚宣布了一个实验框架,能用ChatGPT来控制机器人和无人机。

谷歌当然也不甘其后,在周一,来自谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

论文地址:https://arxiv.org/abs/2303.03378

作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。

此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

横跨机器人、视觉-语言领域的「通才」模型

PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。

它的强大之处在于,能够利用视觉数据来增强其语言处理能力。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

当我们训练出最大的视觉语言模型,并与机器人结合后,会发生什么?结果就是PaLM-E,一个 5620亿参数、通用、具身的视觉语言通才——横跨机器人、视觉和语言

360智图
360智图

AI驱动的图片版权查询平台

下载

据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。

其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。

经过单个图像提示训练,PaLM-E不仅可以指导机器人完成各种复杂的任务,还可以生成描述图像的语言。

可以说,PaLM-E展示了前所未有的灵活性和适应性,代表着一次重大飞跃,特别是人机交互领域。

更重要的是,研究人员证明,通过在多个机器人和一般视觉语言的不同混合任务组合进行训练,可以带来从视觉语言转移到具身决策的几种方法,让机器人规划任务时能够有效地利用数据。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

除此之外,PaLM-E尤为突出的一点在于,拥有强大的正迁移能力。

在不同领域训练的PaLM-E,包括互联网规模的一般视觉-语言任务,与执行单一任务机器人模型相比,性能明显提高。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

而在模型尺度上,研究人员则观察到了一个显著的优势。

语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。

从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。

尽管只在单个图像进行训练,但PaLM-E在多模态思维链推理和多图像推理等任务中表现出突出的能力。

在OK-VQA基准上,PaLM-E取得了新的SOTA。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

测评结果

在测试中,研究人员展示了如何使用PaLM-E在两个不同实体上执行规划以及长跨度的任务。

值得注意的是,所有这些结果都是使用基于相同数据训练的相同模型获得的。

在以前,机器人通常需要人工的协助才能完成长跨度任务。但现在,PaLM-E通过自主学习就可以搞定了。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

比如,「从抽屉里拿出薯片」这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。

经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。

人类:给我来点薯片。

机器人:1. 走到抽屉旁 2.打开最上面的抽屉 3. 从最上面的抽屉里拿起绿色的薯片 4.放在柜台上。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

同样,让机器人去拿一个苹果时,给出图片后,机器人执行任务步骤如下——

人类:给我拿一个苹果。

机器人:1.走向苹果 2.拿起苹果 3.把它拿给操作员 4.放下苹果 5.完成。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

除了执行长跨度任务,PaLM-E可以让机器人执行规划任务,比如排列积木。

研究人员根据视觉和语言输入成功地进行多阶段的计划,并结合了长时间范围的视觉反馈,进而让模型能够成功地规划一个长周期的任务「将积木按颜色分类到不同的角落」。

如下,在排列组合上,机器人化身为多面手,按颜色将积木排序。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

模型的泛化方面,PaLM- E控制的机器人可以把红色积木移到咖啡杯的旁边。

值得一提的是,数据集只包含有咖啡杯的三个演示,但其中没有一个包括红色的积木块。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

类似的,虽然模型此前从未见过乌龟,但照样可以顺利地把绿色积木推到乌龟旁边

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

在零样本推理方面,PaLM-E可以在给定图像的情况下讲述笑话,并展示了包括感知,基于视觉的对话和计划在内的能力。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

多张图的关系,PaLM-E也整得很明白,比如图一(左)在图二(右)的哪个位置。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

此外,PaLM-E还可以在给定带有手写数字的图像执行数学运算。

比如,如下手写餐馆的菜单图,2张披萨需要多少钱,PaLM-E就直接给算出来了。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

以及一般的QA和标注等多种任务。

终结者最强大脑!谷歌发布史上最大「通才」模型PaLM-E,5620亿参数,看图说话还能操控机器人

最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。

但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

2

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

1

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

5

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

513

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

182

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

309

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

10

2026.01.28

php中文乱码如何解决
php中文乱码如何解决

本文整理了php中文乱码如何解决及解决方法,阅读节专题下面的文章了解更多详细内容。

13

2026.01.28

Java 消息队列与异步架构实战
Java 消息队列与异步架构实战

本专题系统讲解 Java 在消息队列与异步系统架构中的核心应用,涵盖消息队列基本原理、Kafka 与 RabbitMQ 的使用场景对比、生产者与消费者模型、消息可靠性与顺序性保障、重复消费与幂等处理,以及在高并发系统中的异步解耦设计。通过实战案例,帮助学习者掌握 使用 Java 构建高吞吐、高可靠异步消息系统的完整思路。

10

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Django 教程
Django 教程

共28课时 | 3.6万人学习

Go 教程
Go 教程

共32课时 | 4.3万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号