马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

WBOY

发布时间：2024-04-14 21:04:14

589人浏览过

来源于51CTO.COM

转载

从 2023 年 11 月起，grok 首次亮相以来，马斯克的 xai 正在大模型领域不断取得进步，向 openai 等先行者发起进攻。在 grok-1 开源后不到一个月，xai 的首个多模态模型就问世了。

阿里妈妈·创意中心

阿里妈妈营销创意中心

下载

昨天，xAI 推出了 Grok-1.5V，该模型不仅能理解文本，还能处理文档、图表、截图和照片中的内容。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Grok-1.5V是一种多模态模型，能够在许多领域展现出优雅的表现，从多学科推理到理解文档、科学图表、截图和照片等。xAI还表明，在接下来的几个月里，预计在图像、音频和视频等各种模态上显示出更高的模型能力。

我们看到了 Grok-1.5V 和 GPT-4V、Claude 3 Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试对比。其中特别提到的是：“Grok 在理解物理世界方面的能力尤其让我们兴奋。在我们新推出的 RealWorldQA 基准测试中，Grok 的表现优于同类产品。对于下面的所有数据集，我们都是在没有思维链提示的情况下对 Grok 进行评估的。”字数:105

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

如果 Grok-1.5 能在类似于 Grok-1 的开源许可证下发布，这将成为当下 LLM 竞争格局的一个重要节点。

Grok-1.5V 表现如何？

目前，Grok-1.5V 还没有完全开放，但会很快提供给早期测试者和现有的 Grok 用户。不过，博客中展示了 Grok-1.5V 的七个示例。

第一个是将流程图的白板草图转换为 Python 代码：

Prompt：Can you translate this into Python code?（你能把它翻译成 Python 代码吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok：当然！您提供的流程图描述了一个简单的竞猜游戏：计算机生成一个随机数，用户必须猜出它。下面是表示流程图中逻辑的 Python 代码：

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()

第二个是计算卡路里：

Prompt：How many calories are there in 5 slices of this?（5 片有多少卡路里？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok：如果一份是 3 片，含有 60 卡路里，那么 5 片就含有大约 100 卡路里。计算方法是首先确定每片的热量：60 卡 / 3 片 = 20 卡 / 片。然后，将每片的卡路里乘以片数：每片 20 卡路里 * 5 片 = 100 卡路里。

第三个是将草图转化为睡前故事：

Prompt：My son drew this, can you tell a short bedtime story based on his drawing?（这是我儿子画的，你能根据他的画讲一个简短的睡前故事吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok：

很久很久以前，在一个充满冒险和奇迹的国度里，有一个勇敢的小男孩，名叫提米。提米和家人住在舒适的小房子里，他最喜欢的事情就是探索周围的世界。

在一个阳光明媚的日子里，提米决定去附近的森林探险。他带上了自己最喜欢的零食、指南针和他最信任的笔记本，准备把看到的所有令人兴奋的事物都画下来。

当 Timmy 走进森林深处时，他发现了一条在阳光下闪闪发光的神奇河流。这条河是如此迷人，以至于提米决定做一艘小纸船，顺流而下，作为给森林精灵的特别讯息。

提米小心翼翼地折好纸船，在上面画了一个笑脸，希望能给森林精灵带来欢乐。然后，他把小船放在河面上，看着小船载着他的友谊和对大自然的爱漂走了。

夕阳西下，提米知道是时候回家了。他为自己在森林里度过的神奇的一天感到庆幸，他知道自己将永远铭记这次探险。

回到家后，提米和家人分享了他的故事，家人听到他在森林里度过的神奇一天都非常高兴。他们一致认为，提米勇敢、善良的精神是一种真正的激励，他们知道，提米今后还会有更多精彩的冒险经历。

就这样，带着满心的爱和满脑子的梦想，提米渐渐进入了梦乡，他渴望发现在他的想象世界里还有什么新的冒险在等着他。

第四个是解释梗图：

Prompt：I don't get it, please explain（我不理解，啥意思？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok：

这幅图幽默地将初创公司和大公司作了对比。在标有 "初创企业" 的左侧，有一群人在一起挖洞。他们都在积极参与，洞已经挖得很深了。

在标有 "大公司" 的右侧，有一群人围着一个洞站着。然而，与初创公司不同的是，只有一个人真正在挖洞，其他人都在观看或从事其他活动。

这幅图的幽默感来自于对初创企业和大公司之间差异的夸大。在初创公司，人们往往有一种紧迫感，希望每个人都能直接为手头的任务做出贡献。相比之下，大公司往往被描述为官僚主义更严重，所有团队成员对每个项目的直接参与更少。

第五个是将表格转换为 CSV 文件格式：

Prompt：Please convert this table to csv.（请将此表转换为 csv。）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok：

medal,name,sport,event,date1 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September1 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September1 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September2 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September2 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September3 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September3 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September

CSV 格式不支持样式或格式设置，因此信息以纯文本格式呈现。

第六个是辨别木头的腐朽程度：

Prompt：These holes are appearing around the screws in my deck. Is it rotten? Should I get my boards replaced?（这些孔出现在我的甲板上的螺钉周围。是不是烂了？我应该更换吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok：

甲板上的木材似乎已经开始腐烂。这表现在螺丝周围出现孔洞，这是木材腐烂的常见迹象。

为了确保露台的安全和使用寿命，建议更换受影响的木板。这将有助于防止其受到进一步损坏，并保持其结构的完整性。

如果您不确定如何更换木板，咨询专业的露台建造商或承包商可能会有所帮助。他们将能够评估损坏的程度，并就最佳行动方案向您提供专家建议。

第七个是解决编程问题：

Prompt：Can you write Python code that solves this?（你能编写 Python 代码来解决这个问题吗？）

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Grok 回复如下：

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left < right:if nums[left] + nums[right] == target:result.append([-target, nums[left], nums[right]])left += 1right -= 1while left < right and nums[left] == nums[left - 1]:left += 1while left < right and nums[right] == nums[right + 1]:right -= 1elif nums[left] + nums[right] < target:left += 1else:right -= 1return result

RealWorldQA 基准

本次发布还有一个亮点：xAI 推出了一个新的基准「RealWorldQA」。

下载地址：https://data.x.ai/realworldqa.zip

「为了开发有用的真实世界人工智能助手，提高模型对物理世界的理解至关重要。」xAI 希望借助该基准更好地评估多模态模型的基本真实世界空间理解能力。「虽然当前基准中的许多示例对人类来说相对容易，但它们往往对前沿模型构成挑战。」

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

目前，RealWorldQA 包含 700 多张图片，每张图片都有一个问题和易于验证的答案。

在真实世界的图像外，该数据集还包括从车辆上拍摄的匿名图像。这对于自动驾驶领域来说，或许是个好消息。

巧合的是，微软研究院前段时间更新了跨语言、模态、模型和任务的基准测试 MEGAVERSE，包含 22 个数据集，涵盖 83 种语言（包括资源匮乏的非洲语言）。微软还在基准测试中加入了两个多模态数据集，并比较了 LLaVA 模型 GPT-4-Vision 和 Gemini-Pro-Vision 的性能。

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

Meta 在前几天也开源了衡量人工智能系统具体问答能力的基准数据集 OpenEQA，包含家庭和办公室等 180 多种不同现实环境的 1600 多个问题，跨越七个类别，全面测试 AI 在物体和属性识别、空间和功能推理以及常识知识等技能方面的能力，加深大模型对现实世界的理解。

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

即使是最先进的 AI 模型，如 GPT-4V，在 OpenEQA 上也难以与人类表现相媲美。OpenEQA 是衡量人工智能系统理解和回答现实世界问题能力的新基准。

在这些研究的推动下，我们可以期待一下 2024 年大模型在现实世界任务取得更多的进展。

参考链接：https://x.ai/blog/grok-1.5v

SongGeneration 2— 腾讯联合清华开源的音乐生成模型

Ollama如何下载热门大模型_Ollama模型安装方法【教程】

AnythingLLM如何实现文档问答_AnythingLLM问答系统搭建方法【教程】

QClaw怎么用一步API接入更多模型_QClaw第三方API适配与密钥配置【指南】

Gemini镜像站：OpenClaw的第一批受害者已经出现了！

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2927

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

659

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板