GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

王林

发布时间：2023-11-21 08:38:56

941人浏览过

来源于51CTO.COM

转载

gpt-4的图形推理能力，竟然连人类的一半都不到？

美国圣塔菲研究所的一项研究显示，GPT-4做图形推理题的准确率仅有33%。

GPT-4v是具备多模态能力的，但其表现相对较差，只能正确回答25%的题目

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

△虚线表示16项任务的平均表现

这项实验结果一经发布，立即在YC上引起了广泛的讨论

一些支持这一结果的网友表示，GPT确实在处理抽象图形方面表现不佳，对于“位置”、“旋转”等概念的理解更加困难

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

然而，一些网友对这个结论表示怀疑，他们的观点可以简单概括为：

这个观点虽然不能说是错的，但是也无法完全让人信服

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

至于具体的原因，我们继续往下看。

GPT-4准确率仅33%

为了评估人类和GPT-4在这些图形题上的表现，研究者利用了今年5月推出的ConceptARC数据集

ConceptARC中一共包括16个子类的图形推理题，每类30道，一共480道题目。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

这16个子类包含了位置关系、形状、操作、比较等多个方面的内容

具体来说，这些题目都是由一个个像素块组成的。人类和GPT需要根据给定的示例来寻找规律，并分析出图像经过相同方式处理后的结果

作者在论文中具体展示了这16个子类的例题，每类各一道。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

结果451名人类受试者平均正确率，在各子项中均不低于83%，16项任务再做平均，则达到了91%。

在“放水”到一道题可以试三次（有一次对就算对）的情况下，GPT-4（单样本）的准确率最高不超过60%，平均值只有33%

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

早些时候，这项实验涉及的ConceptARC Benchmark的作者也做过类似的实验，不过在GPT-4中进行的是零样本测试，结果16项任务的平均准确率只有19%。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

GPT-4v是一种多模态的模型，但准确率却较低。在一个由48道题组成的小规模ConceptARC数据集上，零样本测试和单样本测试的准确率分别只有25%和23%

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

而研究者在进一步分析了错误答案后，发现人类的有些错误看上去很可能是“粗心导致”，而GPT则是完全没有理解题目中的规律。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

对于这些数据，大多数网友没有什么疑问，但引起这个实验备受质疑的是招募到的受试者群体以及提供给GPT的输入方式

受试者选择方式遭质疑

一开始，研究者在亚马逊的一个众包平台上招募受试者。

研究者从数据集中抽取了一些简单题目作为入门测试，受试者需要答对随机3道题目中的至少两道才能进入正式测试。

研究人员发现的结果显示，有些人只是出于贪图金钱的目的参加入门测试，而根本没有按照要求完成题目

迫不得已，研究者将参加测试的门槛上调到了在平台上完成过不少于2000个任务，且通过率要达到99%。

灵机语音

下载

不过，虽然作者用通过率筛人，但是在具体能力上，除了需要受试者会英语，对图形等其他专业能力“没有特殊要求”。

为了实现数据的多样性，研究人员在实验的后期将招募工作转移到了另一个众包平台上。最终，共有415名被试者参与了这项实验

尽管如此，还是有人质疑实验中的样本“不够随机”。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

还有网友指出，研究者用来招募受试者的亚马逊众包平台上，有大模型在冒充人类。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

多模态版本的GPT操作相对简单，只需直接传入图片，并使用相应的提示词即可

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

在零样本测试中，只需删除相应的EXAMPLE部分

但对于不带多模态的纯文本版GPT-4（0613），则需要把图像转化为格点，用数字来代替颜色。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

针对这种操作，就有人表示不认同了：

把图像转换成数字矩阵后，概念完全变了，就算是人类，看着用数字表示的“图形”，可能也无法理解

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

One More Thing

无独有偶，斯坦福大学的华裔博士生Joy Hsu也对GPT-4v的图形理解能力进行了几何数据集的测试

去年发布了一个数据集，旨在测试大型模型对欧氏几何的理解。在GPT-4v开放后，Hsu再次使用该数据集对其进行了测试

结果发现，GPT-4v对图形的理解方式，似乎“和人类完全不同”。

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

在数据方面，GPT-4v在回答这些几何问题上明显不如人类

GPT-4在图形推理方面表现不佳？即使“放水”后，准确率仅为33%

论文地址：
[1]https://arxiv.org/abs/2305.07141
[2]https://arxiv.org/abs/2311.09247

如何用Adobe Audition做AI音频降噪_详细设置方法是什么【方法】

CapCutAI如何生成字幕_CapCutAI字幕生成步骤【方法】

QClaw怎么让AI定时备份数据库_QClaw数据库操作与定时脚本【操作】

IdeogramAI如何修改生成图片_IdeogramAI编辑图片步骤【操作】

QClaw怎么让AI总结今天的热点新闻_QClaw信息聚合与摘要生成【方法】

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2928

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

109

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

326

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

105

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

236

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

659

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板