讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

CV未来在这68张图上？Google Brain深扒ImageNet：顶级模型全都预测失败

WBOY

发布时间：2023-04-12 23:46:10

|

1553人浏览过

|

来源于51CTO.COM

转载

过去的十年里，ImageNet基本就是计算机视觉领域的「晴雨表」，看准确率有没有提升，就知道有没有新技术问世。

「刷榜」一直是模型创新的原动力，把模型Top-1准确率推动到90%+，比人类还高。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

但ImageNet数据集是否真的像我们想象中的那么有用？

很多论文都曾对ImageNet发出质疑，比如数据的覆盖度、偏见问题、标签是否完善等等。

其中最重要的是，模型90%的准确率是否真的准确？

最近Google Brain团队和加州大学伯克利分校的研究人员重新审视了几个sota模型的预测结果，发现模型真正的准确率还可能被低估了！

CV未来在这68张图上？Google Brain深扒ImageNet：顶级模型全都预测失败

论文链接：https://arxiv.org/pdf/2205.04596.pdf

研究人员通过对一些顶级模型所犯的每一个错误进行人工审查和分类，以便深入了解基准数据集的长尾错误。

其中主要关注ImageNet的多标签子集评估，最好的模型已经能达到97%的Top-1的准确率。

这项研究的分析结果显示，将近一半的所谓的预测错误根本就不是错误，并且还在图片中发现了新的多标签，也就是说，如果没有人工审查过预测结果，这些模型的性能可能都是被「低估」的！

不熟练的众包数据标注员往往会把数据标注错误，在很大程度上也影响了模型准确率的真实性。

为了校准ImageNet数据集，促进未来的良性进展，研究人员在文中提供了一个更新版的多标签评估集，并把sota模型预测存在明显错误的68个例子组合为一个新数据集ImageNet-Major，以方便未来CV研究者攻克这些bad case

还上「技术债」

从文章的标题「什么时候面团成了百吉饼？」就可以看出作者主要关注ImageNet里的标签问题，这也属于是历史遗留问题了。

下图是一个非常典型的标签歧义例子，图片里的标签为「面团」，模型的预测结果为「百吉饼」，错了吗？

这个模型理论上来说并没有预测错误，因为面团正在烤，马上就要成百吉饼了，所以既是面团又是百吉饼。

可以见得模型实际上已经能够预测到这个面团「即将成为」百吉饼，但在准确率上却没有拿到这一分。

实际上，以标准ImageNet数据集的分类任务作为评价标准，缺乏多标签、标签噪声、未指定的类别等问题都在所难免。

从负责识别此类对象的众包标注员的角度来看，这是一个语义甚至是哲学上的难题，只能通过多标签来解决，所以在ImageNet的衍生数据集中主要改善的就是标签问题。

距ImageNet成立已经过了16年，当时的标注人员、模型开发者对数据的理解肯定不如今天丰富，而ImageNet又是早期的大容量、标注相对良好的数据集，所以ImageNet很自然而然地成了CV刷榜的标准。

但标注数据的预算显然不如开发模型来的多，所以标签问题的改善也成了一种技术债。

为了找出ImageNet中剩下的错误，研究人员使用了一个具有 30 亿参数的标准ViT-3B模型（能够达到 89.5% 的准确度），其中JFT-3B作为预训练模型，并在ImageNet-1K上进行了微调。

使用ImageNet2012_multilabel的数据集作为测试集的情况下，ViT-3B初步达到的准确率为96.3%，其中模型明显错误预测了676个图像，然后对这些例子进行深入研究。

在重新标注数据时，作者没有选择众包，而是组建了一个5名专家评审组成的小组进行标注，因为这类标注错误对于非专业人员来说很难识别出来。

比如图(a)，普通的标注人员可能写一个「桌子」就过了，但实际上图片里还有很多其他物体，比如屏幕、显示器、马克杯等等。

图(b)的主体为两个人，但标签为picket fence（栅栏），显然也是不完善的，可能的标签还有领结、制服等等。

琅琅配音

琅琅配音

全能AI配音神器

下载

图(c)也是一个明显的例子，如果只标出来「非洲象」，那象牙可能就被忽视掉了。

图(d)的标签为lakeshore（湖岸），但标注成seashore（海滨）实际上也没毛病。

为了增加标注效率，研究者还开发了一个专用的工具，能够同时显示模型预测的类别、预测分数、标签和图像。

在某些情况下，专家组之间可能还存在标签的争议，这时候就把图片放到谷歌搜索里来辅助标注。

比如说有一个例子里，模型的预测结果里包含出租车，但图片里面除了「一点黄色」之外根本没有出租车的牌子。

这张图片的标注主要是通过谷歌图片搜索发现图像的背景是一个标志性的桥梁，然后研究人员定位到了图片所在的城市，对该城市中的出租车图像进行检索后，认可了这张图片里确实包含出租车而非一辆普通的汽车。并且从车牌的设计上进行对比，也验证了模型的预测是正确的。

在对研究的几个阶段发现的错误进行初步审查后，作者首先根据错误的严重程度将其分为两类：

1. 主要错误（Major）：人类能够理解标签的含义，并且模型的预测和标签完全不沾边；

2. 次要错误（Minor）：标签的可能是错误的或者不完善导致的预测错误。需要专家审查数据后进行纠正。

对于ViT-3B模型犯的155个主要错误，研究人员又找了其他三个模型共同预测来提高预测结果的多样性。

四个模型全都预测失败的主要错误有68个，然后分析了所有模型对这些例子的预测，并验证了它们没有一个是正确的新的多标签，即每个模型的预测结果确实都是主要错误。

这68个例子有几个共同特点，首先就是不同方式训练的sota模型都在这个子集上犯了错误、并且专家评审也认为预测结果完全和正确不沾边。

68张图像的数据集也足够小，方便后续研究者进行人工评估，如果未来攻克了这68个例子，那CV模型也许会取得新突破。

通过分析数据，研究者又将预测错误划分为四种类型：

1. 细粒度错误，其中预测的类别跟真实标签相似，但不完全相同；

2. 具有词表外（OOV）的细粒度，其中模型识别其类别正确但在 ImageNet 中不存在该对象的类别；

3. 虚假相关性，其中预测的标签是从图像的上下文中读取的；

4. 非原型，其中标签中的对象与预测标签相似、但并非完全一致。

在审查了原始 676 个错误后，研究人员发现其中298 个应该是正确的，或者可以确定原始标签是错误或有问题的。

总的来说，通过文章的研究结果可以得出四个结论：

1. 当一个大型、高精度模型做出其他模型没有的新预测时，大概其中50%都是正确的新多标签；

2. 更高精度的模型在类别和错误严重性之间没有表现出明显的相关性；

3. 如今SOTA模型在人工评估的多标签子集上的表现在很大程度上匹配或超过了最佳专家人类的表现；

4. 有噪音的训练数据和未指定的类别可能是限制有效衡量图像分类改进的一个因素。

或许图像标签问题还得等待自然语言处理技术来解决？

相关文章

Minimax提示词：复古胶片感视频生成

WorkBuddy怎么自动回复企业微信的消息_WorkBuddy远程办公指令配置教程【秘籍】

如何开启 Gemini AI 之旅？带你快速熟悉模型家族所有成员

海螺AI怎么生成双重曝光视频海螺AI创意视觉合成

OpenClaw快捷键有哪些怎么用_OpenClaw常用快捷键功能说明【详解】

相关标签:

谷歌

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：加特技只需一句话or一张图，Stable Diffusion的公司把AIGC玩出了新花样下一篇：走路都会摔倒的小米“铁大”机器人，终于学会了打架子鼓，似乎打的还不错？

作者最新文章

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

mysql如何进行右连接_mysql right join应用场景

2026-03-14 09:48

mysql如何插入或更新_mysql insert on duplicate key

2026-03-15 15:12

mysql如何使用正则匹配_mysql regexp用法指南

2026-03-17 15:33

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

bootstrap安装教程

bootstrap安装教程

本专题整合了bootstrap安装相关教程，阅读专题下面的文章了解更多详细操作教程。

3

2026.03.18

bootstrap框架介绍

bootstrap框架介绍

本专题整合了bootstrap框架相关介绍，阅读专题下面的文章了解更多详细内容。

4

2026.03.18

vscode 格式化

vscode 格式化

本专题整合了vscode格式化相关内容，阅读专题下面的文章了解更多详细内容。

2

2026.03.18

vscode设置中文教程

vscode设置中文教程

本专题整合了vscode设置中文相关内容，阅读专题下面的文章了解更多详细教程。

0

2026.03.18

vscode更新教程合集

vscode更新教程合集

本专题整合了vscode更新相关内容，阅读专题下面的文章了解更多详细教程。

3

2026.03.18

Gemini网页版零基础入门：5分钟上手Gemini聊天指南

Gemini网页版零基础入门：5分钟上手Gemini聊天指南

本专题专为零基础用户打造，5分钟快速掌握Gemini网页版核心用法。从账号登录到界面布局，详解如何发起对话、优化提示词及利用多模态功能。通过实战案例，教你高效获取信息、创作内容与分析数据。无论学习还是工作，轻松开启AI辅助新时代，让Gemini成为你的得力智能助手。

9

2026.03.18

Python WebSocket实时通信与异步服务开发实践

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

8

2026.03.18

Java Spring Security权限控制与认证机制实战

Java Spring Security权限控制与认证机制实战

本专题围绕 Java 后端安全体系建设展开，重点讲解 Spring Security 在权限控制与认证机制中的应用实践。内容涵盖用户认证流程、权限模型设计、JWT 鉴权方案、OAuth2 集成以及接口安全防护策略。通过实际项目案例，帮助开发者构建安全可靠的后端认证体系，提升系统安全性与可扩展能力。

26

2026.03.18

抖漫入口地址合集

抖漫入口地址合集

本专题整合了抖漫入口地址相关合集，阅读专题下面的文章了解更多详细地址。

176

2026.03.17

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

【web前端】Node.js快速入门

【web前端】Node.js快速入门

共16课时 | 2.1万人学习

swoole进程树解析

swoole进程树解析

共4课时 | 0.2万人学习

ThinkPHP6.x 微实战--十天技能课堂

ThinkPHP6.x 微实战--十天技能课堂

共26课时 | 1.9万人学习

最新文章

更多

airpordspro3怎么设置 airpordspro3基础设置方法【教程】

Perplexity Max版有什么区别 Perplexity Max和Pro订阅对比【选购建议】

Minimax怎么生成雨天打伞视频 Minimax细节动作生成

Minimax视频生成负向提示词怎么写 Minimax Negative Prompt

MuleRun如何翻译文档_MuleRun多语言翻译智能体调用

Minimax海螺AI好用吗真实使用测评

Minimax视频生成内测申请 Minimax内测资格获取

MuleRun如何生成产品场景故事_MuleRun情感化营销文案创作

Minimax写出动感单车视频提示词 Minimax运动场景写法

骡子快跑怎么设置自动回复_骡子快跑规则引擎配置入门

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部