讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架人工智能 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI聊天问答 Agent智能体 AI文本写作 AI绘画作图 AI设计工具 AI视频创作 AI音频制作 AI办公学习 AI编程开发 AI提示词

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

0

0

谷歌这一“大招”，要逼死多少AI标注公司？

王林

发布时间：2023-09-20 12:25:13

|

1686人浏览过

|

来源于搜狐

转载

手工小作坊，终究敌不过工厂流水线。

如果说，当下的生成式AI，是一个正在茁壮成长的孩子，那么源源不断的数据，就是其喂养其生长的食物。

数据标注是制作这一“食物”的过程

然而，这一过程真的很卷，很累人。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌这一“大招”，要逼死多少AI标注公司？

进行标注的“标注师”不仅需要反复地识别出图像中的各种物体、颜色、形状等，有时候甚至需要对数据进行清洗和预处理。

随着人工智能技术的不断进步，人工数据标注的局限性也越来越明显。人工数据标注不仅耗费时间和精力，而且有时难以保证质量

谷歌这一“大招”，要逼死多少AI标注公司？

为了解决这些问题，谷歌最近提出了一种名为AI反馈强化学习（RLAIF）的方法，通过使用大型模型代替人类进行偏好标注

谷歌这一“大招”，要逼死多少AI标注公司？

研究结果显示，RLAIF能够在没有依赖人类标注的情况下，达到与人类反馈强化学习（RLHF）相当的改进效果，两者的胜率都是50%。此外，研究还发现，RLAIF和RLHF相比于监督微调（SFT）的基线策略都更优越

这些结果表明，RLAIF不需要依赖于人工标注，是RLHF的可行替代方案。

如果这项技术将来真的被广泛推广和普及，那么依赖人工“拉框”进行数据标注的许多企业是否将面临绝境？

01 数据标注现状

如果要简单地总结目前国内标注行业的现状，那就是：劳动量大，但效率却不太高，属于费力不讨好的状态。

标注企业被称为AI领域的数据工厂，通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。

为了降低成本，标注公司的老板们会在县城租一块场地，放置电脑设备。一旦有订单，他们就会在附近招募兼职人员来处理，如果没有订单，就会解散休息

简单来说，这个工种有点类似马路边上的临时装修工。

谷歌这一“大招”，要逼死多少AI标注公司？

在工位上，系统会随机给“标注师”一组数据，一般包含几个问题和几个回答。

之后，“标注师”需要先标注出这个问题属于什么类型，随后给这些回答分别打分并排序。

此前，人们在谈论国产大模型与GPT-4等先进大模型的差距时，总结出了国内数据质量不高的原因。

为什么数据质量不高？其中一部分原因在于数据标注的“流水线”

目前，中文大模型的数据来源是两类，一类是开源的数据集；一类是通过爬虫爬来的中文互联网数据。

中文大模型表现不够好的主要原因之一就是互联网数据质量，比如，专业人士在查找资料的时候一般不会用百度。

谷歌这一“大招”，要逼死多少AI标注公司？

因此，在面对一些较为专业、垂直的数据问题，例如医疗、金融等，就要与专业团队合作。

可这时，问题又来了：对于专业团队来说，在数据方面不仅回报周期长，而且先行者很有可能会吃亏。

例如，某家标注团队花了很多钱和时间，做了很多数据，别人可能花很少的钱就可以直接打包买走。

面对这种“搭便车困境”，国内许多大型模型都陷入了数据虽然众多，但质量却不高的奇怪境地

既然如此，那目前国外一些较为领先的AI企业，如OpenAI，他们是怎么解决这一问题的？

谷歌这一“大招”，要逼死多少AI标注公司？

OpenAI在数据标注方面并没有放弃使用廉价的密集劳动来降低成本

例如，此前就曝出其曾以2美元/小时的价格，雇佣了大量肯尼亚劳工进行有毒信息的标注工作。

然而，重要的区别在于如何解决数据质量和标注效率的问题

具体来说，OpenAI在这方面，与国内企业最大的不同，就在于如何降低人工标注的“主观性”、“不稳定性”的影响。

Frase

Frase

Frase是一款出色的长篇 AI 写作工具，快速创建seo优化的内容。

下载

02 OpenAI的方法重新撰写内容时，需要将语言改写为中文，不需要出现原始句子

为了降低这样人类标注员的“主观性”和“不稳定性”，OpenAI大致采用了两个主要的策略：

1、人工反馈与强化学习相结合；

在重新写作时，需要将原始内容转换为中文。以下是重新写作后的内容：首先，让我们谈谈标注方式。OpenAI的人工反馈与国内最大的区别在于，它主要是对智能系统的行为进行排序或评分，而不是对其输出进行修改或标注

智能系统的行为是指在复杂环境中，根据自身目标和策略，智能系统所采取的一系列动作或决策

比如玩游戏、操控机器人、与人对话等

谷歌这一“大招”，要逼死多少AI标注公司？

智能系统的输出，则是指在一个简单的任务中，根据输入的数据，生成一个结果或回答，例如写一篇文章、画一幅画。

普遍而言，智能系统的行为往往难以用“正确”或“错误”来判断，而更需要用偏好或满意度来评价

这种以“偏好”或“满意度”为标准的评价体系，不需要修改或标注具体的内容，因此减少了人类主观性、知识水平等因素对数据标注质量和准确性的影响

谷歌这一“大招”，要逼死多少AI标注公司？

诚然，国内企业在进行标注时，也会使用类似“排序”、“打分”的体系，但由于缺乏OpenAI那样的“奖励模型”作为奖励函数来优化智能系统的策略，这样的“排序”和“打分”，本质上仍然是一种对输出进行修改或标注的方法。

2、多样化、大规模的数据来源渠道；

国内的数据标注来源主要是第三方标注公司或科技公司自建团队，这些团队多为本科生组成，缺乏足够的专业性和经验，难以提供高质量和高效率的反馈。

谷歌这一“大招”，要逼死多少AI标注公司？

相比之下，OpenAI的人工反馈是通过多个渠道和团队获得的

OpenAI与多家数据公司和机构合作，例如Scale AI、Appen、Lionbridge AI等，不仅使用开源数据集和互联网爬虫来获取数据，还致力于获取更多样化和高质量的数据

这些数据公司和机构的标注手段与国内的同行相比，更加“自动化”和“智能化”

谷歌这一“大招”，要逼死多少AI标注公司？

例如，Scale AI使用了一种称为 Snorkel的技术，它是一种基于弱监督学习的数据标注方法，可以从多个不精确的数据源中生成高质量的标签。

同时，Snorkel还可以利用规则、模型、知识库等多种信号来为数据添加标签，而不需要人工直接标注每个数据点。这样可以大大减少人工标注的成本和时间。

谷歌这一“大招”，要逼死多少AI标注公司？

在数据标注成本降低、周期缩短的情况下，这些具备竞争优势的数据公司可以选择高价值、高难度、高门槛的细分领域，如自动驾驶、大语言模型、合成数据等，以不断提升自身的核心竞争力和差异化优势

如此一来，“先行者会吃亏”的搭便车困境，也被强大的技术和行业壁垒给消弭了。

标准化与小作坊的对比

由此可见，AI自动标注技术，真正淘汰的只是那些还在使用纯人工的标注公司。

尽管数据标注听上去是一个“劳动密集型”产业，但是一旦深入细节，便会发现，追求高质量的数据并不是一件容易的事。

以海外数据标注的独角兽Scale AI为代表，Scale AI不仅仅在使用非洲等地的廉价人力资源，同样还招聘了数十名博士，来应对各行业的专业数据。

谷歌这一“大招”，要逼死多少AI标注公司？

Scale AI为OpenAI等大型模型企业提供的最大价值在于数据标注的质量

而要想最大程度地保障数据质量，除了前面提到的使用AI辅助标注外，Scale AI的另一大创新，就是了一个统一的数据平台。

这些平台，包括了Scale Audit、Scale Analytics、ScaleData Quality 等。通过这些平台，客户可以监控和分析标注过程中的各种指标，并对标注数据进行校验和优化，评估标注的准确性、一致性和完整性。

谷歌这一“大招”，要逼死多少AI标注公司？

可以说，这样标准化、统一化的工具与流程，成为了区分标注企业中“流水线工厂”和“手工小作坊”的关键因素。

在这方面，目前国内大部分的标注企业，都仍在使用“人工审核”的方式来审核数据标注的质量，只有百度等少数巨头引入了较为先进的管理和评估工具，如EasyData智能数据服务平台。

如果没有专门的工具来监控和分析标注结果和指标，那么在关键的数据审核方面，对数据质量的把关就只能依赖于人工的经验，这种方式仍然只能达到作坊式水准

谷歌这一“大招”，要逼死多少AI标注公司？

因此，越来越多的中国企业，如百度、龙猫数据等，开始使用机器学习和人工智能技术，以提高数据标注的效率和质量，实现人机协作的模式

从这个角度来看，人工智能标注的出现并不意味着国内标注企业的末日，而只是传统的低效、廉价、缺乏技术含量的劳动密集型标注方式的末日

相关文章

EO3.1怎么生成电影感视频_EO3.1高清长镜头视频制作

Nano Banana 2— 谷歌推出的新一代图像生成模型

AI编程怎么挖掘海外需求_用谷歌趋势找AI赚钱机会方法

Gemini 3.1 Pro— 谷歌推出的最新AI模型，主打复杂推理

Gemini 3 Deep Think— 谷歌推出的专用推理模型

相关标签:

谷歌自动化 gpt

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：未来数据中心的发展：人工智能与液体冷却的融合下一篇：6自由度机器人的下一个进化阶段

作者最新文章

微信朋友圈定时发送神器微信自动发朋友圈软件推荐与使用

2026-01-04 12:22

抖音火山版免费下载电脑版抖音火山版电脑版免费下载入口

2026-01-04 14:33

必应搜索怎样结合演员名找其主演电视剧_必应搜索用演员搜剧技巧【精要】

2026-01-07 17:31

微信自动发朋友圈怎么设置微信朋友圈一键定时发送方法

2026-01-16 12:58

微信小程序怎么定时发朋友圈免费微信朋友圈定时发送工具

2026-02-01 08:25

mysql如何进行子查询_mysql嵌套查询实现方法

2026-03-03 10:56

mysql如何注释SQL语句_mysql单行与多行注释规范

2026-03-04 09:49

mysql如何插入或忽略_mysql insert ignore用法

2026-03-10 03:53

mysql如何查看字段信息_mysql desc与describe

2026-03-11 10:25

mysql如何获取最后插入ID_mysql last_insert_id函数

2026-03-13 11:33

热门AI工具

更多

DeepSeek

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

更多

PHP 命令行脚本与自动化任务开发

PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境（CLI）下的开发与应用，内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理，以及与 Linux 定时任务（Cron）的结合使用。通过实战示例，帮助开发者掌握使用 PHP 构建自动化脚本、批处理工具与后台任务程序的能力。

76

2025.12.13

vscode 格式化

vscode 格式化

本专题整合了vscode格式化相关内容，阅读专题下面的文章了解更多详细内容。

0

2026.03.18

vscode设置中文教程

vscode设置中文教程

本专题整合了vscode设置中文相关内容，阅读专题下面的文章了解更多详细教程。

0

2026.03.18

vscode更新教程合集

vscode更新教程合集

本专题整合了vscode更新相关内容，阅读专题下面的文章了解更多详细教程。

2

2026.03.18

Gemini网页版零基础入门：5分钟上手Gemini聊天指南

Gemini网页版零基础入门：5分钟上手Gemini聊天指南

本专题专为零基础用户打造，5分钟快速掌握Gemini网页版核心用法。从账号登录到界面布局，详解如何发起对话、优化提示词及利用多模态功能。通过实战案例，教你高效获取信息、创作内容与分析数据。无论学习还是工作，轻松开启AI辅助新时代，让Gemini成为你的得力智能助手。

4

2026.03.18

Python WebSocket实时通信与异步服务开发实践

Python WebSocket实时通信与异步服务开发实践

本专题聚焦 Python 在实时通信场景中的开发实践，系统讲解 WebSocket 协议原理、长连接管理、消息推送机制以及异步服务架构设计。内容包括客户端与服务端通信实现、连接稳定性优化、消息队列集成及高并发处理策略。通过完整案例，帮助开发者构建高效稳定的实时通信系统，适用于聊天应用、实时数据推送等场景。

8

2026.03.18

Java Spring Security权限控制与认证机制实战

Java Spring Security权限控制与认证机制实战

本专题围绕 Java 后端安全体系建设展开，重点讲解 Spring Security 在权限控制与认证机制中的应用实践。内容涵盖用户认证流程、权限模型设计、JWT 鉴权方案、OAuth2 集成以及接口安全防护策略。通过实际项目案例，帮助开发者构建安全可靠的后端认证体系，提升系统安全性与可扩展能力。

22

2026.03.18

抖漫入口地址合集

抖漫入口地址合集

本专题整合了抖漫入口地址相关合集，阅读专题下面的文章了解更多详细地址。

169

2026.03.17

多环境下的 Nginx 安装、结构与运维实战

多环境下的 Nginx 安装、结构与运维实战

本专题聚焦多环境下Nginx实战，详解开发、测试及生产环境的差异化安装策略与目录结构规划。深入剖析配置模块化设计、灰度发布流程及跨环境同步机制。结合监控告警、故障排查与自动化运维工具，提供全链路管理方案，助力团队构建灵活、高可用的Nginx服务体系，从容应对复杂业务场景挑战。

16

2026.03.17

热门下载

更多

网站特效

/

网站源码

/

网站素材

/

前端模板

相关下载

更多

php商城系统

淘源码商城PHP淘宝查信誉

PHP房产程序[BBWPS]

PHP简约自动发卡平台个人版

ERMEB域名PHP离线网络授权系统

Difeye-敏捷的轻量级PHP框架

大泉州汽车网PHP整站程序

精品课程

更多

相关推荐

/

热门推荐

/

最新课程

550W粉丝大佬手把手从零学JavaScript

550W粉丝大佬手把手从零学JavaScript

共1课时 | 0.4万人学习

极客学院Android开发视频教程

极客学院Android开发视频教程

共345课时 | 97.2万人学习

Dart Flutter2入门实战视频教程

Dart Flutter2入门实战视频教程

共47课时 | 6.4万人学习

最新文章

更多

痛点解决：文案没灵感？教你用 Gemini 快速产出 50 个创意标题

airpordspro3怎么设置 airpordspro3基础设置方法【教程】

Perplexity Max版有什么区别 Perplexity Max和Pro订阅对比【选购建议】

Minimax怎么生成雨天打伞视频 Minimax细节动作生成

Minimax视频生成负向提示词怎么写 Minimax Negative Prompt

MuleRun如何翻译文档_MuleRun多语言翻译智能体调用

Minimax海螺AI好用吗真实使用测评

Minimax视频生成内测申请 Minimax内测资格获取

MuleRun如何生成产品场景故事_MuleRun情感化营销文案创作

Minimax写出动感单车视频提示词 Minimax运动场景写法

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部