OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

WBOY

发布时间：2023-06-05 15:03:39

1141人浏览过

来源于51CTO.COM

转载

在生成式 ai 盛行的全新时代，大型科技公司在使用在线内容时正在奉行「照我说的做，而不是做我所做的」策略。在一定程度上，这种策略可以说是一种双标以及话语权的滥用。

同时，随着大语言模型（LLM）成为 AI 发展的主流趋势，无论是大型还是初创公司，都在不遗余力地开发自己的大模型。其中训练数据是大模型能力好坏的重要前提。

近日，根据 Insider 的报道，微软支持的 OpenAI、谷歌及其支持的 Anthropic 多年来一直在使用其他网站或公司的在线内容来训练他们的生成式 AI 模型。这些都是在没有征求具体许可的情况下完成的，并将构成一场酝酿中的法律斗争的一部分，决定了网络的未来以及版权法在这一新时代的应用方式。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这些大型科技公司可能会争辩说他们是合理使用，是否真的如此有待商榷。但是他们却不会让自己的内容被用来训练其他 AI 模型。所以不禁要问，为什么这些大型科技公司却能在训练大模型时使用其他公司的在线内容呢？

这些公司很聪明，但也非常虚伪

大型科技公司使用他人在线内容却不允许他人使用自己的，这种说法是否有确切证据，这可以从他们一些产品的服务和使用条款中看出端倪。

首先来看 Claude，它是 Anthropic 推出的类似于 ChatGPT 的 AI 助手。该系统可以完成摘要总结、搜索、协助创作、问答、编码等任务。前段时间再次升级，将上下文 token 扩展到了 100k，处理速度大大加快。

OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

Claude 的服务条款是这样的。你不得以下列方式（这里列举出部分）访问或使用本服务，如果这些限制的任何一项与可接受使用政策不一致或不明确，则以后者依从为先：

开发与我们的服务竞争的任何产品或服务，包括开发或训练任何 AI 或机器学习算法或模型
未经条款允许，从我们的服务中抓取、爬取或以任何其他方式获取数据或信息

Claude 服务条款地址：https://vault.pactsafe.io/s/9f502c93-cb5c-4571-b205-1e479da61794/legal.html#terms

同样地，谷歌的生成式 AI 使用条款也是如此，「你不得使用本服务来开发机器学习模型或相关技术。」

OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

谷歌生成式 AI 使用条款地址：https://policies.google.com/terms/generative-ai

Sora

Sora是OpenAI发布的一种文生视频AI大模型，可以根据文本指令创建现实和富有想象力的场景。

下载

OpenAI 的使用条款又怎样呢？与谷歌类似，「你不得使用本服务的输出来开发与 OpenAI 竞争的模型。」

OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

OpenAI 使用条款地址：https://openai.com/policies/terms-of-use

这些公司很聪明，他们知道高质量的内容对于训练新的 AI 模型至关重要，所以不允许别人用这样的方式使用他们的输出也是合情合理的。但他们却无所顾忌地利用他人数据来训练自己的模型，这又该如何解释呢？

目前，OpenAI、谷歌和 Anthropic 拒绝了 Insider 的置评请求，并且没有做出任何回应。

Reddit、推特和其他公司：受够了

实际上，其他公司意识到正在发生的事情时并不高兴。今年 4 月，多年来一直被用于 AI 模型训练的 Reddit 计划开始对其数据的访问收费。

Reddit 首席执行官 Steve Huffman 表示，「Reddit 的数据语料库非常有价值，因此我们不能把这些价值免费提供给世界上最大的公司。」

同样今年 4 月，马斯克指责 OpenAI 的主要支持者微软非法使用 Twitter 的数据来训练 AI 模型。「诉讼时间到」，他在推特上写道。

OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

不过在回复 Insider 的置评时，微软表示「这个前提有太多的错误，我甚至不知道从何说起。」

OpenAI 首席执行官 Sam Altman 试图通过探索尊重版权的全新 AI 模型来深化这个问题。据 Axios 报道，他于近期表示，「我们正在尝试开发新的模式，如果 AI 系统使用了你的内容，或者使用了你的风格，你就会因此获得报酬。」

OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

Sam Altman

出版商（包括 Insider）都会是既得利益获得者。此外，包括美国新闻集团在内的一些出版商已经在推动科技公司付费使用其内容训练 AI 模型。

目前 AI 模型的训练方式「打破」了网络

有前微软高管表示这一定有问题。微软老将、著名软件开发者 Steven Sinofsky 认为，目前 AI 模型的训练方式「打破」了网络。

OpenAI、谷歌双标玩得溜：训练大模型用他人数据，却决不允许自身数据外流

Steven Sinofsky

也许，随着更多公司的觉醒，生成式 AI 时代这一不均衡的数据使用方式会很快被改变。

Gemini 3.1 Pro— 谷歌推出的最新AI模型，主打复杂推理

FireRedASR2S— 小红书开源的语音识别模型

Lyria 3— Google DeepMind推出的新一代AI音乐生成模型

千问AI怎么写各种风格的诗歌散文_通义千问文学创作助手【欣赏】

豆包ai怎么写歌_豆包ai音乐创作辅助功能【音乐】

相关专题

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6489

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

839

2023.09.14

token怎么获取

获取token值的方法：1、小程序调用“wx.login()”获取临时登录凭证code，并回传到开发者服务器；2、开发者服务器以code换取，用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容，可以阅读本专题下面的文章。

1088

2023.12.21

token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易，用来购买或出售特定的虚拟货币，也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1791

2024.03.01

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

484

2023.08.14

ChatGPT注册

ChatGPT注册方法：1、访问OpenAI的官方网站，进入注册页面；2、完成注册后收到一份邮件，打开后点击验证账号；3、选择一个适合您需求的订阅计划；4、获得访问ChatGPT的权限即可。

555

2023.09.12

国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型，由OpenAI开发。它是GPT的一个变体，专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人，可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题，希望对大家能有所帮助。

610

2023.10.25

手机安装chatgpt的方法

手机安装chatgpt的方法：1、在ChatGTP官网或手机商店上下载ChatGTP软件；2、打开后在设置界面中，选择语言为中文；3、在对局界面中，选择人机对局并设置中文相谱；4、开始后在聊天窗口中输入指令，即可与软件进行交互。想了解更多chatgpt的相关内容，可以阅读本专题下面的文章。

2995

2024.03.05

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板