0

0

大模型时代如何捕捉不良内容?欧盟法案要求AI公司确保用户知情权

PHPz

PHPz

发布时间:2023-05-27 14:05:47

|

1653人浏览过

|

来源于搜狐

转载

在过去的 10 年里,大型科技公司在许多技术上变得非常擅长:语言、预测、个性化、存档、文本解析和数据处理。但它们在捕捉、标记和删除有害内容方面仍然十分糟糕。对于在美国传播的选举和疫苗阴谋论,只需回顾过去两年的事件,就能了解它们对现实世界造成的危害。

这种差异引发了一些问题。为什么科技公司在内容审核方面没有改进?他们可以被迫这么做吗?人工智能的新进展会提高我们捕捉不良信息的能力吗?

大多数情况下,当科技公司被美国国会要求对传播仇恨和错误信息做出解释时,它们往往会把自己失败的原因归咎于语言本身的复杂性。高管们表示,在不同语言和背景下理解和防止上下文相关的仇恨言论是一项难度很大的任务。

马克·扎克伯格(Mark Zuckerberg)最喜欢说的一句话是,科技公司不应该承担解决世界上所有政治问题的责任。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

大模型时代如何捕捉不良内容?欧盟法案要求AI公司确保用户知情权 (来源:STEPHANIE ARNETT/MITTR | GETTY IMAGES)

大多数公司目前同时使用技术和人工内容审核员,后者的工作被低估了,这反映在他们微薄的薪酬上。

例如,在 Facebook 上删除的所有内容中,人工智能目前负责了 97%。

然而,斯坦福互联网观测站的研究经理蕾妮·迪雷斯塔(Renee DiResta)说,人工智能并不擅长解释细微差别和背景,所以它不可能完全取代人类内容审查员,即使人类也不总是擅长解释这些事情。

由于自动内容审核系统通常是根据英文数据进行训练的,因此文化背景和语言也会带来挑战,难以有效处理其他语言的内容。

哈尼·法里德教授于加州大学伯克利分校信息学院提供了一个更为明显的解释。据法里德所言,由于内容审核不符合科技公司的经济利益,因此它没有跟上风险的发展。这一切都与贪婪有关。别再假装这不是钱的问题了。”

由于联邦监管的缺失,网络暴力的受害者很难要求平台承担经济责任。

内容审核似乎是科技公司和不良行为者之间一场永无止境的战争。当科技公司推出内容监管规则时,不良行为者通常会使用表情符号或故意拼写错误来避免被检测。然后这些公司试图堵住漏洞,人们再寻找新的漏洞,如此循环往复。

大模型时代如何捕捉不良内容?欧盟法案要求AI公司确保用户知情权

现在,大型语言模型来了......

现在的处境已经很难了。随着生成式人工智能和ChatGPT等大型语言模型的出现,情况可能会更加恶劣。生成式技术也有问题——比如,它倾向于自信地编造一些事情,并把它们作为事实呈现出来——但有一点是明确的:人工智能在语言方面越来越强大了,非常强大。

虽然迪雷斯塔和法里德都很谨慎,但他们认为现在还为时过早去做出对事情如何发展的判断。尽管许多像 GPT-4 和 Bard 这样的大模型都有内置的内容审核过滤器,但它们仍然可能产生有毒的输出,比如仇恨言论或如何制造炸弹的指令。

生成式人工智能可使坏人在更大规模和更快速度上进行虚假信息欺骗活动。考虑到人工智能生成内容的识别和标记方法严重不足,这个情况非常可怕。

豆包手机助手
豆包手机助手

豆包推出的手机系统服务级AI助手

下载

另一方面,最新的大型语言模型在文本解释方面比之前的人工智能系统要表现得更出色。理论上,它们可以用来促进自动内容审核的发展。

科技公司需要投资重新设计大型语言模型,以实现这一特定目标。尽管微软等公司已开始研究此事,但尚未出现引人注目的活动。

法里德表示:“尽管我们已经看到了许多技术进步,但我对内容审核方面的任何改进都持怀疑态度。”

尽管大型语言模型发展迅速,但它们依然面临上下文理解方面的挑战,这可能导致它们无法像人类审核员那样准确地理解帖子和图像之间的微小差别。跨文化的可扩展性和特殊性也带来了问题。“你会针对特定类型的小众市场部署一种模型吗?是按国家划分的吗?是按社区来做的吗?这不是一个放之四海而皆准的问题,”迪雷斯塔说。

大模型时代如何捕捉不良内容?欧盟法案要求AI公司确保用户知情权

基于新技术的新工具

生成式人工智能最终对在线信息领域是有害还是有益,可能在很大程度上取决于科技公司能否拿出好的、被广泛采用的工具来告诉我们内容是否是由人工智能生成的。

迪雷斯塔告诉我说,检测合成介质可能是需要优先考虑的一项技术挑战,因为这很有挑战性。这包括像数字水印这样的方法,它指的是嵌入一段代码,作为一种永久性的标记,表明附加的内容是由人工智能制作的。用于检测人工智能生成或操纵的帖子的自动化工具很有吸引力,因为与水印不同,它们不需要人工智能生成内容的创建者主动标记。换句话说,目前尝试识别机器生成内容的工具的表现还不够出色。

一些公司甚至提出了使用数学来安全地记录信息的加密签名,比如一段内容是如何产生的,但这将依赖于像水印这样的自愿披露技术。

欧盟上周刚刚提出的最新版《人工智能法案》(AI Act)要求,使用生成式人工智能的公司要在内容确实是由机器生成时通知用户。在未来几个月,我们可能会听到更多有关新兴工具的消息,因为对人工智能生成内容透明度的需求正在增加。

支持:Ren

原文:

https://www.technologyreview.com/2023/05/15/1073019/catching-bad-content-in-the-age-of-ai/

相关专题

更多
Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

公务员递补名单公布时间 公务员递补要求
公务员递补名单公布时间 公务员递补要求

公务员递补名单公布时间不固定,通常在面试前,由招录单位(如国家知识产权局、海关等)发布,依据是原入围考生放弃资格,会按笔试成绩从高到低递补,递补考生需按公告要求限时确认并提交材料,及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料(确认书、资格复审材料)并准时参加面试。

44

2026.01.15

公务员调剂条件 2026调剂公告时间
公务员调剂条件 2026调剂公告时间

(一)符合拟调剂职位所要求的资格条件。 (二)公共科目笔试成绩同时达到拟调剂职位和原报考职位的合格分数线,且考试类别相同。 拟调剂职位设置了专业科目笔试条件的,专业科目笔试成绩还须同时达到合格分数线,且考试类别相同。 (三)未进入原报考职位面试人员名单。

58

2026.01.15

国考成绩查询入口 国考分数公布时间2026
国考成绩查询入口 国考分数公布时间2026

笔试成绩查询入口已开通,考生可登录国家公务员局中央机关及其直属机构2026年度考试录用公务员专题网站http://bm.scs.gov.cn/pp/gkweb/core/web/ui/business/examResult/written_result.html,查询笔试成绩和合格分数线,点击“笔试成绩查询”按钮,凭借身份证及准考证进行查询。

11

2026.01.15

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

65

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

36

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

75

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

21

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

35

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

swoole进程树解析
swoole进程树解析

共4课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号