0

0

数据管理是生成式人工智能健康发展的关键

WBOY

WBOY

发布时间:2023-06-03 23:00:15

|

1273人浏览过

|

来源于51CTO.COM

转载

2023年成为人工智能时代的正式开端,几乎每个人都在谈论ChatGPT。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

数据管理是生成式人工智能健康发展的关键

像ChatGPT这样的生成式人工智能语言模型吸引了我们的目光和兴趣,因为我们第一次能够看到人工智能像真人一样与我们进行对话,并生成我们认为有创意的文章、诗歌和其他新内容。生成型人工智能解决方案似乎充满了更快、更好的创新、生产力和价值实现的突破性潜力。然而,它们的局限性尚未得到广泛关注,它们的数据隐私和数据管理最佳实践也未得到广泛理解。

最近,由于对人工智能技术的使用缺乏了解和足够的监管,科技和安全界的许多人发出了警告。我们已经看到了对人工智能工具输出的可靠性、IP(知识产权)和敏感数据泄露以及侵犯隐私和安全的担忧。

三星与ChatGPT的事件成为头条新闻,此前这家科技巨头无意中将自己的秘密泄露给了人工智能。并非只有三星:Cyberhaven的一项研究发现,4%的员工将敏感的企业数据放入了大型语言模型中。许多人不知道,当他们用公司数据训练模型时,人工智能公司可能能够在其他地方重用这些数据。

网络安全情报公司Recorded Future透露:“在ChatGPT发布的几天内,我们在暗网和特殊访问论坛上发现了许多威胁参与者,他们共享有缺陷但功能强大的恶意软件、社会工程教程、赚钱计划等,所有这些都是通过使用ChatGPT实现的。”

在隐私方面,当个人注册像ChatGPT这样的工具时,它可以像今天的搜索引擎一样访问IP地址、浏览器设置和浏览行为。但风险更高,因为“未经个人同意,它可能会披露政治信仰或性取向,并可能意味着尴尬甚至毁掉职业生涯的信息被发布。”私人互联网接入公司的工程总监Jose Blaya说。

显然,我们需要更好的法规和标准来实施这些新的人工智能技术。但是,关于数据治理和数据管理的重要作用,却缺乏讨论——但这在企业采用和安全使用人工智能方面发挥着关键作用。

一切都与数据有关

以下是我们应该关注的三个领域:

数据治理和训练数据的透明度:一个核心问题围绕着专有的预训练人工智能模型或大型语言模型(LLM)。使用LLM的机器学习程序包含了来自许多不同来源的大量数据集。问题是,LLM是一个黑匣子,它对源数据几乎没有透明度。我们不知道这些来源包含欺诈数据,是否包含PII(个人身份信息),是否可信、无偏见、准确或合法。LLM研发公司并不共享其源数据。

《华盛顿邮报》分析了谷歌横跨1500万个网站的C4数据集,发现了数十个令人不快的网站,其中包含煽动性和PII数据以及其他可疑内容。我们需要数据治理,这需要所使用的数据源的透明度以及这些来源所含知识的有效性/可信度。例如,你的人工智能机器人可能正在对未经核实的来源或假新闻网站的数据进行培训,从而对其知识产生偏见,而这些知识现在已成为你公司新政策或研发计划的一部分。

数据隔离和数据域:目前,不同的人工智能供应商在如何处理你提供的数据有不同的隐私政策。无意中,员工可能会在他们的提示中向LLM提供数据,而不知道该模型可能会将数据纳入其知识库。公司可能会在不知情的情况下将商业秘密、软件代码和个人数据暴露给世界。

一些人工智能解决方案提供了变通方法,如采用API,通过将您的数据排除在预先训练的模型之外来保护数据隐私,但这同时限制了人工智能的功能价值。因为理想的用例是在保持数据隐私的同时,用你特定情况数据增强预先训练的模型。

一个解决方案是让经过预训练的人工智能工具理解数据“域”的概念。培训数据的“通用”域用于预培训,并在通用应用之间共享,而基于“专有数据”的培训模型则安全地限制在组织的边界内。数据管理可以确保创建和保留这些边界。

人工智能的衍生作品:数据管理的第三个领域涉及人工智能过程及其最终所有者产生的数据。比方说,使用人工智能机器人来解决编码问题。如果某件事做得不正确,导致出现错误或错误,通常我们会知道谁做了什么来调查和修复。但有了人工智能,组织很难界定人工智能执行的任务所产生的任何错误或不良结果由谁负责——你不能责怪机器:在某种程度上,是人为造成了错误或糟糕的结果。

更复杂的问题是IP,你拥有用生成人工智能工具创作的作品的IP吗?你会在法庭上如何辩护?据《哈佛商业评论》报道,艺术界已经开始对某些人工智能应用提起索赔诉讼。

现在要考虑数据管理策略

在早期,我们不知道人工智能在坏数据、隐私和安全、知识产权和其他敏感数据集的风险方面有什么不知道的。人工智能也是一个广泛的领域,有多种方法,如LLM、基于业务流程逻辑的自动化,这些只是通过数据治理政策和数据管理实践的结合来探索的一些主题:

暂停对生成人工智能的实验,直到你有了一个监督战略、政策、以及降低风险和验证结果的程序。

纳入数据管理指导原则,首先要对自己的数据有一个坚实的了解,无论数据驻留在哪里。您的敏感PII和客户数据在哪里?你有多少IP数据,这些文件位于哪里?你能监控使用情况,以确保这些数据类型不会被无意中输入人工智能工具,并防止安全或隐私泄露吗?

不要向人工智能应用程序提供超出所需的数据,也不要共享任何敏感的专有数据。锁定/加密IP和客户数据以防止其被共享。

了解人工智能工具如何以及是否可以对数据源透明。

供应商能否保护您的数据?谷歌在其博客中分享了这一声明,但“如何”尚不清楚:“无论一家公司是在Vertex AI中培训模型,还是在Generative AI App Builder上建立客户服务体验,私人数据都是保密的,不会在更广泛的基础模型培训语料库中使用。”阅读每个人工智能工具的合同语言,了解你提供给它的任何数据是否可以保密。

标记业主、委托项目的个人或部门衍生作品的数据。这很有帮助,因为你可能最终要对你公司制作的任何作品负责,你想知道人工智能是如何融入这个过程的,是由谁参与的。

确保域之间数据的可移植性。例如,一个团队可能想要剥离其IP和识别特征的数据,并将其输入到通用训练数据集中以供将来使用。这一过程的自动化和跟踪至关重要。

随时了解正在制定的任何行业法规和指导方针,并与其他组织的同行交谈,了解他们如何应对风险缓解和数据管理。

在开始任何生成式人工智能项目之前,请咨询法律专家,以了解数据泄露、隐私和IP侵犯、恶意行为者或虚假/错误结果时的风险和流程。

企业中人工智能的实用方法

人工智能发展迅速,前景广阔,有可能以前所未有的速度加速创新、削减成本和改善用户体验。但与大多数强大的工具一样,人工智能需要在正确的背景下谨慎使用,并设置适当的数据治理和数据管理护栏。人工智能的数据管理尚未出现明确的标准,这是一个需要进一步探索的领域。同时,企业在使用人工智能应用程序之前,应谨慎行事,确保清楚了解数据暴露、数据泄露和潜在的数据安全风险。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

301

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

人工智能在生活中的应用
人工智能在生活中的应用

人工智能在生活中的应用有语音助手、无人驾驶、金融服务、医疗诊断、智能家居、智能推荐、自然语言处理和游戏设计等。本专题为大家提供人工智能相关的文章、下载、课程内容,供大家免费下载体验。

408

2023.08.17

人工智能的基本概念是什么
人工智能的基本概念是什么

人工智能的英文缩写为AI,是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

300

2024.01.09

人工智能不能取代人类的原因是什么
人工智能不能取代人类的原因是什么

人工智能不能取代人类的原因包括情感与意识、创造力与想象力、伦理与道德、社会交往与沟通能力、灵活性与适应性、持续学习和自我提升等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

628

2024.09.10

Python 人工智能
Python 人工智能

本专题聚焦 Python 在人工智能与机器学习领域的核心应用,系统讲解数据预处理、特征工程、监督与无监督学习、模型训练与评估、超参数调优等关键知识。通过实战案例(如房价预测、图像分类、文本情感分析),帮助学习者全面掌握 Python 机器学习模型的构建与实战能力。

33

2025.10.21

ChatGPT注册
ChatGPT注册

ChatGPT注册方法:1、访问OpenAI的官方网站,进入注册页面;2、完成注册后收到一份邮件,打开后点击验证账号;3、选择一个适合您需求的订阅计划;4、获得访问ChatGPT的权限即可。

529

2023.09.12

国内免费ChatGPT大全
国内免费ChatGPT大全

ChatGPT是一种基于深度学习技术的自然语言处理模型,由OpenAI开发。它是GPT的一个变体,专门设计用于生成上下文相关的文本回复。ChatGPT被训练成一个聊天机器人,可以与用户进行对话交互。更多关于ChatGPT的文章详情请查看本专题,希望对大家能有所帮助。

574

2023.10.25

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

36

2026.01.14

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
麻省理工大佬Python课程
麻省理工大佬Python课程

共34课时 | 5.1万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号