俄勒冈州作家伊丽莎白·莱昂(elizabeth lyon)已对adobe公司发起集体诉讼,指控其在训练名为 slimlm 的轻量级语言模型过程中,非法使用了含有其受版权保护作品的盗版数据集。

SlimLM 是 Adobe 推出的一套面向移动端文档处理场景(包括文本摘要、内容重写与智能问答等)优化的小型语言模型。据 Adobe 官方披露,该模型基于 SlimPajama-627B 数据集完成预训练——该语料库由AI芯片企业Cerebras于2023年6月开源发布,标榜为“去重、多源整合、公开可用”的训练资源。
但莱昂在起诉书中指出,SlimPajama 实质上是 RedPajama 数据集的直接复刻版本,而后者又源于广受争议的 Books3 数据集。Books3 汇集约19.1万册享有版权的图书,长期被质疑大量源自非法盗版平台(例如The Bibliotik)。
诉状明确指出:“由于 SlimPajama 系 RedPajama 的衍生复制品,其不可避免地承袭了 Books3 中的内容,其中即包含原告及本案集体成员依法享有著作权的文字作品。”
莱昂系多部非虚构类写作指导书籍的作者,其著作据称已被纳入上述未经授权使用的训练数据之中。她主张,Adobe在未取得许可、未标注原作者信息、亦未支付任何报酬的前提下,擅自将其原创文字用于商业化AI产品的研发,严重侵害了著作权法所赋予作者的排他性权利。
此类纠纷并非个案。Books3 与 RedPajama 已成为当前AI领域版权争议中的关键焦点:
- 2024年9月,Apple 因被指利用 Books3 训练 Apple Intelligence 系统而遭作家联盟起诉;
- 同期,Anthropic 就类似版权侵权指控与作家群体达成总额达15亿美元的和解协议,被视为全球AI版权诉讼的重要分水岭;
- 10月,Salesforce 亦被曝在其AI模型训练中依赖 RedPajama 数据集,引发新一轮法律关注。
源码地址:点击下载









