1月15日消息,近日,Meta 就因使用包含大量盗版书籍的“Books3”数据集训练其 LLAM 1 和 LLAM 2 模型而面临包括喜剧演员 Sarah Silverman 和作家 Richard Kadrey 在内的一众作者的集体诉讼。Meta 虽承认使用了 Books3 数据集,却拒绝向作者支付适当的补偿。
Books3 是一个包含 19.5 万本图书、总容量近 37GB 的文本数据集,由 AI 研究者 Shawn Presser 于 2020 年创建,旨在为改进机器学习算法提供更好的数据源。
Meta 也将其用于训练自己的 LLAM 模型,然而 Books3 中包含大量从盗版网站 Bibliotik 爬取的受版权保护作品,使得 Meta 的行为面临法律风险。
Meta 的做法并非特例。此前,《纽约时报》也因 OpenAI 和微软使用其文章训练聊天机器人 ChatGPT 而对其提起诉讼。
OpenAI 则辩称,不使用受版权保护的材料来训练 AI 模型“几乎不可能”,并要求法院驳回相关诉讼。Meta 同样否认故意侵犯版权,声称其使用 Books3 数据集属于合理使用范畴,无需获得许可、署名或支付补偿。
此外,Meta 还在对诉讼作为集体诉讼的合法性提出异议,拒绝向提起诉讼的作家或其他参与 Books3 争议的人士提供任何形式的经济“补偿”。
值得注意的是,Books3 数据集中的部分内容来自盗版网站 Bibliotik,该数据集在 2023 年被丹麦反盗版组织 Rights Alliance 要求下架,目前面临数字存档禁令。
免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。