OpenAI遭实锤:研究称其AI模型“记住”了受版权保护的内容

haoxin2025-04-06 10:12:36IT之家

4 月 6 日消息,一项新研究似乎为 OpenAI 至少使用部分受版权保护内容来训练其人工智能模型的指控提供了依据。

注意到,OpenAI 正面临由作家、程序员以及其他版权持有者提起的诉讼,这些原告指责该公司在未经许可的情况下,使用他们的作品 —— 包括书籍、代码库等,来开发其模型。尽管 OpenAI 一直声称其享有合理使用的抗辩理由,但原告方则认为美国版权法中并无针对训练数据的豁免条款。

该研究由华盛顿大学、哥本哈根大学和斯坦福大学的研究人员共同撰写,提出了一种新方法,用于识别像 OpenAI 这样通过应用程序接口(API)提供服务的模型所“记忆”的训练数据。

AI 模型本质上是预测引擎,通过大量数据训练,它们能够学习各种模式,从而生成文章、照片等。虽然大多数输出并非训练数据的逐字复制,但由于模型的“学习”方式,部分内容不可避免地会被模型记忆下来。此前已有研究发现,图像模型会重复生成其训练数据中电影的截图,而语言模型则被观察到存在剽窃新闻文章的行为。

该研究的核心方法依赖于研究人员提出的“高意外性”词汇,即在大量作品中显得不常见的词汇。例如,在句子“Jack and I sat perfectly still with the radar humming”中,“radar”(雷达)一词被认为是高意外性的,因为从统计学角度来看,它出现在“humming”(嗡嗡作响)之前的可能性比“engine”(引擎)或“radio”(收音机)等词要低。

共同作者对包括 GPT-4 和 GPT-3.5 在内的几种 OpenAI 模型进行了测试,通过从虚构小说片段和《纽约时报》文章中移除高意外性词汇,然后让模型尝试“猜测”被屏蔽的词汇,来寻找记忆迹象。研究人员认为,如果模型能够成功猜出这些词语,则很可能表明该模型在训练过程中记忆了这些片段。

根据测试结果,GPT-4 显示出记住了流行小说书籍的部分内容,包括一个包含受版权保护电子书样本的数据集 BookMIA 中的书籍。结果还表明,该模型记住了《纽约时报》文章的部分内容,尽管比例相对较低。

华盛顿大学的博士生、该研究的共同作者阿比拉沙・拉维奇汉德(Abhilasha Ravichander)对 TechCrunch 表示,这些发现揭示了模型可能接受训练的“有争议的数据”。

长期以来,OpenAI 一直倡导放宽对使用受版权保护数据开发模型的限制。尽管该公司已经达成了一些内容许可协议,并提供了允许版权所有者标记不希望其用于训练的内容的退出机制,但该公司一直在游说多个政府将围绕人工智能训练方法的“合理使用”规则编入法典。(远洋)

中国电信与科大讯飞合作 将在多模态大模型等领域展开技术研发

据科创板日报消息,中国电信与科大讯飞签署了战略合作协议。双方此次合作旨在进一步探索5G、人工智能、云计算等新一代信息技术的创新应用与发展。未来,双方将在多模态大模型、智算网络、云计算、人工智能应用、泛智...

广汽第二代具身智能机器人首次公开亮相,年底对外发布人形机器人

12月10日消息,2024年明珠湾国际气候投融资大会于12月8-9日在广州南沙举行,由广汽集团自主研发的第二代具身智能机器人在大会首次公开展示。“具身智能”是指有身体并支持与物理世界进行交互的智能体,是人工智能技...

法国一公司发布全球首款AI智能镜子:可识别用户情绪 缓解压力

IT之家1月8日消息,在CES2024期间,法国一家名为Baracoda的智慧健康科技公司发布了全球首款AI智能镜子BMind,按照官方的说法,这是一款专为心理健康而设计,能够识别情绪、帮助管理压力的“健康伴侣”。BMind由生成...

AI手机看荣耀:荣耀MagicOS 9.0正式发布,开启手机自动驾驶新时代

10月23日,荣耀在MagicOS9.0发布会及开发者大会上正式发布行业首个搭载智能体的个人化全场景AI操作系统——MagicOS9.0,推出全新自研魔法大模型家族,并宣布YOYO助理正式升级为YOYO智能体。发布会上,荣耀全新智能体...

黄仁勋宣布英伟达AI芯片转向“年更”节奏,同时将带动其他产品迭代加速

5月23日消息,众所周知,英伟达平均每两年就会推出一代新的GPU架构,例如2020年发布的Ampere,2022年发布的Hopper,2024年发布的Blackwell,无论是AI还是游戏卡都是如此。不过,由于人工智能产业的爆火,英伟达仅凭...

TAG:OpenAI AI
上一篇:程序猿瑟瑟发抖 微软CTO:2030年AI将生成95%的代码
下一篇:Meta放大招 正式发布开源大模型Llama 4