OpenAI 公开回应《纽约时报》版权诉讼:“没有价值”,chatgpt训练是合理使用

ChatGPT代充2024-02-20 09:52:19941

温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。

 

继去年年底爆出重磅消息称,全球阅读量最大、最具标志性的报纸品牌之一《纽约时报》因侵犯版权而起诉 ChatGPT 制造商 OpenAI 及其支持者 Microsoft,今天 OpenAI 在一篇博客文章中公开回击,认为该诉讼“毫无根据”。

“我们支持新闻业,与新闻机构合作,并认为《纽约时报》的诉讼是没有道理的,”OpenAI 的帖子开始。

该帖子继续提出了三个广泛的主张:

1. 我们与新闻机构合作,创造新的机会

2. 培训是合理使用的,但我们提供退出选择,因为这是正确的做法

3. “反流”是一个罕见的错误,我们正在努力将其归零

每一项索赔在帖子中都有进一步的阐述。

最大的头条新闻(双关语)是 OpenAI 试图将其最近与其他竞争对手新闻媒体和出版商(包括 Axel Springer(Politico 和 Business Insider 的出版商)以及美联社 (AP) )的内容许可协议与它之前的立场联系起来,即它可以并且可以继续合法地抓取任何公共网站以获取训练数据来训练其 AI 模型。 包括为 ChatGPT 提供支持的 GPT-3.5 和 GPT-4 模型。

自 2023 年 11 月的 DevDay 开发者大会以来,OpenAI 为其 AI 产品的组织和订阅者提供了赔偿或自掏腰包的法律保护。

我们是怎么走到这一步的?

《纽约时报》最初于 2023 年 12 月下旬在著名的纽约南区法院(负责监督曼哈顿)提起诉讼。它指责 OpenAI 不仅在未经适当许可或补偿的情况下对其受版权保护的文章进行培训,而且还提供了 ChatGPT 生成内容与之前发表的《纽约时报》文章几乎相同的文本的例子,它表示,通过对《纽约时报》作品进行“未经授权的复制和衍生”,这构成了直接侵犯版权。

据报道,该诉讼是在OpenAI和纽约时报代表之间为达成内容许可协议而进行的数月谈判失败后提起的。

在今天的博客文章中,OpenAI 表示,它认为“使用公开可用的互联网材料是合理使用,这得到了长期存在且被广泛接受的先例的支持”,但指出它为出版商提供了“一个简单的选择退出程序(《纽约时报》于 2023 年 8 月采用),以防止我们的工具访问他们的网站。

然而,OpenAI 并没有解释它是在 2022 年 11 月推出 ChatGPT 后才提供这种退出选择的,因此《纽约时报》或任何其他出版商都有很多机会阻止他们的数据在此之前被抓取。

然而,言下之意是,既然 OpenAI 已经提供了这种机制,并且一些组织已经利用了它,那么与其他出版商的交易是规避他们使用它并阻止 OpenAI 能够对他们的材料进行培训的一种方式。

OpenAI 指责《纽约时报》“故意操纵”

另外值得注意的是:OpenAI 指责《纽约时报》“故意操纵提示”,以获取其案件的文章复制证据,这违反了 OpenAI 的服务条款。

“有趣的是,《纽约时报》引发的反刍似乎来自多年前在多个第三方网站上激增的文章。他们似乎故意操纵提示,通常包括冗长的文章摘录,以便让我们的模型反刍。即使使用这样的提示,我们的模型通常也不会像《纽约时报》暗示的那样行事,这表明他们要么指示模型反刍,要么从许多尝试中挑选他们的例子。

尽管他们声称,这种滥用不是典型的或允许的用户活动,也不能替代《纽约时报》。无论如何,我们不断使我们的系统更能抵抗对抗性攻击,以反刍训练数据,并且已经在我们最近的模型中取得了很大进展。

这种说法基本上可以归结为这样一种想法,即《纽约时报》试图以接近其文章的方式特别提示 ChatGPT,并有选择地只关注这些回应,从许多可能的回应中脱颖而出,OpenAI 认为这是不可接受的用户行为,它正在努力在技术上防止。

OpenAI和《纽约时报》将在联邦地区法院法官Sidney H. Stein面前对峙,尽管我们对案件记录的审查没有显示任何初次听证会的日期。案卷也没有显示这篇博文已被输入为论据或证据,尽管很可能,它的某些版本要求解雇最终会出现在那里。

随着越来越多的人工智能服务复制受版权保护的材料——包括人工智能图像生成器Midjourney,它已经被艺术家起诉,并被艺术家和人工智能企业家加里·马库斯(Gary Marcus)在IEEE Spectrum最近发表的一篇客座文章中提出任务,并附有例子——2024年很可能是该技术及其有争议的训练数据源的合法性的决定性一年。


以下是原文:

OpenAI 与新闻业

我们支持新闻业,与新闻机构合作,并认为《纽约时报》的诉讼是没有根据的。

我们的目标是开发AI工具,使人们能够解决那些原本无法触及的问题。全球各地的人们已经在利用我们的技术来改善他们的日常生活。如今,数百万开发者和超过92%的财富500强企业正在使用我们的产品。

尽管我们不同意《纽约时报》诉讼中的主张,但我们将其视为一个机会,以澄清我们的业务、意图以及我们如何构建技术。我们的立场可以用以下四点来概括,我们在下面详细阐述了这些观点:

1. 我们与新闻机构合作,创造新的机会

在我们的技术设计过程中,我们努力支持新闻机构。我们已经与数十家机构以及领先的行业组织如新闻/媒体联盟进行会面,探索机会,讨论他们的担忧,并提供解决方案。我们的目标是支持一个健康的新闻生态系统,成为一个好伙伴,并创造互惠互利的机会。本着这一目标,我们与新闻机构寻求合作,以实现这些目标:

- 部署我们的产品,通过协助分析大量公共记录和翻译故事等耗时任务,来支持和帮助记者和编辑。

- 通过训练额外的历史性、非公开内容,教导我们的AI模型了解世界。

- 在ChatGPT中展示实时内容并进行归因,为新闻发布者提供与读者联系的新方式。

我们与美联社、Axel Springer美国新闻项目和纽约大学的早期合作为我们的方法提供了一瞥。

2. 训练是合理使用,但我们提供退出机制,因为这是正确的事情

使用公开可用的互联网材料训练AI模型是合理使用的,这得到了长期和广泛接受的先例支持。我们认为这一原则对创作者是公平的,对创新者是必要的,对美国的竞争力是至关重要的。

训练AI模型作为合理使用的原则得到了广泛的学者、图书馆协会、民间社会群体、初创企业、领先美国公司、创作者和其他人的支持,他们最近向美国版权局提交了评论。其他地区和国家,包括欧盟、日本、新加坡、以色列也有允许在版权内容上训练模型的法律——这是AI创新、进步和投资的优势。

尽管如此,法律权利对我们来说不如成为良好公民重要。我们已经在AI行业领先,为出版商提供了一个简单的退出流程(《纽约时报》在2023年8月采纳),以防止我们的工具访问他们的网站。

3. “复读”是一个罕见的错误,我们正在努力将其降至零

我们的模型被设计和训练来学习概念,以便将它们应用于新问题。

记忆是学习过程中的罕见失败,我们不断在这方面取得进展,但当特定内容在训练数据中多次出现时,比如如果它的片段出现在许多不同的公共网站上,这种情况更为常见。因此,我们有措施来限制无意的记忆,并防止模型输出中的复读。我们还期望我们的用户负责任地行事;有意操纵我们的模型进行复读不是我们技术的适当使用,也违反了我们的使用条款。

正如人类通过广泛的教育来学习如何解决新问题,我们希望我们的AI模型观察世界信息的范围,包括来自每一种语言、文化和行业。因为模型从人类知识的大量聚合中学习,任何一个部门——包括新闻——在整体训练数据中只是一小部分,任何一个单一的数据源——包括《纽约时报》——对模型的预期学习并不重要。

4. 《纽约时报》没有讲述完整的故事

我们与《纽约时报》的讨论似乎在我们的最后一次沟通中,即12月19日,是建设性的。谈判集中在围绕ChatGPT中实时显示并归因的高价值合作伙伴关系,其中《纽约时报》将获得一种新的方式来连接现有和新的读者,我们的用户将获得他们报道的访问。我们向《纽约时报》解释说,就像任何单一来源一样,他们的内容并没有对我们现有模型的训练做出有意义的贡献,也不会对未来的训练产生足够大的影响。他们在12月27日提起的诉讼——我们是通过阅读《纽约时报》得知的——让我们感到惊讶和失望。

在过程中,他们提到看到了一些内容的复读,但尽管我们承诺调查和解决问题,他们反复拒绝分享任何例子。我们在7月立即关闭了一个ChatGPT功能,因为我们了解到它可能以意想不到的方式复制实时内容。

有趣的是,《纽约时报》诱导出的复读似乎来自多年前的文章,这些文章已经在多个第三方网站上广泛传播。他们似乎有意操纵提示,经常包括文章的长篇摘录,以使我们的模型复读。即使使用这样的提示,我们的模型通常不会像《纽约时报》暗示的那样表现,这表明他们要么指示模型复读,要么从多次尝试中挑选了他们的例子。

尽管他们声称,这种滥用不是典型的用户活动,也不是《纽约时报》的替代品。尽管如此,我们正在不断使我们的系统对敌对攻击更加抵抗,以复读训练数据,并已经在我们最近的模型中取得了很大进展。

我们认为《纽约时报》的诉讼是没有根据的。尽管如此,我们仍然希望与《纽约时报》建立建设性的合作伙伴关系,并尊重其悠久的历史,其中包括60多年前报道第一个工作的神经网络和倡导第一修正案自由。

我们期待继续与新闻机构合作,通过实现AI的变革潜力,帮助提升他们生产高质量新闻的能力。

温馨提示:在 ChatGPT 官网(www.chatgpt.com)使用 GPT-5.5、ChatGPT-Image-2 等模型时,需要 ChatGPT Plus 或更高等级的会员权限。如需购买帐号或代充值会员,请扫码添加我们客服咨询。

本文链接:https://www.daichong.cc/gpt4_gpt5_25.html

相关文章