AI侵权风波又来了!英伟达遭作家联合诉讼,内容权益之争再升级
3月10日,英伟达陷入了一场关于侵权的法律争议,美国作家Brian Keene, Abdi Nazemian和Stewart O'Nan联合控诉英伟达使用他们的原创书籍作品作为其人工智能生成平台NeMo的原始训练数据。
诉讼涉及的具体作品包括 Keene的《幽灵漫步》(Ghost Walk)、Nazemian的《像一个爱情故事》(Like a Love Story)和O'Nan的《龙虾的最后一夜》(Last Night at the Lobster)。
诉讼称,这些书籍被包含在一个名为 "The Pile" 的数据集中,该数据集包含了196,640本图书作为基础模型的训练材料。去年十月,英伟达已经撤销了该数据库的访问权限,并提示“由于举报侵权,该数据集已失效,无法访问。”
截至周日,Nvidia 拒绝发表任何评论,律师也没有提出进一步了解情况的诉求。
/ 01 / AI与内容创作者之战
这已不是第一次AI与版权侵权的战争。
去年十月,《纽约时报》以侵权使用报道作为大模型训练数据将微软和OpenAI告上法庭,打响了新闻界与大语言模型开战的第一枪。
今年二月,美国数字新闻媒体The Intercept也参与了对OpenAI未经允许将新闻报道作为原始数据集的讨伐战。
The Intercept首席执行官Annie Chabel发文:“因资金紧缩,美国大部分新闻编辑室濒临倒闭,而OpenAI却拿着我们的新闻赚地盆满钵满。”
案件的法律诉讼上写道,“ChatGPT看似无所不能,但我们也应该清楚这种百科全书式的知无不答是建立在多少新闻记者的心血之上的。”
新闻业岌岌可危,LLM却拿着媒体的成果大行其道,记者们将这视为一种威胁。
去年十二月,因小红书未经授权使用了其原创作品作为训练数据,原画师@正版青团子将小红书绘画模型Trik诉至法院,称其“侵犯了创作者的合法权益”,这也是AI大模型在国内的首次公堂对簿。
AI与内容创作者的博弈,始于生成式人工智能的核心——数据。
数据是LLM大语言模型的养料,而大语言模型是生成式AI的基座。数据量级越大、越丰富、来源愈异质性愈强,生成的AI基础模型更加人性化、语义理解能力更强。GPT3惊人的生成能力背后是 570 GB的海量数据和3,000 亿单词,这些数据来自书籍、维基百科、研究文章、网络文本、网站以及其他形式的网络内容和写作。
从GPT1到GPT2、GPT3、GPT4,每一次产品的迭代背后都少不了训练数据集的指数级飙升。GPT1的训练数据仅为5GB,GPT2有40GB,GPT3为570GB,而最新版本GPT4已经达到了13万亿个token的数据量。科技巨头为了争夺生成式AI市场,会不断扩充自己的LLM训练数据库。而在人工智能发展初期,关于AI侵权,各国法律尚无明文规定。边界的模糊放大了相关争议,科技巨头与内容创作者之间弥漫着一场没有硝烟的战争。
/ 02 / LLM:洗稿?还是深度学习?
有网友认为,AI生产力是一种伪命题,精心炮制的糖衣背后是对互联网内容创作者的伤害。也有网友认为,“重新拼接”的概念是对AI深度学习能力神经网络运行原理的误读。
AI侵权指向了两个关键概念“深度学习”和“洗稿”。
LLM是使用深度学习算法处理和理解自然语言的基础机器学习模型。深度学习指机器通过自我训练、学习从海量级原始数据中寻找要素的内在关联和表示层次,最终达到像人类一样识别各种文字、图片、视频甚至生成相关要素的能力。
洗稿是指在内容创作过程中抄袭、剽窃各种原创作品中具有独创性受到版权保护的逻辑、素材,经过重新嫁接、拼贴、组合成新的文本。
AI究竟是洗稿还是深度学习,众说纷纭。
神经科学家兼AI评论员Sam Harris认为,《纽约时报》起诉 OpenAI 可能会扼杀AI领域的创新力量。他说:"仅仅因为生成了与《纽约时报》风格类似的文章就被起诉,OpenAI也太冤了。”
斯坦福大学法学教授Mark Lemley则呼吁建立一套保护创作者权益的法律条例,规范AI大模型训练数据时可能出现的侵犯创作者著作权的行为。科技分析师Benedict Evans称,这起诉讼是一个AI侵权史上具有里程碑意义的事件,"这个事件将会为后续如何处理AI大语言模型与内容创作者的纠纷奠定一个法律基调。"
其实,就生成式AI的运行原理而言,LLM的学习逻辑并非简单的组合、拼接、架构,而是深究人类思维的推断、预测等本质规律和理性决策能力,并不能简单地等同于“剽窃洗稿”。不过就目前的生成文本而言,在AI基础模型的学习初期,更多偏向于“模仿”已有训练材料输出作品,这就不可避免地带上了某些原创产品的“独创性”特质。
其实,大部分侵权案件都指向AI未经许可将原创作品作为预训练数据,通过神经网络等深度学习技术生成了具备原创作品的独特风格和要素的内容。纠纷的关键在于,大模型训练的数据来源是否合法,AI公司与受著作权保护的创作者们是否达成了某种“允许使用”的约定或协议。
随着AI产业的发展,全球也将逐渐完善AI法律法规体系,明确AI侵权的构成条件、构成要素,以法律为准绳制约科技巨头LLM的训练数据使用行为,在法治的轨道上保障AI公司与内容创作者的共赢共利。
最近更新
-
乌鸦AI日报:面壁智能推出最新一代端侧多模态模型,Meta发布混合模态基座模型Chameleon
股票 · 11:30
-
OpenAI宫斗第二季来了!超级对齐团队出局
股票 · 11:21
-
乌鸦AI日报:腾讯推出“GPTs”和助手App,OpenAI与Reddit达成合作
股票 · 05-19 20:42
-
大模型价格“卷”起来了!幻方、字节和智谱纷纷下场,GPT4一年降价超80%
股票 · 05-17 19:27
- 每辆车毛利润减少1万,理想汽车越卖越便宜
- 盛屯矿业被立案股价跌停,受损投资者可免费报名索赔
- 港股大反攻,主题基金大幅“回血”,后市怎么走?
- 明天新闻发布会,看看有啥政策利好
- 5.21号,这些板块有利好
- 【20240521早评】量价背离后,短线如何演绎?
- 盛屯矿业收到证监会立案告知书,还面临受损投资者维权
- 联华证券:7分钟封死涨停!A股超级赛道突然狂飙多股直线猛拉!
- 平安银行信用卡618“全民巨惠购”开启,优惠加持助力消费高速回温
- 联华证券-分红对股价的影响及计算方式探析
专栏推荐
-
研选
浓缩机构研究精华,提前捕捉市场风口
2041人已购
¥258.00/月
-
尾盘擒牛之如何选股?
学完这些方法,告别选股难!
117人已购
¥288.00/月
-
财报拆解
知识点解读+实战案例,帮你5小时学会看财报
73人已购
¥19.90/月
-
每周一股
每周日定期更新【每周一股】,为广大的投资者精选下周短线个股!
344人已购
¥588.00/月
推荐阅读
- BOSS直聘2024年Q1财报:营收17.04亿超此前预期,同比增长33.4%
- 韵达股份是周扒皮?19.8万快递员一年被罚几个亿!
- 违规放贷18亿背后:谁在包庇“凌驾于规则之上”的上市公司高管?
- *ST易连存终止上市风险,受损投资者可报名索赔挽损
- 贝因美:10年未分红高管大涨薪,资金紧张现金短债比常年小于1
- 中泰化学股价跌停,投资者索赔麻烦待解
- 股价已累涨超65%,建滔积层板获大行看多
- 站稳万亿城商行,长沙银行靠什么?
- 盛屯矿业融资余额10.72亿元,还面临受损投资者维权
- 过会一年多未上市,耐普股份逾期应收账款走高
- 腾讯年度游戏上线!但马化腾依然焦虑
- 盛屯矿业被立案股价连续下跌,投资者如何挽回损失?