聚焦|面向人工智能模型训练的学习权

  教育资讯     |      2026-03-12 14:42

  

聚焦|面向人工智能模型训练的学习权

  本公众号致力于学术分享,尊重作者,尊重知识产权。若有异议,请随时联系我们,谢谢!

  生成式人工智能能够快速输出大量表达性内容,其中部分内容对社会具有重大价值。这一全新的计算过程也引发了一个深刻的公平性问题:用于训练这些系统的原始内容创作者,能否分享其所创造的价值?随着生成式人工智能对创意作品市场的潜在影响日益显现,这一问题变得尤为紧迫。当可以自动生成极低成本的替代品时,具有独特风格的艺术家可能会发现其新作品几乎无法售出。新闻出版商的内容如今可被生成式人工智能系统在不违反著作权法的前提下进行释义,这可能导致其失去大量广告收入,因为读者不再需要点击进入出版商的网站。数以百万计的劳动者,其作品被用于训练生成式人工智能后,可能面临完全或部分被取代的处境。

  众多学者已开始着手解决此问题。部分学者侧重于质疑生成式人工智能提供商的论点,即其将受著作权保护的作品用于训练模型并输出新作品的行为属于合理使用。另一些学者则承认或搁置合理使用问题,提议征收税费或实施强制许可以补偿此类使用行为。我们采取了一种不同的路径,为著作权人就其作品用于人工智能训练提出了一项新的权利。鉴于大型人工智能系统处理海量信息的速度远超人类且成本低廉得多,提供此种保护是恰当的。这项授权人工智能训练的专有权(简称“学习权”),将使著作权人能够从学习其受保护材料的自动化系统所产生的收入中获取一定份额。

  本文探讨了实施此类法律的基本原理及潜在机制。文中阐释了当前针对生成式人工智能提供商的众多诉讼所伴随的高度法律不确定性,并提出学习权作为对现有著作权人专有权利的补充。鉴于人工智能可“学习”的来源众多,市场机制很可能允许在著作权人主张其学习权的情况下,实现公平合理的收入共享。学习权补偿机制也将矫正当前著作权政策中某些明显的失衡现象——这些政策偏向于对文本的机械处理而非人类对文本的深度参与。

  美国著作权法历来保护内容创作者(如作家与艺术家)从其作品中获利的权利。这一制度有益于社会,因其为创作者持续产出有价值内容提供激励。然而近期出现的生成式AI系统(如ChatGPT与DALL-E)正引发质疑:现行法律体系是否足以保障创作者权益?

  核心争议在于复制行为与学习行为的本质差异。著作权法通常要求人们在复制他人对观点、事实或类似信息的表达前须获授权,但并不保护观点或事实本身。例如在书店阅读书籍并不构成著作权侵权。关键在于,著作权法同样不禁止人类从受著作权保护的材料中学习并创作新内容——这亦具有积极社会价值。试想若作家与艺术家无法研习领域内前辈杰作,将如何精进技艺?

  然而人类已非唯一具备学习能力并生成新内容的实体。当代生成式AI系统能以极高速度、规模及成本效益实践高级机器学习。以图像生成系统(如DALL-E和Stable Diffusion)为例,其通过分析海量网络图像,已能响应多样化指令生成卓越图像。

  此类技术以低成本快速产出巨量创造性内容的能力,具备创造重大社会价值的潜力。但随之引发深刻公平性质疑:生成式AI创造的价值是否应当合理回馈用于训练系统的原始内容创作者?如何确保为这些技术奠基的创作者获得持续经济补偿与支持?

  随着生成式AI对创意作品市场的潜在影响日益凸显,该问题变得尤为紧迫。当低成本替代品可被自动批量复制时,风格独特的艺术家可能更难售出新作;新闻出版商的内容被生成式AI合法转述后,因读者无需访问原始网站将损失巨额广告收益;几乎所有创意工作者都可能面临原有工作被基于其作品训练的AI完全或部分取代的局面。

  众多学者已着手研究此议题:部分学者着力质疑AI服务商关于“将受著作权保护作品用于模型训练及内容输出属于合理使用”的主张;另一些学者则暂搁合理使用争议,转而提议征收特别税费或实施强制许可以补偿创作者。本文采取创新路径:基于AI系统能以远超人类的速度与成本效率,从现有材料批量生成内容这一前提,提出新型知识产权保护方案。此类系统将从根本上削弱创作激励——当人类创作的内容与风格可被轻易用于生成不侵权的新内容时,持续创作的动力必然衰减。这不仅对未获补偿的人类创作者不公,亦将损害AI开发者利益:若缺乏持续更新的人类创作表达材料供机器学习,AI系统终将难以有效运作。我们称这一新型法律框架为“学习权法”,因其将规制自动化系统从著作权材料中学习的权利,从而对成文法赋予著作权人的现有六项专有权利形成补充。

  本文旨在探讨实施此类法律的理论依据与潜在机制。第二部分阐释当前针对生成式人工智能服务商的众多著作权诉讼所面临的高度法律不确定性。第三部分提出在著作权法中增设法定条款,通过创设“学习权”以补充现有著作权人专有权利体系。第四部分论证市场机制应能保障著作权人基于学习权主张实现公平合理的收益分配。第五部分总结本学习权提案如何修正当前著作权法律政策中的显著失衡。

  诸多著作权人已就著作权侵权提起诉讼指控生成式人工智能服务商。知名原告群体涵盖小说作家、新闻记者及报刊媒体,其诉讼对服务商构成双重威胁:既针对生成式人工智能所产出的文本内容,亦指向其模型训练过程。

  输出端诉讼主要聚焦两类情形:一是生成式人工智能输出内容与训练数据库中著作权作品存在完全复制;二是生成内容与特定著作权作品构成实质性相似。此类诉讼需以被告接触原告作品为前提,且要求输出内容与原告作品存在完全复制或实质性相似。相似程度与合理使用抗辩的成立可能性密切关联:输出内容与原告作品相似度越低,被告主张其生成过程中对作品的使用具有转换性特征的说服力越强;反之,对优秀作品的近乎完全复制则不具备转换性。例如《纽约时报》诉OpenAI案中,原告展示的证据即包含此类精确复制或近似复制的实例。高度近似的复制同时有助于化解接触争议——鉴于任何计算系统在未接触原始文本的情况下,均难以生成与既有长文本完全一致的输出。这种极低概率性在既往重要判例中(尤其当原告作品“已向公众广泛传播”时)成为解决接触争议的关键。基于此,生成式人工智能输出阶段的著作权责任认定将高度依赖案件事实,法院必将严格审查AI生成内容与原告作品的相似程度。提示者与受提示者(即AI开发企业)之间的责任分配问题亦将增加诉讼复杂性,其影响堪比家庭录像者与录像设备企业在索尼诉环球影业这一合理使用标志性案件中的责任关系。

  对判断成果实质性相似性的多样化理论进路进一步加剧了不确定性。音乐侵权案例表明,甚至著作权侵权的认定方法亦存在差异。某些案件中,相似性判定可能更多基于法院或陪审团对假定受众主观相似感受的理解——例如“整体概念与感觉”——而非对该作品与生成作品共有元素的客观分析。其他音乐案件则聚焦于原告与被告作品元素的相似或相异之处。每一类判例均为涉生成成果的著作权诉讼当事人提供了理论资源。

  人工智能训练阶段需采用与成果输出阶段不同的分析框架。戴维·奥普德贝克提出了法律与政策双重依据,主张法官应要求大型语言模型(LLM)训练使用著作权作品时获取授权,而非直接认定构成合理使用。他承认,在索托马约尔大法官主导的沃霍尔案判决后,首个合理使用要件的适用已难以预测。大型语言模型训练与既往判例之间不存在现成类比。但他同时强调,许多历史合理使用判例采用整体性考量方式,法官会综合权衡各项合理使用要素。例如,当特定使用行为未剥夺原告许可收益时,部分法官认定其转化性程度更高。就生成式人工智能而言,企业已开始为训练目的获取新闻、摄影等作品的数据库授权。因此,合理使用认定将对原告作品现有或发展中市场产生消极影响,该情形构成反对适用合理使用的理由。

  本杰明·索贝尔亦阐释道:机器学习必需的某些数据集中,作品字面与非字面复制的行为同样可能构成著作权侵权且无法以合理使用免责。他列举了以电影《银翼杀手》全帧画面为数据源的早期模型这一典型案例。如索贝尔所言:“在此类情境下,当所有输入数据可被著作权法视为单一‘作品时,将据此衍生的模型认定为演绎作品具有合理性。”当然,当今主流视频生成模型远胜此类单一影片模型,能融合极其广泛的输入素材。此类通用型创作模式降低了特定成果构成可溯源性演绎作品的可能性。然而批评者已证实,系统在响应“蓝色刺猬”等泛化指令时频现显性侵权成果(例如生成索尼克形象,尽管蓝色刺猬存在多元艺术表现可能)。此类案例极易被法官视为演绎作品而非合理使用。

  合理使用作为不可预测的法律原则,既制造难题也创造机遇。法律不确定性使后续创作者难以明确利用前人作品的具体边界,亦遮蔽投资者预期——他们无法预知哪些潜在用途可产生许可收益,哪些可自由实施为合理使用。但该不确定性催生了私人秩序构建机遇,激励使用者与著作权人达成协商协议。学习权机制将把此机遇嵌入法律体系,通过回收因AI训练被合理使用裁定否定的部分收益流来实现平衡。

  生成式AI提供方在训练阶段的诉讼优势大于成果输出阶段,但两类案件均无必胜把握。其核心论点之一是:文本机械处理可类比人类阅读行为,而鲜有人认为单纯阅读作品即构成侵权。马修·萨格主张“生成式AI模型通常从训练数据中学习抽象且不受著作权保护的内容层次”,“从未受保护素材提炼抽象概念与关联,进而创造数字产物的过程不仅具有转化性,更是高度转化性的”。由于首个合理使用要件常具决定性,此论点有力支撑了训练行为构成合理使用的论断。某法院近期基于此类论述,裁定Anthropic使用小说集进行“训练”属于合理使用,同类判决或将涌现。

  解决此问题可采取立法修订方式,明文规定模型训练不构成合理使用。向生成式AI提供方征收补偿金并分配给创作者与著作权人,是另一可行模式。但最具直接回应性的法律变革,或将是确立将作品投入机器学习过程的行为——如同数字音频传输表演——属于著作权人新型专有权利。此项机器学习权(简称“学习权”)将在下文第三章深入探讨。

  如第二部分所述,当前多起著作权诉讼正在美国法院审理中,旨在判定生成式AI模型的训练过程及其输出内容是否侵犯了训练所用作品的著作权人权益。这些案件部分涉及全新的法律与事实争议,判决结果尚难预料。然而,政策制定者应未雨绸缪,通过审慎的制度设计平衡创作者与AI企业的利益——无论司法裁决结果如何。若未来出现相互矛盾的判例,立法干预更将迫在眉睫。下文将分三部分展开:A节论证以受著作权保护作品训练AI模型应当给予权利人补偿的规范依据;B节剖析并驳斥反对补偿的观点;C节界定触发补偿义务的具体行为。

  数千名创作者及数十家组织联合声明指出:“未经授权使用创意作品训练生成式AI,对作品创作者的生计构成重大且不公正的威胁,此类行为必须禁止。”这绝非利益集团的逐利诉求,而是对知识产权合理使用的深层伦理关切。为训练生成式AI系统而使用作品时对著作权人的补偿义务,可从功利主义、义务论及德性导向三种伦理框架证成,本节将逐一论述。

  功利主义维度需考量生成式AI在不同时间尺度下产生的“正向产出”。短期内,若将训练数据全数列为合理使用,OpenAI、Anthropic等企业乃至小型非营利机构或可加速降低成本。但相较设置补偿机制的方案,此举可能抑制人类创作非AI影响的必要作品,阻碍该领域持续发展。鉴于模型崩溃风险(即当前大语言模型输出作为未来训练数据导致的系统性退化),贸然削弱对人类表达行为的激励实非明智之举。地方新闻业因互联网平台攫取广告收益而长期衰落的案例足资警醒:传统收益枯竭时,替代机制未必能及时形成。

  义务论维度揭示尖锐矛盾:营利性生成式AI开发者(或其投资者)在主张自身知识产权获偿权的同时,却否认其训练素材的价值基础。例如当美国AI企业指控中国深度求索公司窃取其知识产权时,舆论普遍讥讽其双重标准。这种反差虽具讽刺性,但若放任知识产权遭系统性漠视,必将侵蚀历经积淀的相互尊重规范。生成式AI固然凝结了软硬件企业数千名程序师、管理者与工程师的智慧,但此类工作的前提是默示的社会契约——即对海量表达性作品所蕴含的人类感知、思想与情感转化的尊重。这些作品以文本、图像、歌曲、视频等媒介承载着创作者的思考与劳动。若生成式AI企业一面强力保护自身知识产权,一面无视他人权益,显然违背了普遍化道德准则。

  伦理导向维度指出,未经署名及补偿使用他人作品亦不符合伦理标准。德性实践是道德生活的重要维度,而未经认可及补偿地使用他人知识产权,有悖支撑道德学术生活的心智与品格修养。审慎而明智的创作过程理当充分尊重他人成果的先在性,否则将破坏当代知识产权法构建的许可与获取生态体系。当然,现行法律可能存在过度限制与权力失衡问题,特殊情境下的挪用行为可能彰显德性(如Ha-Joon Chang所述1970年代韩国贫困学童因著作权人拒绝合理定价被迫盗印教材之例)。但当下生成式AI的主导者多为财力雄厚的企业实体(或受其支持),并获联邦政府全力扶持,其情境已与历史案例截然不同。

  综上,确立“学习权”类立法具有坚实的规范基础,既符合社会整体利益,亦契合法律应彰显的道德价值。那么对此立场可能存在哪些反对意见?

  诚然,就生成式人工智能训练适用合理使用的规范正当性而言,前述任何道德研究传统均未形成定论。审慎的哲学家或可从功利主义、义务论乃至德性论角度,为多种形式的机器学习复制行为提出辩护。例如在功利层面,自由复制倡导者可能主张:生成式AI的快速发展将实现创造力的民主化。然而正如马修·萨格(Matthew Sag)所警示,以下负面因素亦需考量:

  (i) 生成式AI可能被用于制造传播虚假信息、仇恨言论、网络攻击及钓鱼邮件;

  (vi) 在提供初始训练数据的文化领域,生成式AI的应用或造成大规模失业;

  (vii) 基于著作权作品训练的AI可能发展为具有欺骗性、权力扩张性,最终超越人类智能并对人类构成重大威胁。

  更广泛而言,部分学者主张将合理使用扩展至AI训练者的“公平学习”范畴,马克·莱姆利(Mark Lemley)与布赖恩·凯西(Brian Casey)尤为此提出了系统论证。支持无限制、无补偿机器学习的论点包括:

  首先,社会受益于允许机器学习系统构建最优数据库;广泛获取多样化训练数据可使AI更优质、更安全、更公平。若AI应用总体利于人类福祉,此确为重要考量。然而,追求更优生成式AI的目标,不能正当化营利性AI公司无限制、无补偿利用所有著作权作品进行学习的手段。更何况存在合理担忧:若AI企业拒绝共享收益,其赖以构建模型的虚构/非虚构表达性内容及观察性素材终将枯竭。知识产权保护的经典功利主义逻辑在于激励未来创作,削弱此类保护将抑制创作动力,加剧前述反馈循环与模型崩溃风险。

  其次,学者主张AI公司应能构建更大训练数据集以降低生成结果偏见风险。我们认同反歧视至关重要,但可通过针对性授权机制实现。计算机科学研究已挑战“更大数据集减少偏见”的假设:阿贝巴·比尔汉(Abeba Birhane)等学者证明,在其评估模型中“社会偏见与负面刻板印象随规模扩大而加剧”。偏见需通过审慎定向策略解决,而非迷信规模效应。

  第三,部分学者声称AI公司无法为所有底层著作权作品获取公平学习授权,许可市场不具备可行性,唯谷歌、OpenAI等巨头可参与竞争。此论点与其反歧视主张类似,均过度乐观估计规模效益。优化训练数据存在多元路径,绝非简单最大化体量。现行著作权法框架与授权机制确存缺陷,但因此放弃规范约束、将AI公平学习全面纳入合理使用范围(基于第三.A节详述的规范理据)实非良策。如下文所述,有充分依据预测合理许可费支撑的“学习权”市场将蓬勃发展。

  自由表达倡导者或亦质疑学习权。著作权法(禁止未经许可传播他人受保护的表达)与《第一修正案》(保护表达免于政府规制)间素存张力。被告以《第一修正案》抗辩著作权侵权时,原告常回应称著作权法仅限制对表达的复制,而非其中蕴含的事实或思想。此种思想/表达二分法亦衍生出版权限制性原则,如场景原则(允许自由使用特定时空必然出现的场景元素)与合并原则(当表达无法脱离所呈现思想时不予保护)。大语言模型训练推动者或称学习权将限制其获取受《第一修正案》保护的思想与事实,主张此类内容与其意图保护的表达相融合。

  其一,学习权作为政策提案适用于多元司法辖区,其中多数地区的表达自由保护远弱于美国。表达自由、学术探索与其他社会价值的恰当平衡因法域而异,故将美国《第一修正案》的最宽泛解释投射为全球学习权的法定限制实非明智。

  其二,即便在美国,学界亦对《第一修正案》所保护的个人探索行为与现代搜索引擎及机器学习系统的大规模信息处理特性作出明确区分。若无此区分,限制信息流动的隐私保护法将多被判定违宪。隐私法禁止AI公司获取或使用诸多数据类型——尽管这些数据对特定表达目标的实现与著作权作品同等重要,但鲜有判例认定其违反《第一修正案》。

  此处第一修正案的适用性亦存疑。丹·伯克主张人工智能模型不享有第一修正案权利,因其输出内容难以追溯具体言论主体。他分析了三种可能性并逐一驳斥:

  首先,机器本身不构成侵权法、第一修正案或相关法律意义上的言论主体——作为机械装置,其不具备意识、认知或意图。其次,用户亦非言论主体:虽用户指令引发文本输出,但输出内容的实质与语言表达多属不可预知,且由未知(或不可知)的统计机制生成。再者,大型语言模型的设计者、开发者或部署者同样不符合言论主体要件。以ChatGPT为例,OpenAI对任何特定机器响应的细节均不知情,即便其可能了解有害机器响应的总体趋势或概率。

  诚然,大型语言模型生成的文本常呈现类人化书写或思考特征。未经数字水印处理时,确可能与人类作品难以区分。然而,此过程本质仅为基于统计的下一词元预测,完全缺失意图要素。无论论点多么荒谬,用户均可要求模型予以论证;同理亦可轻易令其生成无意义词串。如伯克所言,其输出痕迹“可被感知为符号,却无法被理解为具有符号指代功能”。恰如机器人权利批评者警示使用者勿将工具拟人化,伯克正确指出将言论归属于机器实属谬误。

  伯克进而探讨“听众利益”是否应使大型语言模型或其供应商获得保护。在听众导向型判例体系中,联邦最高法院曾裁定:即便发言者的第一修正案保护主张存疑,或发言者权利相互冲突,潜在听众获取信息的权利仍可能构成授予第一修正案保护的理由。伯克虽尊重此类判例,但坚称其根本上依附于沟通意图的存在。他提出简明有力的类比:某人窗前山景或令其感受“深刻共鸣”并激发洞见(如艺术展画作使人启迪),然若开发商建造构筑物遮挡此“改变人生”的山景,当事人或可主张(存疑的)妨害或征收补偿,却无法基于言论自由权主张“观山权”——盖因山川不语,故非言论自由保护的适格对象。

  伯克针对大型语言模型输出可能援引的第一修正案抗辩发展出上述论点,该论证尤适用于模型开发所需的训练活动。此类训练作为技术准备阶段,实属其有力论证的“非言论行为”之前置环节。言论自由理论要求以言论主体作为第一修正案教义逻辑自洽的前提要件。

  综上:无论是伦理层面、实践层面或宪法层面对学习权实施的质疑均不具说服力。因此,将全部人工智能训练行为笼统归入合理使用范畴,在规范性与务实性层面皆存缺陷。有效的法律框架需兼顾政策与现实,既具明晰的操作细则又保留容纳技术变革的弹性空间,在政府监管与市场竞争间实现平衡。第四部分将阐释立法创设的学习权如何在自由市场运行,为人工智能企业与创作者共筑可持续经济生态。下文第三(C)节则将阐述学习权保护的触发机制。

  任何确立“学习权”保护的法律都需明确规定受保护人工智能系统及学习行为的具体范畴。据此,生成式人工智能系统运营者若需合法利用受保护的表达性材料进行学习,必须从权利所有人处获取相应许可授权。

  立法需解决的核心问题在于:内容创作者如何行使其学习权法律保护。目前至少存在两种可行路径:其一,对任何受著作权保护的作品自动赋予学习权保护。此方式便于内容创作者操作,并能覆盖所有尚在著作权保护期内的既有作品。但内容使用者对权利人的补偿实施往往极为困难——著作权声明通常未包含便于定位权利人(并完成支付)的充分信息。

  更具前景的方案是要求内容创作者在线上登记系统(类似现行专利数据库)注册作品。此类登记应包含足以定位并支付权利人的信息(且在其联络方式变更后仍可追溯)。该路径将显著降低补偿创作者的执行成本,主要原因有二:(a)权利人定位与支付流程相对简化;(b)多数潜在价值有限的内容创作者通常不会主动注册。这意味着大量交易成本高于内容价值的支付行为可被规避,补偿机制从而能聚焦于高价值交易。

  实施学习权的核心挑战在于平衡其对各类活动的激励与抑制效应。知识产权定价机制主要存在两种模式:政府主导型与市场驱动型。但二者亦可相互融合——下文将探讨这种协同潜力。

  现有多种政府主导方案保障AI使用著作权作品的补偿机制:强制许可制度要求按政府设定费用支付后即可获作品授权;征收机制则对使用或影响相关作品的主体课税并分配收益。尽管二者均具可行性,本文将重点探讨政府协调的选择性加入保护体系的发展潜能。该市场存在四类参与主体:

  1. 信息创作者(Creators):包括作家、艺术家、报社、视频创作者、出版商等作品权利人

  4. 内容代理机构(Agents):在创作者与AI企业间承担市场中介职能的实体

  为促进这些市场机制的运行,应设立法律要求创作者通过主动声明才能获得其内容的学习权保护。未声明的创作者将自动放弃相关法律保护权利。这意味着仅有那些认为自身内容具备足够价值(值得投入注册成本)或因原则性反对其作品用于机器学习而坚持注册的创作者才会进行登记。多数低价值内容创作者通常不会注册,从而避免低价值主张过度消耗监管及司法资源,这将显著降低该机制的管理成本。

  诚然,学习权保护的此项前置条件与现行著作权实践存在差异——后者在作品固定于有形载体时即自动产生保护。但需注意,即使在著作权领域,权利人亦须在著作权局完成公开登记方可主张损害赔偿诉讼。以特定时限(如作品创作完成或著作权登记后)作为学习权保护生效前提,将有效增强人工智能产业发展的可预期性。

  学习权立法应进一步要求:若训练数据属于已注册内容,人工智能公司必须向相关创作者获取使用许可,同时强制披露所用数据来源。这将便于创作者核查其内容是否被未经授权使用。具体措施可包括:政府监察员监督训练流程或要求企业提交报告、引入第三方审计机构审查、设立高额内部举报奖励机制等。

  依据本方案,完成著作权局登记的创作者可对涉嫌未经授权使用其内容的AI公司提起诉讼。对于使用他人创作内容训练AI系统需支付补偿的情形,亟需建立公平补偿的确定机制。尽管客观上难以精确量化单篇内容对AI模型的经济价值,但可通过市场化路径实现价格发现:AI公司可通过(a)直接与创作者协商,或(b)与代表创作者的代理机构(如集体管理组织)谈判获取特定内容许可。此类代理机构通过整合多元内容资源,能大幅简化市场谈判流程。例如:某代理机构可代表主流新闻出版商,另一机构可代理小说作家群体(或其出版商)。音乐著作权领域已有成熟先例——美国作曲家、作家与出版商协会(ASCAP)当前管理着逾70万被许可方。

  该机制具有多重优势:其一,以市场供需力量替代算法或数学指标进行内容价值评估,使各主体能充分发挥其独特知识优势。AI公司最清楚特定内容对其系统的价值,可综合评估内容质量、时效性及其对AI输出结果的影响概率。例如:报道独家新闻的《纽约时报》文章价值远高于简单拼凑网络材料的聚合网站内容。同时,竞争者报价亦会影响AI公司的价值判断。代理机构则具备把握全局市场的独特优势,洞悉不同AI企业的购买意愿与创作者的销售预期。预计将形成新闻、小说、图像等各类内容的标准价格区间。创作者虽可直接与AI企业协商许可,但多数可能选择代理机构。

  总之,由专业机构规范实施的学习权制度不会过度阻碍生成式AI发展,反而能保障合格创作者的合理收益,同时激励未来AI发展所需表达内容的持续产出。这是构建人工智能时代可持续知识生态系统的关键进展。

  著作权学说虽已展现出足够的灵活性以适应作品的新型技术应用,但在其发展过程中也引发了令人忧虑的权利失衡与不公现象。以谷歌图书构建近乎完备的数字出版物档案这一开创性项目为例:法院正确聚焦于此类公共可检索数据库的巨大社会效用,关键性判例亦裁决谷歌项目对相关作品构成合理使用。然而,这种强调近乎完备档案库社会价值的判决,实际导致大型企业获得的保护远甚于个体创作者——例如仅欲将纸质小说集数字化以便旅行时查阅的悬疑作家。詹姆斯·格里梅尔曼精准指出,此类判例往往使自动化信息处理优先于人类阅读。确立机器学习项目的“学习权”,同时排除人类学习适用该权利,将有助于矫正长期存在的机器优于人类直接接触表达性作品的制度失衡。

  若持续忽视对创作者的补偿,生成式人工智能自身的质量恐将受损——未获补偿的创作者可能退出市场,导致可用于AI训练的可著作权作品数量与质量双降(进而降低AI生成作品的质量)。我们已目睹愈来愈多内容生产者为算法黑箱而非人类读者写作,此现象始于广告与新闻的搜索引擎优化,而随着人工智能在人际交互及人企交互中充当中介,该趋势必将愈演愈烈。当生成式AI将文本与图像的边际生产成本趋近于零时,其产物或将迅速主导互联网上真实的人类创作,甚至淹没人工策展档案库。这场计算机生成作品的爆发,可能使最重要的控制者获得前所未有的表达垄断权——这一切皆源于机器无偿学习既往作品却不补偿其创作者。

  审慎的政策需尊重那些为过剩的计算机化产出提供作品燃料的人类创作者。鉴于当前法院缓慢审理的无数著作权案件可能永远无法充分维护这些创作者的权益,政策制定者有充分的规范依据设立学习权以补充现有知识产权保护体系。要求大型生成式AI提供商从其收益中分出部分份额给予那些对其成功至关重要的表达创作者,实属应然之义。返回搜狐,查看更多Pg电子Pg电子