作者:杨垠红(福建师范大学法学院、纪检监察学院院长)
每个人的声音都是独特的,声纹信息作为自然人的身体特征之一,与指纹、人脸、虹膜等一样都具有唯一性。然而,随着深度学习算法的进步,AI语音克隆技术只需要一段“原声”,再加以一段时间的机器学习与训练,就可以高度模拟任何人的声音,达到“以假乱真”的效果。在现实应用层面,能够支持用户自定义模仿特定自然人的声纹、语调、语速、节奏或呼吸频率等特征,进行流畅、自然发声的AI语音克隆技术已“呼之欲出”。
AI语音克隆技术:人格权保护的机遇与风险并存
这种能够自然模拟、克隆自然人声音的语音克隆技术为人类生活与社会变革带来新的曙光。它不仅可以为渐冻症患者、头颈部癌症患者、残疾人士等失语者提供声音恢复和辅助,还能为演员、歌手、声优、主播、配音、解说等提供声音的保护和延续,甚至能够为缺乏陪伴的亲友、老人、儿童提供声音陪护,延续、保留过世或即将过世的亲人的声音。
然而,新兴技术带来社会福祉的同时,其诱发的滥用问题也相伴而生,尤其是在人格权益领域:制造虚假或误导性的语音内容,影响信息安全和社会稳定,产生新型电信诈骗,侵犯原始说话自然人的人格、隐私等权利,或是证据造假等。不同于AI语音合成创造虚拟数字人语音或创作歌曲,AI语音克隆技术确切针对着某个特定自然人,因而该技术的利用最直接的影响对象就是原声自然之人格权;除声音权益外,自然人的个人信息、名誉权等均是其最直接、最可能侵犯的对象。在AI技术逐渐普及的趋势下,类似的AI生成声音的人格权侵权案件或许将更频繁的出现,相关语音训练数据保护等与人格权保护相关的法律问题亟待研究。
AI语音克隆技术的法律挑战:“人格误导”与人格权利保护
首先,AI语音克隆技术在实际应用中将造成“人格误导”,侵权权利将含括名誉权、荣誉权。在一个人自然发声、说话与表达时,其声音包含着说话者的意识与思想。换句话说,个人的声音特征与个人的思想意识是一体的,个人的声音因此能够被听众所识别、理解。但在语音克隆技术的应用中,个人的思想与声音将“相对”分离,一个人的声音所承载的信息与意识可能并不是其本人的真实表达。具体化场景来看,如果有第三人恶意使用语音克隆技术,有可能使原声自然人非自愿存有违反社会公德、违背公序良俗的话语,从而导致原声自然人的名誉或荣誉受损,甚至出现“社会性死亡”的情况。因此,从权利损害后果的角度进行分析,若技术应用者出于恶意目的,利用该技术对某个特定的自然人的声音进行克隆,用于嘲弄或者传播不当言论,在特定范围内造成一定的“人格误导”,可能会对该特定自然人产生较为被动的影响或严重的损害后果。
其次,AI克隆所生成声音在法律上性质不明,从而导致其权利归属模糊。作为数字时代的新产物,克隆所生成的个人语音将是自然人声音的数字延伸,与自然人的原始声音具有高度的一致性。那么这种克隆所生成声音在法律上应如何定性呢?从法律层面来看,我国对于自然人声音的保护主要体现在《民法典》第1023条规定,即“对自然人声音的保护,参照适用肖像权保护的有关规定”。显然,在立法文义上,目前我国法律并没有明确“声音权”,只是明确以保护“自然人声音”,从而保护自然人的声音利益。因此,克隆后所形成的语音并不当然作为“声音权”之权利对象,无法如同“肖像权”一样,能够延伸保护到基于个人肖像所创造出的画作与其他肖像作品。而这个简单的概念模糊却可能会造成切实的侵权风险:一方面,导致克隆所生成声音的权属存在法律争议,如克隆语音技术使用者与原声自然人之间对克隆所生成语音的权属争议等;另一方面,产生相关法律条文实际运用难题。
此外,AI语音克隆训练过程中存在数据保护问题。尽管我国已通过《个人信息保护法》建立了个人信息保护制度,但对于承载个人信息或自然人声音等与人格权紧密相关的“个人数据”的保护尚无明确立法。在训练克隆语音的过程中,自然人语音的训练数据是深度合成技术的核心要素,这些数据可能包括音色向量、梅尔频谱等,能够直接或间接体现自然人声音特征或个人信息。所以说,克隆语音训练数据不仅是普通信息的载体,更是个人声音特征与部分个人信息的载体。训练数据在某些情况下可以通过简单转换成为“可识别”的个人信息,受到《个人信息保护法》保护;但在一些特殊处理情况下,训练数据可能无法识别,或者已经进行了匿名化处理,其仅保留了声音特征,并不包含任何“可识别”的个人信息,此时的训练数据可能无法受到《个人信息保护法》的保护。然而,如果这些不受保护的训练数据被恶意获取并滥用,可能会导致语音克隆不受控制,最终给原声自然人带来严重的人格侵权损害或财产损失。
法律应对策略:“标识”义务、类推适用与数据区分保护
针对AI语音克隆技术所产生的法律问题,不仅需要在理论上明确适用和规制思路,完善有关法律,而且必须从实际出发,综合分析以最大程度避免技术应用中的“人格误导”,助力解决克隆所生成声音的法律定性以及完善训练过程的数据保护问题。
添加“标识”义务应设置在展示与传播阶段,以缓止“人格误导”风险。由国家互联网信息办公室、工业和信息化部以及公安部三部门联合发布的《互联网信息服务深度合成管理规定》(下简称《规定》)要求深度合成服务提供者对生成的信息内容进行显著的、不影响用户使用的“标识”,并明确了违反《规定》行为的责任追究,这在一定程度上有利于解决“人格误导”造成的名誉权、荣誉权之侵权风险。
实际上,如何确保这些标识被创建并保存是一个难以解决的技术问题,即“标识”应适用何种技术标准?再复杂的“标识”也可能通过重新编码或使用另一个AI系统来去除、修改。一种可行的解决方案是,将添加“标识”的阶段延后至网络平台的展示和传播阶段,并明确网络平台及内容发布者为“标识”添加的义务主体。通过网络平台在展示页面添加“标识”,不仅可以有效避免技术标准不统一和标识被修改的问题,还能确保公众在接收信息时能够同时准确识别内容的真实性,从而避免“人格误导”的产生,一定程度上真正达到预防名誉、荣誉侵权之效果。
克隆所生成语音应明确其权属归于原声自然人。民法上的类推适用,指对于法无明文规定之系争案件,比附援引与其具有类似性的案件类型之规定。通过计算机软件和算法所生成的克隆自然人声音虽然并非由自然人直接发出,但在实际应用该技术的场景中,其与自然人实际发出的声音并无二致,一般人并不容易进行分辨。在互联网社会交往通常是通过语音电话、线上会议等虚拟形式,由于克隆所生成的声音与自然人直接发出的原声在互联网信息世界的本质都是一种声波,都需要互联网作为媒介进行传播,具备相同的外观或表象。对于同一自然人,其被克隆所生成的语音同原声一样,承载着相同的人格利益和财产利益。如此而言,适用类推解释有助于填补现行法律存在的算法生成语音保护空白,开创保护原声自然人权益的新范式;以人为本,确定克隆所生成语音属于“自然人声音”,而非其他权利客体。北京互联网法院作出的全国首例AI生成声音的人格侵权案一审判决也指出,若AI生成语音具有同自然人声音一样的“可识别性”,那么AI所生成语音亦是一种声音权益。
依据《个人信息保护法》,以是否具有“可识别性”为标准,对语音克隆训练数据进行区分保护。语音克隆训练数据涉及不同的个人信息和数据,而在个人信息与数据的保护上,学界存在不同的区分学说。无论是信息还是数据,法律保护的根本目的在于保护个人隐私、防止信息滥用、保障数据安全;在AI语音克隆应用中,信息与数据均为人格权益的映射。在现有《个人信息保护法》的立法基础之上,语音克隆训练数据的保护可依据其是否具有“可识别性”、是否承载“人格特征”进行区分保护。其一,具“可识别性”部分的数据应属于《个人信息保护法》第4条规定的个人信息,信息处理者应当取得被编辑个人对于克隆语音事项单独的一次同意,而不能采用“打包同意”或者仅仅是对语音数据上传、传输、保存等的同意。其二,不具备“可识别性”,但承载“人格特征”部分的数据应属于《民法典》第990条规定的其他人格权益,将其视为一种新型人格利益进行保护。(福建师范大学法学院、纪检监察学院研究生高天对本文亦有贡献。)
【本文系国家社会科学基金年度项目“算法风险侵权责任研究”(23BFX030)阶段性成果。】