来源:期刊VIP网所属分类:免费文献发布时间:2021-08-02浏览:次
摘 要:数字经济新产业、新业态和新模式获得加速培育的全新场景下,渗透千行百业的数据信息深度合成技术在 提高生产效率、改善生活质量、助力经济社会发展的同时,众多恶意应用亦严重威胁个人权益、政治安全、社会稳定和国家安全等等。 文章从深度合成数据的概念与类型入手,结合待证数据的特质与现行采信模式,集中探讨了深度 合成待证数据影响鉴真算法实效、引发涟漪式信任衰退、威胁安全体系等关键性风险,进而提出严格遏止源头违规、重塑专家鉴定模式、加强环境经验支撑等一系列健全辨识机制的方式方法。
关键词:深度合成;待证数据;风险剖析;辨识机制
Abstract On one hand, the technology of data deep synthesis, which has been used in thousands of industries, improves the production efficiency and the quality of life, and helps the economic and social development. On the other hand, many malicious applications also seriously threaten personal rights, political security, social stability and national security. This paper starts with the concept and classification of data deep synthetic, combined with the characteristics of data to be proved and the current criteria of the accepting, focuses on the key risks in affecting the effectiveness of authentication algorithm, causing trust decline, infringing personal rights and interests, and threatening the security system. Then, it put forward a series of methods, such as strictly curbing source violations, reshaping the expert witness, and strengthening the supporting mechanism of circumstantial experience.
Key words deep synthesis; data to be proved; risk analysis; identification mechanism
随着第五次科技革命和第三次产业革命深入推 进, 迅速渗透社会生活方方面面的人工智能技术应
用和开放的海量数据有序流动成为新时期培育新产 品、打造新业态的关键支撑。 2020 年 3 月 30 日,《中 共中央、 国务院关于构建更加完善的要素市场化配 置体制机制的意见》 勾勒了加速培育各领域数据高 效开发利用和数据资源有序流动的数据要素市场的具体方案,既释放出巨大的信息红利、高质量助推智 能社会构建, 亦暴露出迭代更新的先进产品持续引 发诸多新型风险。 如短短三年间,深度合成数据技术的主要产出形式已经从肉眼可以识别的粗糙拼接物 发展为“多重软件检测+人工复检”仍然难以辨识的 仿真精品①。
随着 《新一代人工智能发展规划》《促进新一代人工智能产业发展三年行动计划 (2018-2020 年)》《关于促进人工智能和实体经济深度融合的指导意 见》等贯彻落实,深度合成数据产品的制作成本大幅 降低而仿真水平迅速提升, 致使基于人工智能程序 和深度学习算法的数据内容合成类违规制品以几何 乘数泛滥成灾,不仅给社会监管带来巨大困难,严重威胁自然人的人身安全和财产安全1,一定程度上甚至阻滞了作为人权保障最后手段的规则救济的有序运转2。尤其是在将运用深度合成技术伪造的数据信息作为待证资料的特殊场景下,“如果证据规则跟不上人工智能技术发展的脚步,公民的基本权益和程序正义面临的风险将大幅增加。"D亟待以《新一代人工智能治理原则》的八项治理原则为轴心,结合《数据安全法(草案)X人工智能标准化白皮书》等,搭建具象场景中人工智能应用治理的实践方案。
1深度合成数据的概要分析
虽然美图秀秀、会声会影、Adobe Photoshop等应用程序嵌入了修改数据内容的功能,但通过生成对抗网络(GAN)的机器学习周期进行的以极端逼真的方式重塑现实的数据深度合成可以学习模仿任何数据分布,能够创造出与现实世界极其相似的虚拟世界。
自美国著名科技媒体网站“主板"(Motherboard)
首次曝光深度伪造色情视频的事件以来,社会各界饱受深度合成技术暗黑面的困扰)。虽然全球主要站点大力封禁深度伪造的色情制品或政治人物音视频[5],但持续走低的制作成本和不断降低的发布难度以及互联网固有的零边界、匿名化、娱乐性等特质使得恶意行为者不仅能够在同一站点反复发布且可以在互联网管制死角不断创建和传播各类伪造的数据制品1)严重威胁个人权益、社会稳定、政治和国家安全等。
事实上,信息时代的数据深度合成(Deep Syn-thesis)本身是一个中性概念,泛指借助深度学习算法模型等智能化方案自动生成文本、图像、语音、视频等数据内容的一系列处理技术。
一方面,数据深度合成的正向应用将创建的虚拟角色、声音模拟、视频渲染等广泛应用到娱乐文化、社交通讯、医疗保健等众多场景之中,提升音视频制作的效率与质量,建立使用者的社交数字化分身,还原历史人物或故去亲友的肖像,提升医学影像精度,弥补听力缺陷等。如2020年全国两会期间,搜狗公司联合新华社发布了通过语音、表情、唇动、肢体动作等数据深度合成的算法实时驱动的全球首个动态3D虚拟主播“新小微”,更好地满足新闻呈现多样化的需求,推动智能化的媒体融合"。
另一方面,数据深度合成的负向应用,亦称深度伪造(Deepfake),通过文本数据重组、表情数据迁移、动作数据迁移等方式生成表面上高度可信的仿真制品,传播虚假信息,操控受众反应,严重威胁整个社会的安全体系与保障机制)。如FakeApp.Face Wap DeepNude等一键合成不雅内容的应用程序引发各界争议2:又如,深度合成马斯克、奥巴马、默克尔、佩罗西等欧美名流政客的虚假视频引发广泛的信任危机和安全忧虑。
总体而言,基于深度学习的数据合成技术主要应用在文本合成、视觉合成、听觉合成等三大领域。深度文本合成和视觉合成因循数据收集、模型训练、伪造内容等核心步骤创造虚拟数字人及其所处的生态环境。深度听觉合成则主要采用拼接式语音合成或基于参数估算的合成方法重塑现实。相关戏仿性应用产品迅速迭代,难以精准及时地予以鉴识3,亟待构建和完善规模化的规制体系。
2待证数据的采信难题
证据是认定案件事实的基础和关键。21世纪以来,随着运用计算机工具的违法犯罪模式日趋多样化并呈现出高速增长的态势,以二进制编码记载的能够证明案件事实的数据愈加繁杂,立法部门开始关注电子证据的相关性、真实性、合法性及其证明值等等。 《计算机犯罪现场勘验与电子证据检查规则》 首次以列举方式明确指出电子数据、 存储媒介和电 子设备皆是电子证据这一全新证据形态的主要分 支。 《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》随即明确将电子数据界定为“案 件发生过程中形成的以数字化形式存储、处理、传输 的能够证明案件事实的数据”,并将“文档、图片、音视 频、数字证书、计算机程序等电子文件”列为典型的电 子数据形式①。 《公安机关办理刑事案件电子数据取证 规则(2019)》进一步勾勒了电子数据证据收集、提取、 检查、实验、检验、鉴定等全生命周期的规制体系。
2.1 待证数据的特征分析
第五轮信息技术革命场景下进入诉讼阶段的数 据囊括了所有以二进制代码形式存在的试图经过取 证、举证、质证和认证后能够作为证据使用的信息内 容及其派生物。 大数据、物联网、云计算等技术应用的迅速迭代使得当前司法实践中充斥着多样化的新型待证数据。 相应的证明能力(待证数据的适格性验 证)和证明力(待证数据的证明效果验证)的法庭采 信与人证、物证、书证等传统证据形态差异较大。 如一般证据规则为了更好地审核证据材料的真实性和合法性,通常要求扣押物理载体,但云计算的广域分 布式处理模式和一台云服务器可能同时承载大量来 源迥异的数据库的特质, 导致实践中难以获取云端数据的物理介质。 又如,大多数的传统证据形态是完 整的有形物,待证数据却往往是零散的无形物,不仅 难以形成完备合法的证据链, 甚至不易证明证据来 源的合法性。
2.2 待证数据的采信模式
信息时代中飞速增长的待证数据必须经过查证 属实才能作为认定事实的依据。 我国立法部门不仅 对待证数据的来源、取证主体、收集方式、存储和出 示等完整流程的合法性、 数据内容的真实性及其与 案件事实的关联性等的法庭审查作出原则性规定, 还逐步建立了有关待证数据技术鉴定的多项国家标 准和行业标准。 尤其是评估判断待证数据是否可以合理认定为证据真实和链条完整的难题, 除了少量可以经由原被告或控辩双方都认可或是其他证据足以充分证明予以解决之外, 绝大多数需要法官依据 经验和理性进行审查判断或是行业专家进行高水平 技术鉴定,部分个案辅以证人证言为证据基础。
2.2.1 法官审查判断
虽然我国没有明确认可西方国家普遍采用的自 由心证制度,却积极应用在实践之中。 传统的录音录像证据曾在很长时间内被认定为可信度较高的证据形式,法官通常基于专业知识和审判经验,依据公正 且准确的标准,自行判断其证明力。 随着数字化音视 频的迅猛发展,个人无法直接读取、需要借助特殊工 具转换输出的以二进制形式存储的待证数据大幅增 加。 全生命周期涉及物理载体的可信性、收集方法的 合法性、输出内容的真实性、相关人员的独立性以及 流程的完整性等一系列技术性较强的关键因素,即 便经验丰富的法官也会产生较大的质疑和困惑,难以直接依据经验和理性完成采信审核。 然而,随着千 行百业的数字化进程日益加快, 数据类证据材料在 认定案件事实中的价值愈加凸显, 众多场景下不宜 仅认定为辅助性参考资料。 因之,聘请具有学科权威 身份和相关认证资质的专家运用科学原理进行真实 性鉴定逐渐成为采信待证数据的重要前提。
2.2.2 专家技术鉴定
随着计算机技术、 生物医药技术及其他各种专 精化技术发展, 复杂零散的数据涉及的专门性问题 难以确定和解决。 判断数据内容是否被篡改或伪造 需要采用专业工具和技术方法进行获取、识别、存 储、传输和分析。 科学验证的范围甚至包括数据取证 主体、取证程序、取证标准、取证技术和取证工具等 强关联要素。 这一任务惟有通过具备行业领先技术 能力的专家群体依据鉴真规则开展精准辨识, 方可 较为圆满地完成。
3 深度合成待证数据的风险评估
数码摄影诞生之初的图像质量较差, 往往只能作为补充证人证言的说明证据。 直至高质量的视频
数据直接完整地记录了案件事实, 方才充分展现出证据价值。 然而,数据量级扩大且合成技术日趋复杂 等大幅提升了识破伪造音视频的难度。 具有专门知 识的特聘人员依据科学原理作出的结论性鉴定意见 能够准确辨识待证数据真实性的假设处于风雨飘摇 之中。
3.1 降低说明证据可靠性
长期以来, 证人证言一般不会被视为个案场景 下独立证明案件事实的实质证据, 而是作为帮助找 出案件真相的说明证据。 原因在于,个人对于物体或 事件的认知一般包括感知、理解、回忆和证明等四大要素。 人类的记忆并非自体封装的音视频重现系统。 记忆的提取和表达是一个从庞杂的记忆数据库的各 子域拼凑出对应内容的过程。 证人不仅应当知悉需要作证的内容, 往往还需要通过传闻或推测填补阙 值内的记忆巢白。 因之,记忆内容的准确性很容易受 到外部信息与内在心理的影响。 证人通常也会主动为记忆准确性附加警示助词,如“我觉得”“我认为” “我不能肯定”等[9]。 如英国华威大学(University of Warwick)的研究团队通过测试视频重现与受试者之 间的记忆关系, 证实伪造视频数据对于证人记忆的 强烈暗示性①。 由此,通过深度合成关涉案件的主要数据重塑现实体验并向证人展示, 比传统的文本伪 造或图像伪造更具直观性和冲击力, 容易导致证人 因混淆实际记忆和视觉效果而在无意中提供虚假证 言[10]。 也就是说,一方在法庭庭审过程中提交的深度 伪造视频镶嵌的欺诈性数据内容有可能影响证人准 确回忆事实真相,严重妨碍司法公正。
3.2 影响鉴真算法成效
近年来, 基于复杂模型鉴识待证数据与运用合 并算法提升伪造数据可信度之间的“猫鼠游戏”愈演 愈烈。 持续迭代的生成对抗网络编程技术致使深度 伪造数据方案能够迅速更新鉴真算法抵御模块,难 以形成能够长期有效地应用到各行各业的可靠鉴真方法。 目前主流的深度合成数据检测技术仍然依赖 基于伪造内容数据集对模型检测器的差异化训练和 基于生物信息不一致性对伪造内容数据的辨识,很 难妥善应对迅速提升的深度合成技术。 如纽约州立 大学奥尔巴尼分校 (University at Albany,State University of New York) 的研究团队发现早期深度合成
视频技术的训练数据库中大多是原始的静态图像数 据,导致算法无法准确伪造生理特征,输出的仿真制 品中虚拟数字人的眨眼频率远远低于真实视频,进 而开发出实验准确率高达 95%的眨眼检测方法②。 即 通过第一神经网络扫描检测是否包含人脸并自动定 位到眼部,进而将眼部截图输入第二网络,再由第二 网络通过特征提取、 序列学习和状态预测等辨识是 否为真人眨眼,进而鉴别出伪造视频。 然而,这一全新的深度数据合成检测模块仅在短时间内展现出较 好的验证效果。 事实上,该项成果公布不久之后,研 究团队就收到了大量能够通过“眨眼测试”的匿名视 频。 这些制作者迅速在数据训练集中增加了大量闭 眼图像数据,积极改良识别器算法,进而导致“眨眼 测试”完全失灵。
3.3 引发涟漪式信任衰退
信息时代中, 难以及时准确地完成深度合成待证数据的鉴真义务, 有可能引发整个社会范围内的涟漪式信任衰退。 窄域而言,具有极强技术性的深度 伪造产品往往展现出难以识别的逼真度, 不仅加大司法部门对于有关案件真相的数据真实性的质疑, 当事人还有可能宣称作为证据的数据是经过深度伪 造合成的虚拟内容,以达到混淆视听之目的。 广域而 言,普遍运用深度合成技术的大环境下,人们不敢轻 易地相信所见所闻,严重威胁社会信任机制。
3.4 侵害个人合法权益
深度合成待证数据的完整流程充斥着侵害个人隐私、尊严、平等、自由及其他合法的人身权和财产 权的风险[11]。 如原始数据的收集主体、收集方式和收 集对象均有可能侵害个人隐私。 又如,深度合成过程中对于训练内容的特征提取可以分为自动提取和手动提取两大分支。 能够自主学习的数据自动提取模 型在设计中可能被有意或无意地嵌入歧视性或侮辱性规则, 手动进行分类器训练的模型则一直受到操 作者主观偏见或认知缺陷的影响, 严重威胁自然人 的尊严权、平等权和自由权。
3.5 威胁国家安全体系
深度合成技术负面应用的多个领域直接关联国家安全体系。 对于政商名流、新闻事件、军事领导及社会事务相关人员与场景数据的深度伪造, 存在着 不少待证情境下难以精准及时地进行辨识的难题, 已经成为影响政治安全、社会安全、国家安全的不稳 定因素。
4 健全深度合成待证数据的辨识机制
万物互联的背景下, 网络信息技术普遍应用在 生产生活之中, 数据对于查明案件事实具有极其重要的价值。 有效避免错误肯定深度合成待证数据的 方法不是弃之不用,而是充分发挥多方力量、迅速建 立健全科学有效的辨识机制。
4.1 严格遏止源头违规
从源头上遏止深度合成待证数据是查清案件事 实、营建可信社会的根本措施。 既需要加强直接关联 的政策法规建设, 亦需要强化对相关技术和数据的研究与持有机构、企业及从业群体的监督管理,减少数据深度合成的负面作用。 如国家网信办发布的《网 络音视频信息服务管理规定》明确指出,2020 年 1 月 1 日起, 发布深度合成视频前必须按照有关规定开展安全评估并以显著方式标识“非真实”字样,且不 得用于发布虚假新闻等场景, 并开始部署深度合成音视频的鉴别技术体系与健全相应的辟谣机制。
4.2 重塑专家鉴定模式
深度合成待证数据不仅无法凭借肉眼辨别,甚至难以通过传统方法加以鉴识。 尽管众多科研机构、 头部企业和司法鉴定部门正在积极开发各种深度合 成检测工具, 但迄今为止整体上落后于数据伪造技术。 行业专家依据经验和知识辨别重要的微小变化 的能力往往不足以识别高度仿真的深度伪造制品。 待证数据的真实性认定亟待重塑专家鉴定模式。 目前而言, 深度合成图像数据检测的关键在于组织能够及时有效地挖掘定制化修改点的专家团 队。 深度伪造音视频与真实视频的特征差异比对迫 切要求技术专家构建完善的深度神经网络架构以便更好地提取不自然的元素特征, 并在具体场景中辅 以虹膜验证、指纹验证以及人工鉴伪等。
4.3 加强环境经验支持
早在全球深度伪造危机爆发之初, 美国国防部 高级研究计划局(Defense Advanced Research Project Agency)就开始探索如何建立一个能够辨别图像或视 频可信度的自动评分系统[12]。 通过集中比对待检图 像数据或视频数据在内容上与各种外部经验数据的不一致之处 (如与太阳光照位置不对应的阴影影像数据),提升深度合成数据的检验准确性。 同时,有必 要授权一方在一些具体场景中有权要求举行听证 会, 迫使待证数据提供方提供能够间接证明真实性 的重要环境信息。
5 结语
深度合成待证数据是对社会正义最后防线、广 大居民人身和财产安全乃至国家和社会有序运转的 巨大威胁。 相关证伪方案执行不畅有可能导致社会信任体系全面崩盘。 亟待从源头到末端营建精准高 效的风险辨识与应对框架。 如不仅通过推广区块链认证签名工具加强数据来源标注, 还有必要建立基于区块链和智能合约的待证数据来源追溯机制,推 动智慧司法,助力数字经济,支撑智能化社会建设。
参考文献:
[1] Elizabeth Caldera.Reject the Evidence of Your Eyes and Ears.Deepfakes and the Law of Virtual Replicants[J].Seton Hall Law Review,2019(50):177.
[2] Russell Spivak.Deepfakes:The Newest Way to Commit One of the Oldest Crimes[J].Georgetown Law & Technology Review,2019(3):332.
[3] Jeff Ward.10 Things Judges Should Know About AI[R].Deepfakes Report Act of 2019,116th Congress,H.R.3600,2019.
[4] Kevin Roose.How Come the Fake Videos,Too[N].New York Times,2018-05-04.
[5] Janko Rocttgers.Reddit,Twitter Ban Deepfake Celebrity Porn Videos[EB/OL].[2018-02-07].
[6] Jessica Ice.Defamatory Political Deepfakes and the First Amendment[J].Case Western Reserve Law Review,2019(70):427.
[7] “她”来了! 全球首位 3D 版 AI 合成主播精彩亮相[EB/OL].[2020-05-20].
[8] Douglas Harris.Deepfakes:False Pornography Is Here and the Law Cannot Protect You[J].Duke Law & Technology Review,2019(17):99.
[9] Mark Bennett.Unspringing the Witness Memory and Demeanor Trap:What Every Judge and Juror Needs to Know About Cognitive Psychology and Witness Credibility[J].American University Law Review,2015(64):1331.
[10] Richard Schmechel,Timothy Toole.Beyond the Ken? Testing Jurors’ Understanding of Eyewitness Reliability Evidence[J].Jurimetrics,2006(46):178.
[11] Robert Chesney.Deep Fakes:A Looming Challenge for Privacy,Democracy,and National Security[J].California Law Review,2019(107):1753.
[12] Matt Turek.Media Forensics[EB/OL].[2020-11-30].
期刊VIP网,您身边的高端学术顾问
文章名称: 深度合成待证数据的风险剖析与辨识机制
文章地址: http://www.qikanvip.com/mianfeiwx/58788.html
* 填写需求信息,或选择平台现有SCI/SSCI选题(如下)。