2014 年的一个清晨,瓦尔·基尔默醒来,发现自己置身血泊之中。全身上下唯一的异样是喉咙,里面出现了一个肿块,让他吞咽困难。
(资料图)
他很快得到诊断,是喉癌导致的呕血。为了治疗,他不得不接受气管切开术。手术在喉咙上留下一个洞,进食时需要接入一根管子。此后,“呼吸还是吃饭?”,变成了一个二选一的问题。
瓦尔·基尔默在《壮志凌云》中与阿汤哥的对手戏 | 来源:Looper
对于这位曾扮演 95 版蝙蝠侠的好莱坞演员,更严重的后果是,他失去了自己的声音。如今,当他尝试说话,只能发出介于“吱吱声和低吼”之间的声音。
去年,基尔默决定与人工智能公司 Sonantic 合作,恢复自己“说话的能力”。凭借有限的录音,他们成功克隆出了跟生病前的基尔默十分相像的声音,未来将可以替代他进行发言。
AI 合成人声的技术已经十分成熟。一些开放免费测试的主流平台,例如 Resemble AI、Descript ,仅需要你录入 25 句话或 10 分钟录音,就能克隆你的声音——当然,训练集的时长越长,模型就会与你越相像。最低要求呢?3.7 秒就可以。
除了服务基尔默这样的病人,语音克隆还有一大用处,是“复活故人”,不论是去世的亲人,还是已故的名人。不久前,语音合成公司 Play.ht 释出了一集播客,内容是乔布斯与著名播客主播乔·罗根对谈——其中的文本和人声全都是 AI 合成的。
“冒牌货”们在播客里谈笑风生,从头至尾本尊都不用参与其中。这是否会涉及到侵权呢?尤其是已过世者,他们的声音所有权归属于谁呢?任何人都可以使用么?
更棘手的问题是,真假如何分辨呢?
挺好的技术,却被用来行骗?
别说你一定分得出人声与 AI。
2019 年 3 月,英国一家能源公司的员工接到老板电话,要求他在一个小时内转 22 万欧元给匈牙利的一家供应商,电话那头“老板”略带德国口音,和平时老板说话的声音不差分毫,他毫不怀疑立刻照办了,转账后这笔钱很快被转移到墨西哥,难再追回;2020 年,香港的一名银行经理被克隆语音欺骗,向诈骗者批准了一笔 3500 万美金的转账。
这种事情正在变得越来越多, VMware 今年的调查显示,三分之二的受访企业表示过去一年收到的诈骗攻击中存在音频或视频伪造的成分。
当你在电话里听到一个熟悉的声音,大多数人“没有建立起肌肉记忆来真正应对它。”埃森哲安全公司董事总经理丽莎•奥康纳表示。
生理结构上,人类大脑面对假声音时会变得蠢蠢的。
2019 年加州大学河滨分校的一项研究发现,在观看伦勃朗画作的真迹和赝品时,人们的脑部扫描会显现出明显的差异;聆听摩根 · 弗里曼、机器弗里曼和模仿者说话时,却没有同样表现。
“结果表明,人类可能在本质上无法区分真实的和非真实的声音。”
聆听真人和合成人声时,人脑活动没有显现出显著差异 | 来源:论文配图
AI 伪造人声无敌了么?
科学家正在试图应对它。
最近的一项研究中,佛罗里达大学的研究者们发现了机器的一个破绽:没有声道。或者说,人类发声方式的局限,在于每一个人的声道结构,而 AI 不具备这样的“局限性”。
数十年来,科学家都试图重现史前生物的声音。猛犸象、恐龙……它们的啸叫、呼喊,听起来会是怎样的?骨骼的形状提供了许多线索,比如副栉龙,它们的头骨中有一个很长的腔,科学家据此来估测它的共振频率。
人类发声也是如此,通过使用声道的各种结构,声带、舌头、嘴唇,协作挤压空气来发出声音并改变声音。使用声学和流体动力学模型,研究者可以倒推出怎样的一个结构发出了这段声音。
通常会像是这样,一个不规则的,有突起和凹陷的通路。
口腔的打开程度会决定我们发出怎样的声音|来源:论文截图
然而,当他们把机器生成的声音放入同样模型时,奇怪的事情就发生了:
红圈中为机器的“声道结构” |来源:论文截图
机器人声倒推出来声道,就像一根又细又长的吸管,这跟人体的正常结构完全不同。仅凭这样的侧面解剖图,就几乎可以立刻分辨这是人发出的声音,还是机器的。通过这个方法,他们检验了 4966 个音频语段,准确率高达 99.9%。
想象一下,这或许很快会成为一个基础配置,当你接起一通电话,一个附加的插件会同时开始运转,判断对面是真人还是机器合成人声,再向你发出警告。
已经有很多人在为此努力。2019 年,为了对抗克隆语音、假音频,Google 发布了一个合成语音数据库,来推动对假音频检测的研究,里面包含了谷歌深度学习模型所“说”的上千个短语,用 68 种不同的声音覆盖了各式各样的口音,希望以此鼓励外界开发出更多语音鉴真的方案。
没有科学家的工具,我们自己怎么办?
有一些小窍门,但主要靠直觉。
语音认证服务公司 Pindrop 一直在开发合成声音,这个过程中他们也发现了机器的一些缺陷:
不善于处理摩擦音,比如 f,s,v,z ,因为软件很难将它们与噪音区分开来
爱拖长音,算法很难区分单词的末尾和录音中的背景噪音,会出现断句的问题
过于“干净”,像是在录音室里用专业设备录制的,且质量始终如一
Pindrop 也发现了一些异常“聪明”的犯罪分子,为了掩盖这些缺陷,故意放入嘈杂的环境音来干扰对方的判断。有一位他们称之为“鸡人”的诈骗犯,总是在背景中播放公鸡的叫声;还有一位女士会利用婴儿的啼哭声做背景音,试图来博取对方的同情。
因此,当发现对面有持续奇怪的噪声,你就要小心了。
对于涉及重大交易的对话,深度伪造侦测公司 Deeptrace 的主管亨利•阿杰德给出了一个实用建议:考虑使用暗号进行对话,或者在通话开始时提出或回答一个秘密问题。
以当前 AI 的学习速度,相信很快,这些拙劣的破绽就会被逐一击破——曾有一篇论文研究发现,通过人物眨眼的不规律,可以判断视频是否为深度伪造。可仅仅几个月之后,开发者就解决了这个 bug 。
但至少现在,人类仍能通过细枝末节的线索,判断出对方非我同类。比如,在罗根与乔布斯的对谈中,总有诡异的笑声穿插在流利的对话中,“呵呵呵、嘻嘻嘻”,十分突兀,语调也会因此变形。
这让人想起 Resemble 在语音生成后,会给你一些选项,可以在段落中加入停顿或是“愤怒”、“喜悦”这样的情绪。从反馈来看,模型似乎并尚不能很好地处理情绪。
但终有一天,我们要怀疑一切。
前几天同事小杨接到一个推销电话,开了免提,热火朝天地跟办公室里其他人讨论对方是不是机器人。
突然,电话对面缓缓传来:“对不起,我说话的方式让您误解了。”
“你信这是真人了么?”
他回答:“哼,我才不信,这肯定是 AI 的伎俩。”
参考文献
[1] https://www.ndss-symposium.org/wp-content/uploads/2019/02/ndss2019_08-3_Neupane_paper.pdf
[2] https://theconversation.com/deepfake-audio-has-a-tell-researchers-use-fluid-dynamics-to-spot-artificial-imposter-voices-189104
[3] https://www.nytimes.com/2020/05/06/magazine/val-kilmer.html
[4] https://www.yahoo.com/entertainment/val-kilmer-cancer-treatment-lost-voice-142401511.html
[5] https://www.hellomagazine.com/healthandbeauty/health-and-fitness/20210825120419/val-kilmer-heartbreaking-reveal-cancer-diagnosis/[6] https://arstechnica.com/information-technology/2022/10/fake-joe-rogan-interviews-fake-steve-jobs-in-an-ai-powered-podcast/
[7] https://www.howtogeek.com/682865/audio-deepfakes-can-anyone-tell-if-they-are-fake/
[8] https://senseient.com/wp-content/uploads/Deepfakes-updated.pdf
[9] https://mitsloan.mit.edu/ideas-made-to-matter/deepfakes-explained
作者:翁垟
果壳(ID:Guokr42)
如需转载,请联系sns@guokr.com
欢迎转发到朋友圈
来源:果壳
凡本网注明“XXX(非现代青年网)提供”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和其真实性负责。
原标题:《卿卿日常》里,九川礼仪为何各不同?这部戏的礼仪从最开始的时候,最吸引观众的就是九川礼仪各不相同了。从第一集开始,我们就看到
2022-12-15 05:44
原标题:此“郁金香”非彼“郁金香”唐代的外来香料真“香”文 北京青年报记者陈品中国香文化历史悠久,早在石器时代就有焚香祭祀的行为,先祖
2022-12-14 13:42
原标题:《故乡潮州》出版专访陈平原教授(引题)谈论故乡,是一门学问,也是一种心境(主题)文 北京青年报记者王勉而心境好解,这学问又是如
2022-12-13 20:33
原标题:《逐光的孩子》高校“开讲”工人日报—中工网记者邹明强通讯员卓张鹏胡兰杨倩文摄影彭佳12月11日,中南财经政法大学艺术大思政课《逐
2022-12-13 17:34
原标题:打磨六七年小说《天圣令》讲了什么故事?中新网12月12日电近日,两场主题为“从‘天圣令’看宋韵文化”的讲座举行,著名作家蒋胜男从
2022-12-13 13:50
原标题:《人在草木间》系列融媒体报道今起推出北京时间11月29日晚,“中国传统制茶技艺及其相关习俗”,列入联合国教科文组织人类非物质文化
2022-12-12 21:39
原标题:山西明日起多个文化场馆恢复开放记者日前了解到,山西博物院、山西青铜博物馆、太原市博物馆、临汾市博物馆以及太原市图书馆等文化场
2022-12-12 20:36
原标题:《三体》上线首日播量放过亿工人日报—中工网记者张翀12月10日,《三体》动画在哔哩哔哩(以下简称“B站”)全网独家上线,首周两集连
2022-12-12 19:33
原标题:郭沫若屈原研究的时代气象晚清七十年,中西文化在激烈碰撞中相互借鉴、吸收和融合。在这一时代大背景之下,20世纪上半叶的楚辞研究在
2022-12-12 14:45
原标题:中国近代日记研究的拓展、反思与未来(主题)——从“日记研究丛书”说起(副题)日记这种文献类型和书写方式,在中国具有悠久的传统
2022-12-12 14:43
原标题:《诗经》的礼义、乐义、诗义与经义《诗经》所载乐歌,本为两周礼仪的用乐与歌舞的歌词,要对其诗义进行清晰的解读,需要回到历史现场
2022-12-12 11:32
原标题:微短剧靠什么赢得观众喜欢最近一段时间,单集不超过10分钟的微短剧深受观众喜爱。数据显示,今年仅快手平台的微短剧日活跃用户便增长
2022-12-12 08:32
原标题:考古还原青藏高原丝路的样貌仝涛【考古中国】 ●青海都兰热水一号大墓出土大量来自唐朝、中亚和西亚的丝织品、金银器,以及各类宝石
2022-12-12 08:52
图片故事原标题:剑川木雕:传承千年技艺段四兴在进行木雕制作中的打坯流程(12月1日摄)。剑川木雕是云南省剑川县传统美术项目,历史悠久,具
2022-12-12 08:37
原标题:剧场艺术如何拓展边界找寻多样表达北京晚报记者高倩12月8日至9日,“2022世界剧院北京论坛”和“2022台湖舞美国际论坛”在国家大剧院
2022-12-12 05:40
原标题:想学艺、想挣钱?快来村里这块“宝地”集合!据12月8日甘肃省文旅厅、人社厅、乡村振兴局联合印发的通知,甘肃新认定28家省级非遗工坊
2022-12-11 21:55
原标题:西安多家博物馆明天起陆续开放陕西西安多家博物馆11日发布公告,明天(12日)起陆续恢复开放。西安博物院12月12日(星期一)起恢复对
2022-12-11 21:36
原标题:世界杯的魅力韩立群1990年世界杯我17岁,我家黑白电视14寸。记得马拉多纳无能为力的泪水。1994年巴乔横空出世,一路带着意大利打入决
2022-12-11 20:42
原标题:初冬张燕峰初冬。田野空旷,露出黑油油的泥土,像一位刚刚生产过的母亲,袒露着的胸膛,平静而疲惫。靠近她,似乎能听到来自大地深处
2022-12-11 11:36
原标题:别了,青石板的巷陌田海明夏雨猛烈而迅疾,砸在屋檐上,迸溅出水花,泻出朦胧的水帘,隔绝了我望向窗外的视线。爸从外边回来,穿着的
2022-12-11 11:44
原标题:一把檀木梳邓素芳《牡丹花瓶》 文森特·凡高[荷] 玛咖供图月光从门外涌进来,闪着银色的粼光。我坐在梳妆台前,檀木梳隐发着淡淡的
2022-12-11 11:32
【艺评】原标题:最好的书店氛围,是看得见的对阅读的爱罗筱晓最近,位于杭州解放路的新华书店因内部改造暂时闭店。这家书店建成于1954年,是
2022-12-11 05:44
原标题:从“中文热”到“天宫热”(主题)——中文教学助推中国和阿拉伯国家文化交流(副题)蔺妍林建杰“这是中国,这是阿联酋,我们是好朋
2022-12-11 05:32
【视线】原标题:电视剧、小说同时推出(引题)《大博弈》书写时代浪潮下的中国工业制造(主题)中工网讯(工人日报—中工网记者苏墨)近日,
2022-12-11 05:34
原标题:“凌家滩文化展”在安徽博物院开展12月7日,观众参观“凌家滩文化展”。12月7日起,“璀璨星光——凌家滩文化展”在安徽博物院开展。
2022-12-11 05:36