电话里的声音听起来跟你的孩子一模一样

想象一下,你接到女儿打来的电话。她在哭,说自己出了车祸,急需用钱。那声音就是她的——语调、语气,甚至她喊"妈妈"的方式都一模一样。但那不是她,那是一台机器。

这就是深度伪造(deepfake)——由人工智能生成的合成媒体,能以惊人的精度克隆一个人的声音、面容或形象。曾经需要好莱坞级别的摄影棚和上百万美元预算才能实现的事情,如今只需一个手机应用和几秒钟的录音就能完成。

深度伪造到底是什么?

"深度伪造"(deepfake)这个词由"深度学习"(deep learning,一种人工智能技术)和"伪造"(fake)组合而成。深度学习算法分析真实音频或视频中的模式,然后生成模仿这些模式的新内容。以语音克隆为例,AI会研究一个人的语音录音——音调、节奏、口音、呼吸模式——然后用这个人的声音生成全新的语句。

  • 语音克隆——AI生成的语音听起来跟特定的人一模一样
  • 换脸——视频中一个人的脸被替换成另一个人的脸
  • 全身操控——合成视频中的人在做或说一些他们从未做过或说过的事
  • 文字风格模仿——AI撰写的信息模仿某人的写作风格
3秒
现代AI只需3秒钟的录音就能克隆一个人的声音

这项技术发展有多快?

深度伪造技术的发展呈爆炸式增长。2019年还处于实验阶段的研究项目,现在已经成为可免费使用的应用。技术门槛已经大幅降低。

3,000%
2022至2023年间深度伪造欺诈企图的增幅(Onfido身份欺诈报告)
27亿美元
据美国联邦贸易委员会(FTC)统计,2023年冒充诈骗造成的损失

美国联邦调查局(FBI)互联网犯罪投诉中心(IC3)报告称,2023年美国人因互联网犯罪损失超过125亿美元,其中冒充诈骗是增长最快的类别之一。

已经发生的真实语音克隆骗局

2023年初,亚利桑那州一位母亲接到一个电话,听起来跟她15岁的女儿一模一样,电话中女儿在啜泣着求助。随后,一个男人的声音接过电话要求支付赎金。事实上,她的女儿一直安全地待在家里——骗子从社交媒体视频中克隆了她的声音。

在另一个案例中,英国一位CEO在接到一个他以为是母公司老板打来的电话后,被骗汇出了24.3万美元。那个声音是AI克隆的。几个小时之内,钱就消失了。

"我敢用我的命打赌那就是她的声音。我心中没有一丝怀疑。这正是最可怕的地方。"——亚利桑那州一位遭遇语音克隆骗局的母亲

为什么家庭是主要目标

骗子利用的是能够压倒理性思考的力量:爱。当你相信你在乎的人正处于危险中时,你不会停下来去核实——你会立刻行动。这种保护家人的本能反应,正是深度伪造骗子所利用的武器。

  • 危机时刻,情感纽带会压过理性判断
  • 家庭成员的声音在社交媒体、语音信箱和视频中广泛可得
  • 当相信亲人身处危险时,父母和祖父母会迅速支付大额款项
  • 家庭紧急场景制造的紧迫感会阻碍核实行为
  • 多代同堂家庭中,成员的技术意识水平参差不齐

你现在就可以做的事

防范语音克隆骗局最有效的方法就是设定一个家庭暗语——一个只有家人知道的秘密词语或短语。如果有人打电话声称是家人并且身处困境,先问暗语。任何AI都猜不到它。

深度伪造技术不会消失——它每个月都在变得更强大、更廉价。但提高警觉是第一道防线。认识到电话里的任何声音都可能被伪造,这是我们对"信任"认知方式的根本性转变。好消息是:像家庭暗语这样简单、低技术含量的方法,即使面对最尖端的AI,也依然非常有效。