一次例行视频会议——代价2500万美元
2024年1月,跨国工程公司Arup(拥有18,000名员工)的一名财务部门员工收到公司英国总部首席财务官关于一笔秘密金融交易的消息。这名员工最初持怀疑态度。随后,视频通话开始了。
通话中出现了该员工认识的CFO和几位同事。面孔匹配。声音匹配。他们详细讨论了交易,回答了问题并授权了转账。在会议过程中,这名员工执行了15笔交易,总计2亿港元——约2560万美元。
那次通话中的每个人都是深度伪造的。这名员工是会议中唯一的真人。
多人深度伪造通话如何运作
实时深度伪造视频技术已先进到多个合成参与者可以同时出现在一个视频通话中。攻击者使用每个人的预录制或公开视频——来自会议演讲、YouTube采访或公司网站——来构建面部和声音模型。在通话期间,攻击者控制所有虚假参与者,回答问题并维持自然的对话节奏。
- 每个人几分钟的视频片段(通常可从公开演讲、采访或社交媒体获得)
- 用于语音克隆的音频样本——最少3秒可生成基本克隆,30秒可生成高质量克隆
- 关于公司、组织架构和目标员工角色的公开信息
- 实时深度伪造软件——多个商业工具的月费不到100美元
- 一个合理的借口:并购、收购、监管调查——任何能让保密和紧迫显得合理的理由
为什么视频通话让人觉得可信(但不应该)
人类进化出了信任面孔的本能。当你能看到一个人——他们的表情、肢体语言、眼神交流——你的大脑会将他们登记为"在场的"和"真实的"。视频通话激活的是与面对面会议相同的神经信任通路。这就是为什么Arup的那名员工服从了指示:他能看到CFO,他能听到CFO。他的大脑没有理由怀疑。
但深度伪造视频不是一张脸。它是一个实时渲染的数学模型。你的大脑赋予那张脸的信任,是基于数百万年的进化遇上了一项存在不到五年的技术。进化输了。
"这名员工完全有理由相信那个电话是真的。参与者的样子和声音就像他认识的同事。这项技术已经超越了人类的眼睛和耳朵所能可靠辨别的范围。"——香港警察高级警司陈先生
冒充高管的语音克隆
高管的声音是最容易被克隆的,因为高管是公司里最常公开发声的人。财报电话会、主题演讲、播客采访、论坛讨论——这些都提供了AI构建语音模型所需的原始音频。美国律师协会指出,只需3秒音频就能产生85%的声音匹配度。
在英国,一位CEO在接到一个听起来和母公司老板一模一样的电话后被骗走了24.3万美元。语音克隆不仅复制了声音,还复制了轻微的德国口音和说话习惯。这位CEO授权了三次电汇才开始起疑。
为什么多因素认证无法阻止这种攻击
MFA旨在验证你在登录系统时是否是你自称的那个人。它不验证给你下指令的人的身份。当一个深度伪造的CFO打电话要求财务团队汇款时,不会触发MFA验证——因为财务员工是用自己的合法凭证登录银行系统的。他们是在自己授权转账。问题不在于员工的认证,而在于请求的验证。
MFA回答的是:"此人是否有权访问系统?"暗语回答的是:"发出指令的人是否是他自称的那个人?"这是两个根本不同的安全问题,两个都需要答案。
深度伪造无法复制的知识层
深度伪造可以复制任何公开可观察的东西:面孔、声音、举止、背景、穿着。但它无法复制仅存在于两个或更多人脑海中、从未通过数字方式传输的信息。一个面对面分享、从不写下或以电子方式发送的暗语对AI来说是不可见的。它无法被抓取、截获或推断。
这就是为什么NIST SP 800-63B批准了基于语音的带外认证:通过一个单独的通道使用共享知识来验证身份的原则是密码学上可靠的,即使验证媒介(语音)是模拟的。
如何建立职场验证协议
Arup事件本可以被一个简单的问题阻止:"我们的验证词是什么?"以下是确保你的组织做好准备的方法。
- 在面对面的团队会议上设定暗语——每个部门或职能组一个
- 超过一定金额的金融交易需要口头暗语验证
- IT支持台在重置密码或更改MFA之前需要部门暗语
- 视频通话验证:在任何涉及财务决策的通话开始时,参与者交换暗语
- 回拨验证:收到异常请求后,挂断电话并用已知号码回拨,然后验证暗语
- 供应商暗语:与每个关键供应商建立单独的验证词,用于付款相关通信
- 季度轮换:每季度在面对面会议上更换暗语
这还会再次发生
Arup事件不是个别事件——它是一个预告。深度伪造技术在指数级进步的同时成本不断降低。实时面部和声音合成工具的月费不到100美元。发动这种攻击的门槛几乎为零。任何拥有公开视频或音频的高管的公司都是潜在目标。
问题不在于你的公司是否会面临深度伪造冒充的企图,而在于当它发生时,你的团队是否知道该问什么问题。
今天就使用Safewords.io的协议构建器创建一个职场验证协议。选择"职场"作为群组类型,添加你的团队,并定义哪些场景需要暗语验证。打印安全卡并在下次团队会议上分发。