2,500万ドルの代償を払った日常的なビデオ会議

2024年1月、多国籍エンジニアリング企業Arup(従業員18,000人)の経理部門の従業員が、英国拠点のCFOから秘密の金融取引を依頼するメッセージを受け取りました。最初は懐疑的でした。しかし、そのあとビデオ通話の招待が来ました。

通話には、従業員が面識のあるCFOと数人の同僚がいました。顔は一致しました。声も一致しました。取引について詳しく話し合い、質問に答え、送金を承認しました。会議中に、従業員は合計HK$2億——約2,560万米ドル——に相当する15件の取引を実行しました。

その通話に参加していた全員がディープフェイクでした。その従業員だけが本物の人間だったのです。

2,560万ドル
が1回のディープフェイクビデオ通話で盗まれた(Arup、香港、2024年)

複数人のディープフェイク通話はどう機能するのか

リアルタイムのディープフェイクビデオ技術は、複数の合成参加者がビデオ通話に同時に表示できるレベルまで進歩しています。攻撃者は各人物の事前録画または公開されている映像——カンファレンス講演、YouTubeインタビュー、企業ウェブサイトなど——を使って顔と声のモデルを構築します。通話中、攻撃者はすべての偽の参加者を操作し、質問に応答し、自然な会話の流れを維持します。

  • 各人物の数分間のビデオ映像(公開講演、インタビュー、SNSから入手可能なことが多い)
  • 音声クローン用のサンプル——基本的なクローンならわずか3秒、高品質なら30秒
  • 会社、組織図、ターゲットの役割に関する公開情報
  • リアルタイムのディープフェイクソフトウェア——月額100ドル未満で利用できる商用ツールが複数存在
  • もっともらしい口実:合併、買収、規制調査——秘密と緊急性を正当化するもの

なぜビデオ通話は信頼できると感じるのか(そして、すべきでないのか)

人間は顔を信頼するよう進化しました。相手の表情、ボディランゲージ、アイコンタクトが見えると、脳はその人を「存在している」「本物だ」と認識します。ビデオ通話は対面の会議と同じ神経的な信頼経路を活性化します。だからこそArupの従業員は指示に従ったのです——CFOが見えた、CFOの声が聞こえた、脳には疑う理由がなかったのです。

しかしディープフェイクの映像は顔ではありません。リアルタイムでレンダリングされた数学的モデルです。脳がその顔に割り当てる信頼は、数百万年の進化に基づいているのに対し、この技術は存在してまだ5年にもなりません。進化が負けるのです。

「その従業員には通話が本物だと信じる十分な理由がありました。参加者は知っている同僚に見え、そう聞こえました。この技術は、人間の目と耳が確実に検出できる範囲を超えています。」——香港警察のバロン・チャン警視

経営幹部なりすましのための音声クローン

経営幹部の声は最もクローンしやすいもののひとつです。なぜなら、経営幹部は会社で最も公に声が聞かれる人物だからです。決算説明会、基調講演、ポッドキャストインタビュー、パネルディスカッション——すべてがAIに声のモデルを構築するための生の音声データを提供します。アメリカ法曹協会は、わずか3秒の音声で85%の声の一致が可能だと指摘しています。

英国では、あるCEOが親会社の上司そっくりの声の電話を受け、24万3,000ドルを騙し取られました。音声クローンは声だけでなく、微妙なドイツ語訛りや話し方のパターンまで再現していました。CEOは不審に思う前に3件の電信送金を承認してしまいました。

なぜ多要素認証ではこれを防げないのか

MFAは、システムにログインする際にあなたが本人であることを確認するために設計されています。あなたに何かを依頼している人物が本人であるかどうかは確認しません。ディープフェイクのCFOが経理チームに送金を依頼した場合、MFAのチャレンジは発動しません——経理の従業員は自分の認証情報で正当にバンキングシステムにログインしています。送金を自分で承認しているのです。問題は従業員の認証ではなく、依頼の検証にあります。

MFAが答える問い:「この人物はシステムへのアクセスが許可されているか?」セーフワードが答える問い:「指示を出している人物は、名乗っている本人か?」これらは根本的に異なるセキュリティの問いであり、どちらにも答えが必要です。

ディープフェイクが再現できない知識ベースのレイヤー

ディープフェイクは公に観察できるすべてのもの——顔、声、しぐさ、背景、服装——を再現できます。再現できないのは、二人以上の頭の中にしか存在せず、デジタルで送信されたことのない情報です。対面で共有され、書き留められも電子送信もされていないセーフワードは、AIからは見えません。スクレイピングも、傍受も、推測もできません。

NIST SP 800-63Bが音声ベースの帯域外認証を承認しているのはこのためです:共有知識を使い、別のチャネルを通じてアイデンティティを検証する原理は、検証媒体(音声)がアナログであっても暗号学的に健全です。

職場の確認プロトコルの設定方法

Arupの攻撃は、たったひとつの質問で防げたはずです:「確認ワードは何ですか?」組織が備えるための方法をご紹介します。

  • チームミーティングで対面でセーフワードを決める——部署または機能グループごとに1つ
  • 一定額以上の金融取引にはセーフワードによる口頭確認を義務付ける
  • ITヘルプデスクはパスワードリセットやMFA変更の前に部署のセーフワードを確認する
  • ビデオ通話の確認:財務上の判断を伴う通話では冒頭で参加者がセーフワードを交換する
  • コールバック確認:異常な依頼を受けたら、いったん電話を切り既知の番号にかけ直してセーフワードを確認する
  • 取引先セーフワード:各重要取引先と支払い関連の連絡用に個別の確認ワードを設定する
  • 四半期ごとのローテーション:対面ミーティングで四半期ごとにセーフワードを変更する

これは再び起きる

Arupの攻撃は異例ではありません——これは予告編です。ディープフェイク技術は指数関数的に向上しながら安価になっています。リアルタイムの顔と音声の合成ツールは月額100ドル以下で利用可能です。この攻撃を実行するための障壁はほぼゼロです。公開されている映像や音声コンテンツがある経営幹部を持つ企業はすべて、潜在的なターゲットです。

問題は、あなたの会社がディープフェイクのなりすまし攻撃に直面するかどうかではありません。それが起きた時に、チームが何を尋ねるべきか知っているかどうかです。

Safewords.ioのプロトコルビルダーで今日から職場の確認プロトコルを作成しましょう。グループタイプで「職場」を選択し、チームを追加し、セーフワード確認が必要なシナリオを定義してください。セキュリティカードを印刷して、次のチームミーティングで配布しましょう。