2,500만 달러의 대가를 치른 평범한 영상 통화
2024년 1월, 18,000명의 직원을 거느린 다국적 엔지니어링 회사 Arup의 재무부 직원이 영국 본사 CFO로부터 비밀 금융 거래를 요청하는 메시지를 받았습니다. 직원은 처음에 의심했습니다. 그런데 영상 통화가 왔습니다.
통화에는 직원이 알아보는 CFO와 여러 동료가 참여해 있었습니다. 얼굴이 일치했습니다. 목소리가 일치했습니다. 거래에 대해 상세히 논의하고, 질문에 답하고, 이체를 승인했습니다. 회의가 진행되는 동안 직원은 총 HK$2억 — 약 2,560만 달러 — 에 해당하는 15건의 거래를 실행했습니다.
그 통화의 모든 참가자가 딥페이크였습니다. 직원만이 회의에서 유일한 실제 사람이었습니다.
다중 인물 딥페이크 통화의 작동 원리
실시간 딥페이크 영상 기술은 여러 명의 합성 참가자가 동시에 영상 통화에 나타날 수 있을 정도로 발전했습니다. 공격자는 각 사람의 사전 녹화된 영상이나 공개적으로 이용 가능한 영상 — 컨퍼런스 발표, YouTube 인터뷰, 회사 웹사이트 — 을 사용하여 얼굴과 음성 모델을 구축합니다. 통화 중에 공격자는 모든 가짜 참가자를 제어하며 질문에 응답하고 자연스러운 대화 흐름을 유지합니다.
- 각 사람의 몇 분짜리 영상 (공개 발표, 인터뷰, 소셜 미디어에서 확보 가능)
- 음성 복제를 위한 오디오 샘플 — 기본 복제에 3초, 고품질 복제에 30초면 충분
- 회사, 조직 구조, 표적의 역할에 대한 공개 가능한 정보
- 실시간 딥페이크 소프트웨어 — 월 100달러 미만의 상용 도구가 여러 개 있음
- 그럴듯한 구실: 합병, 인수, 규제 조사 — 비밀과 긴급을 정당화하는 것이면 무엇이든
영상 통화가 신뢰할 수 있게 느껴지는 이유 (그리고 그래서는 안 되는 이유)
인간은 얼굴을 신뢰하도록 진화했습니다. 누군가를 볼 수 있을 때 — 표정, 몸짓, 눈 맞춤 — 뇌는 그들을 "존재"하고 "실재"하는 것으로 인식합니다. 영상 통화는 대면 회의와 동일한 신경 신뢰 경로를 활성화합니다. 그래서 Arup 직원이 지시를 따른 것입니다: CFO를 볼 수 있었고, 들을 수 있었습니다. 뇌가 의심할 이유가 없었습니다.
하지만 딥페이크 영상은 얼굴이 아닙니다. 실시간으로 렌더링되는 수학적 모델입니다. 뇌가 그 얼굴에 부여하는 신뢰는 수백만 년의 진화가 5년도 채 되지 않은 기술을 만난 결과입니다. 진화가 집니다.
"직원은 그 통화가 진짜라고 믿을 모든 이유가 있었습니다. 참가자들이 그가 아는 동료처럼 보이고 들렸습니다. 이 기술은 인간의 눈과 귀가 안정적으로 탐지할 수 있는 수준을 넘어섰습니다." — 홍콩 경찰 총경 Baron Chan
임원 사칭을 위한 음성 복제
임원의 목소리는 가장 복제하기 쉬운 것 중 하나입니다. 회사에서 가장 공개적으로 들리는 사람이 임원이기 때문입니다. 실적 발표 통화, 기조 연설, 팟캐스트 인터뷰, 패널 토론 — 이 모든 것이 AI가 음성 모델을 구축하는 데 필요한 원본 오디오를 제공합니다. 미국 법률가협회는 3초의 오디오만으로도 85%의 음성 일치를 만들어낼 수 있다고 지적합니다.
영국에서는 한 CEO가 모회사 상사에게서 온 것처럼 들리는 전화를 받고 243,000달러를 사기당했습니다. 음성 복제물은 목소리뿐만 아니라 약간의 독일 억양과 말투 패턴까지 재현했습니다. CEO는 의심이 들기 전에 세 건의 전신 송금을 승인했습니다.
다중 인증이 이것을 막지 못하는 이유
MFA는 시스템에 로그인할 때 본인임을 확인하도록 설계되었습니다. 당신에게 무언가를 지시하는 사람의 신원을 확인하는 것이 아닙니다. 딥페이크 CFO가 전화하여 재무팀에 송금을 요청할 때, MFA 도전이 발생하지 않습니다 — 재무 직원은 자신의 자격 증명으로 정당하게 은행 시스템에 로그인되어 있습니다. 스스로 이체를 승인하고 있습니다. 문제는 직원의 인증이 아닙니다. 요청의 검증입니다.
MFA의 답변: "이 사람이 시스템에 접근할 권한이 있는가?" 안전 단어의 답변: "지시를 내리는 사람이 주장하는 바로 그 사람인가?" 이것들은 근본적으로 다른 보안 질문이며, 둘 다 답이 필요합니다.
딥페이크가 복제할 수 없는 지식 기반 계층
딥페이크는 공개적으로 관찰 가능한 모든 것을 복제할 수 있습니다: 얼굴, 목소리, 매너리즘, 배경, 의복. 복제할 수 없는 것은 두 명 이상의 사람의 기억 속에만 존재하고 디지털로 전송된 적이 없는 정보입니다. 직접 공유하고, 적어두거나 전자적으로 전송한 적 없는 안전 단어는 AI에 보이지 않습니다. 수집하거나, 가로채거나, 추론할 수 없습니다.
NIST SP 800-63B가 음성 기반 대역 외 인증을 승인하는 이유가 바로 이것입니다: 공유된 지식을 사용하여 별도의 채널로 신원을 확인하는 원칙은 검증 매체(음성)가 아날로그일지라도 암호학적으로 건전합니다.
직장 검증 프로토콜 설정 방법
Arup 공격은 단 하나의 질문으로 막을 수 있었습니다: "우리 확인 단어가 뭐죠?" 조직이 준비되어 있도록 하는 방법을 소개합니다.
- 팀 미팅에서 직접 안전 단어를 설정하세요 — 부서 또는 기능 그룹별로 하나씩
- 기준 금액 이상의 금융 거래는 안전 단어를 통한 구두 확인이 필요합니다
- IT 헬프데스크는 비밀번호 재설정 또는 MFA 변경 전에 부서 안전 단어를 요구해야 합니다
- 영상 통화 확인: 금융 결정이 포함된 모든 통화 시작 시 참가자들이 안전 단어를 교환합니다
- 콜백 확인: 비정상적인 요청을 받은 후, 전화를 끊고 알려진 번호로 다시 전화한 후 안전 단어를 확인합니다
- 거래처 안전 단어: 각 주요 거래처와 결제 관련 커뮤니케이션을 위한 별도의 확인 단어를 설정합니다
- 분기별 교체: 분기마다 대면 회의에서 안전 단어를 변경합니다
이것은 다시 일어날 것입니다
Arup 공격은 예외가 아니라 예고편입니다. 딥페이크 기술은 기하급수적으로 발전하면서 더 저렴해지고 있습니다. 실시간 얼굴 및 음성 합성 도구가 월 100달러 미만으로 이용 가능합니다. 이 공격을 실행하는 진입 장벽은 거의 제로입니다. 공개 영상이나 음성 콘텐츠를 보유한 임원이 있는 모든 회사가 잠재적 표적입니다.
당신의 회사가 딥페이크 사칭 시도를 겪을지가 문제가 아닙니다. 그것이 일어났을 때 당신의 팀이 무엇을 물어야 하는지 아느냐가 문제입니다.
Safewords.io 프로토콜 빌더를 사용하여 오늘 직장 검증 프로토콜을 만드세요. 그룹 유형으로 "직장"을 선택하고, 팀을 추가하고, 안전 단어 확인이 필요한 시나리오를 정의하세요. 보안 카드를 인쇄하여 다음 팀 미팅에서 배포하세요.