Uma Videochamada de Rotina Que Custou US$ 25 Milhões

Em janeiro de 2024, um funcionário do departamento financeiro da Arup — uma multinacional de engenharia com 18.000 funcionários — recebeu uma mensagem do CFO da empresa, baseado no Reino Unido, solicitando uma transação financeira sigilosa. O funcionário ficou desconfiado no início. Então veio a videochamada.

Na chamada estavam o CFO e vários outros colegas que o funcionário reconheceu. Os rostos batiam. As vozes batiam. Eles discutiram a transação em detalhes, responderam perguntas e autorizaram as transferências. Ao longo da reunião, o funcionário executou 15 transações totalizando HK$ 200 milhões — aproximadamente US$ 25,6 milhões.

Cada pessoa naquela chamada era um deepfake. O funcionário era o único ser humano real na reunião.

US$ 25,6 mi
roubados em uma única videochamada com deepfake (Arup, Hong Kong, 2024)

Como Funcionam Chamadas com Deepfake de Múltiplas Pessoas

A tecnologia de deepfake de vídeo em tempo real avançou ao ponto em que múltiplos participantes sintéticos podem aparecer simultaneamente em uma videochamada. O invasor usa vídeos pré-gravados ou publicamente disponíveis de cada pessoa — de palestras em conferências, entrevistas no YouTube ou sites corporativos — para construir modelos de rosto e voz. Durante a chamada, o invasor controla todos os participantes falsos, respondendo perguntas e mantendo um fluxo conversacional natural.

  • Alguns minutos de imagens em vídeo de cada pessoa (frequentemente disponíveis em palestras públicas, entrevistas ou redes sociais)
  • Amostras de áudio para clonagem de voz — apenas 3 segundos para um clone básico, 30 segundos para um de alta qualidade
  • Informações publicamente disponíveis sobre a empresa, seu organograma e o cargo do alvo
  • Software de deepfake em tempo real — diversas ferramentas comerciais existem por menos de US$ 100/mês
  • Um pretexto plausível: uma fusão, uma aquisição, uma investigação regulatória — qualquer coisa que justifique sigilo e urgência

Por Que Videochamadas Parecem Confiáveis (e Não Deveriam)

Humanos evoluíram para confiar em rostos. Quando você pode ver alguém — suas expressões, sua linguagem corporal, seu contato visual — seu cérebro registra como "presente" e "real". Videochamadas ativam os mesmos circuitos neurais de confiança que reuniões presenciais. É por isso que o funcionário da Arup seguiu as instruções: ele podia ver o CFO. Podia ouvir o CFO. Seu cérebro não tinha motivo para duvidar.

Mas um vídeo deepfake não é um rosto. É um modelo matemático renderizado em tempo real. A confiança que seu cérebro atribui àquele rosto é baseada em milhões de anos de evolução enfrentando uma tecnologia que existe há menos de cinco anos. A evolução perde.

"O funcionário tinha todos os motivos para acreditar que a chamada era genuína. Os participantes pareciam e soavam como colegas que ele conhecia. Essa tecnologia ultrapassou o que o olho e ouvido humanos conseguem detectar de forma confiável." — Superintendente da polícia de Hong Kong, Baron Chan

Clonagem de Voz para Falsidade Ideológica de Executivos

Vozes de executivos estão entre as mais fáceis de clonar porque executivos são as pessoas mais publicamente audíveis em uma empresa. Chamadas de resultados, discursos em eventos, entrevistas em podcasts, painéis de discussão — tudo fornece o áudio bruto que a IA precisa para construir um modelo de voz. A Ordem dos Advogados dos EUA observa que apenas 3 segundos de áudio podem produzir uma correspondência de voz de 85%.

No Reino Unido, um CEO foi enganado em US$ 243.000 após receber uma ligação do que soava exatamente como seu chefe na empresa matriz. O clone de voz replicou não apenas a voz, mas o leve sotaque alemão e os padrões de fala. O CEO autorizou três transferências antes de ficar desconfiado.

Por Que a Autenticação Multifator Não Resolve Isso

A MFA é projetada para verificar que você é quem diz ser ao fazer login em um sistema. Ela não verifica a identidade da pessoa que está pedindo para você fazer algo. Quando um CFO deepfake liga e pede à equipe financeira para transferir dinheiro, nenhum desafio de MFA é acionado — o funcionário financeiro está legitimamente logado no sistema bancário com suas próprias credenciais. Ele está autorizando a transferência por conta própria. O problema não é a autenticação do funcionário; é a verificação do pedido.

A MFA responde: "Esta pessoa está autorizada a acessar o sistema?" Uma palavra de segurança responde: "A pessoa dando as instruções é quem diz ser?" São perguntas de segurança fundamentalmente diferentes, e ambas precisam de respostas.

A Camada Baseada em Conhecimento Que Deepfakes Não Replicam

Um deepfake pode replicar qualquer coisa publicamente observável: rosto, voz, maneirismos, fundo, vestuário. O que ele não pode replicar é uma informação que existe apenas na mente de duas ou mais pessoas e nunca foi transmitida digitalmente. Uma palavra de segurança compartilhada pessoalmente, nunca escrita ou enviada eletronicamente, é invisível para a IA. Não pode ser coletada, interceptada ou inferida.

É por isso que o NIST SP 800-63B aprova autenticação fora-de-banda baseada em voz: o princípio de verificar identidade através de um canal separado usando conhecimento compartilhado é criptograficamente sólido, mesmo quando o meio de verificação (voz) é analógico.

Como Implementar Protocolos de Verificação no Trabalho

O ataque à Arup teria sido interrompido com uma única pergunta: "Qual é a nossa palavra de verificação?" Veja como garantir que sua organização esteja preparada.

  • Estabeleça palavras de segurança pessoalmente em reuniões de equipe — uma por departamento ou grupo funcional
  • Transações financeiras acima de um limite exigem verificação verbal com a palavra de segurança
  • O helpdesk de TI exige a palavra de segurança do departamento antes de redefinir senhas ou alterar MFA
  • Verificação em videochamadas: no início de qualquer chamada envolvendo decisões financeiras, os participantes trocam a palavra de segurança
  • Verificação por retorno de chamada: após receber um pedido incomum, desligue e ligue de volta para um número conhecido, depois verifique a palavra de segurança
  • Palavras de segurança de fornecedores: estabeleça palavras de verificação separadas com cada fornecedor crítico para comunicações relacionadas a pagamento
  • Rotação trimestral: troque a palavra de segurança a cada trimestre em uma reunião presencial

Isso Vai Acontecer de Novo

O ataque à Arup não foi uma anomalia — é uma prévia. A tecnologia deepfake está melhorando exponencialmente enquanto fica mais barata. Ferramentas de síntese de rosto e voz em tempo real estão disponíveis por menos de US$ 100 por mês. A barreira para executar esse ataque é praticamente zero. Qualquer empresa com executivos que possuem vídeo ou áudio público é um alvo potencial.

A questão não é se sua empresa vai enfrentar uma tentativa de falsidade ideológica com deepfake. É se sua equipe vai saber o que perguntar quando isso acontecer.

Use o Construtor de Protocolo do Safewords.io para criar um protocolo de verificação no trabalho hoje mesmo. Selecione "Trabalho" como tipo de grupo, adicione sua equipe e defina os cenários onde a verificação com palavra de segurança é obrigatória. Imprima o cartão de segurança e distribua na próxima reunião de equipe.