Una videollamada rutinaria que costo $25 millones
En enero de 2024, un empleado del departamento de finanzas de Arup — una firma multinacional de ingenieria con 18,000 empleados — recibio un mensaje del director financiero con sede en el Reino Unido solicitando una transaccion financiera secreta. El empleado fue esceptico al principio. Luego llego la videollamada.
En la llamada estaban el director financiero y varios otros colegas que el empleado reconocia. Sus rostros coincidian. Sus voces coincidian. Discutieron la transaccion en detalle, respondieron preguntas y autorizaron las transferencias. Durante el transcurso de la reunion, el empleado ejecuto 15 transacciones por un total de HK$200 millones — aproximadamente $25.6 millones de dolares.
Cada persona en esa llamada era un deepfake. El empleado era el unico humano real en la reunion.
Como funcionan las videollamadas con deepfake de multiples personas
La tecnologia de video deepfake en tiempo real ha avanzado al punto en que multiples participantes sinteticos pueden aparecer simultaneamente en una videollamada. El atacante usa video pregrabado o disponible publicamente de cada persona — de conferencias, entrevistas en YouTube o sitios web corporativos — para construir modelos de rostro y voz. Durante la llamada, el atacante controla a todos los participantes falsos, respondiendo preguntas y manteniendo un flujo conversacional natural.
- Unos minutos de video de cada persona (a menudo disponible de charlas publicas, entrevistas o redes sociales)
- Muestras de audio para clonacion de voz — tan solo 3 segundos para un clon basico, 30 segundos para uno de alta calidad
- Informacion disponible publicamente sobre la empresa, su organigrama y el rol del objetivo
- Software de deepfake en tiempo real — varias herramientas comerciales existen por menos de $100 al mes
- Un pretexto plausible: una fusion, una adquisicion, una investigacion regulatoria — cualquier cosa que justifique secreto y urgencia
Por que las videollamadas se sienten confiables (y no deberian)
Los humanos evolucionaron para confiar en los rostros. Cuando puedes ver a alguien — sus expresiones, su lenguaje corporal, su contacto visual — tu cerebro los registra como "presentes" y "reales". Las videollamadas activan las mismas vias neuronales de confianza que las reuniones presenciales. Por eso el empleado de Arup siguio las instrucciones: podia ver al director financiero. Podia escuchar al director financiero. Su cerebro no tenia razon para dudar.
Pero un video deepfake no es un rostro. Es un modelo matematico renderizado en tiempo real. La confianza que tu cerebro asigna a ese rostro se basa en millones de anos de evolucion enfrentandose a tecnologia que existe desde hace menos de cinco anos. La evolucion pierde.
"El empleado tenia todas las razones para creer que la llamada era genuina. Los participantes se veian y sonaban como colegas que el conocia. Esta tecnologia ha avanzado mas alla de lo que el ojo y oido humano pueden detectar de forma confiable." — Superintendente de policia de Hong Kong Baron Chan
Clonacion de voz para suplantacion de ejecutivos
Las voces de los ejecutivos estan entre las mas faciles de clonar porque los ejecutivos son las personas mas publicamente audibles en una empresa. Llamadas de ganancias, discursos principales, entrevistas en podcasts, paneles de discusion — todo proporciona el audio crudo que la IA necesita para construir un modelo de voz. La Asociacion Americana de Abogados senala que tan solo 3 segundos de audio pueden producir un 85% de coincidencia de voz.
En el Reino Unido, un CEO fue estafado por $243,000 despues de recibir una llamada de lo que sonaba exactamente como su jefe en la empresa matriz. El clon de voz replico no solo la voz sino el ligero acento aleman y los patrones de habla. El CEO autorizo tres transferencias bancarias antes de sospechar.
Por que la autenticacion multifactor no detiene esto
La MFA esta disenada para verificar que eres quien dices ser cuando inicias sesion en un sistema. No verifica la identidad de la persona que te pide hacer algo. Cuando un director financiero deepfake llama y le pide al equipo de finanzas que transfiera dinero, no se activa ningun desafio de MFA — el empleado de finanzas esta legitimamente conectado al sistema bancario con sus propias credenciales. Estan autorizando la transferencia ellos mismos. El problema no es la autenticacion del empleado; es la verificacion de la solicitud.
La MFA responde: "Esta persona esta autorizada para acceder al sistema?" Una palabra clave responde: "La persona que da instrucciones es quien dice ser?" Estas son preguntas de seguridad fundamentalmente diferentes, y ambas necesitan respuesta.
La capa basada en conocimiento que los deepfakes no pueden replicar
Un deepfake puede replicar cualquier cosa que sea observable publicamente: rostro, voz, gestos, fondo, ropa. Lo que no puede replicar es informacion que existe solo en las mentes de dos o mas personas y que nunca fue transmitida digitalmente. Una palabra clave compartida en persona, nunca escrita ni enviada electronicamente, es invisible para la IA. No puede ser rastreada, interceptada ni inferida.
Por eso la Publicacion Especial 800-63B del NIST aprueba la autenticacion fuera de banda basada en voz: el principio de verificar la identidad a traves de un canal separado usando conocimiento compartido es criptograficamente solido, incluso cuando el medio de verificacion (la voz) es analogico.
Como configurar protocolos de verificacion en el lugar de trabajo
El ataque a Arup habria sido detenido con una sola pregunta: "Cual es nuestra palabra de verificacion?" Asi es como puedes asegurar que tu organizacion este preparada.
- Establece palabras clave en persona en reuniones de equipo — una por departamento o grupo funcional
- Las transacciones financieras por encima de un umbral requieren verificacion verbal con la palabra clave
- La mesa de ayuda de TI requiere la palabra clave del departamento antes de restablecer contrasenas o cambios de MFA
- Verificacion en videollamadas: al inicio de cualquier llamada que involucre decisiones financieras, los participantes intercambian la palabra clave
- Verificacion con devolucion de llamada: despues de recibir una solicitud inusual, cuelga y devuelve la llamada a un numero conocido, luego verifica la palabra clave
- Palabras clave de proveedores: establece palabras de verificacion separadas con cada proveedor critico para comunicaciones relacionadas con pagos
- Rotacion trimestral: cambia la palabra clave cada trimestre en una reunion presencial
Esto volvera a pasar
El ataque a Arup no fue una anomalia — es una vista previa. La tecnologia deepfake esta mejorando exponencialmente mientras se abarata. Las herramientas de sintesis de rostro y voz en tiempo real estan disponibles por menos de $100 al mes. La barrera para ejecutar este ataque es cercana a cero. Cualquier empresa con ejecutivos que tengan contenido de video o audio publico es un blanco potencial.
La pregunta no es si tu empresa enfrentara un intento de suplantacion con deepfake. Es si tu equipo sabra que preguntar cuando suceda.
Usa el Constructor de Protocolos de Safewords.io para crear un protocolo de verificacion en el lugar de trabajo hoy. Selecciona "Lugar de trabajo" como tipo de grupo, agrega a tu equipo y define los escenarios donde se requiere verificacion con palabra clave. Imprime la tarjeta de seguridad y distribuyela en tu proxima reunion de equipo.