Un appel vidéo de routine qui a coûté 25 millions de dollars
En janvier 2024, un employé du département financier d'Arup — un cabinet d'ingénierie multinational de 18 000 salariés — a reçu un message du directeur financier basé au Royaume-Uni, demandant une transaction financière secrète. L'employé était sceptique au départ. Puis est venu l'appel vidéo.
Lors de l'appel se trouvaient le directeur financier et plusieurs autres collègues que l'employé reconnaissait. Leurs visages correspondaient. Leurs voix correspondaient. Ils ont discuté de la transaction en détail, répondu aux questions et autorisé les transferts. Au cours de la réunion, l'employé a exécuté 15 transactions totalisant 200 millions HK$ — soit environ 25,6 millions de dollars.
Chaque personne lors de cet appel était un deepfake. L'employé était le seul véritable humain dans la réunion.
Comment fonctionnent les appels deepfake multi-participants
La technologie de vidéo deepfake en temps réel a progressé au point où plusieurs participants synthétiques peuvent apparaître simultanément lors d'un appel vidéo. L'attaquant utilise des vidéos préenregistrées ou publiquement accessibles de chaque personne — conférences, interviews YouTube ou sites d'entreprise — pour construire des modèles de visage et de voix. Pendant l'appel, l'attaquant contrôle tous les faux participants, répondant aux questions et maintenant un flux de conversation naturel.
- Quelques minutes de vidéo de chaque personne (souvent disponibles à partir de conférences, d'interviews ou de réseaux sociaux)
- Des échantillons audio pour le clonage vocal — aussi peu que 3 secondes pour un clone basique, 30 secondes pour un clone de haute qualité
- Des informations publiquement disponibles sur l'entreprise, son organigramme et le rôle de la cible
- Un logiciel de deepfake en temps réel — plusieurs outils commerciaux existent pour moins de 100 $/mois
- Un prétexte plausible : une fusion, une acquisition, une enquête réglementaire — tout ce qui justifie le secret et l'urgence
Pourquoi les appels vidéo inspirent confiance (et ne le devraient pas)
Les humains ont évolué pour faire confiance aux visages. Quand vous pouvez voir quelqu'un — ses expressions, son langage corporel, son contact visuel — votre cerveau l'enregistre comme « présent » et « réel ». Les appels vidéo activent les mêmes circuits neuronaux de confiance que les rencontres en personne. C'est pourquoi l'employé d'Arup a suivi les instructions : il pouvait voir le directeur financier. Il pouvait entendre le directeur financier. Son cerveau n'avait aucune raison d'en douter.
Mais une vidéo deepfake n'est pas un visage. C'est un modèle mathématique rendu en temps réel. La confiance que votre cerveau accorde à ce visage repose sur des millions d'années d'évolution face à une technologie qui existe depuis moins de cinq ans. L'évolution perd.
« L'employé avait toutes les raisons de croire que l'appel était authentique. Les participants ressemblaient et parlaient comme des collègues qu'il connaissait. Cette technologie a dépassé ce que l'œil et l'oreille humains peuvent détecter de manière fiable. » — Le commissaire de police de Hong Kong, Baron Chan
Le clonage vocal pour l'usurpation de dirigeants
Les voix des dirigeants sont parmi les plus faciles à cloner car les dirigeants sont les personnes les plus audibles publiquement dans une entreprise. Appels de résultats, discours d'ouverture, interviews en podcast, tables rondes — tout cela fournit l'audio brut dont l'IA a besoin pour construire un modèle vocal. L'American Bar Association note que 3 secondes d'audio suffisent pour produire une correspondance vocale à 85 %.
Au Royaume-Uni, un PDG s'est fait escroquer de 243 000 $ après avoir reçu un appel de ce qui ressemblait exactement à son patron de la société mère. Le clone vocal reproduisait non seulement la voix, mais aussi le léger accent allemand et les habitudes d'élocution. Le PDG a autorisé trois virements avant de devenir suspicieux.
Pourquoi l'authentification multifacteur ne suffit pas
La MFA est conçue pour vérifier que vous êtes bien qui vous prétendez être lors d'une connexion à un système. Elle ne vérifie pas l'identité de la personne qui vous demande de faire quelque chose. Quand un deepfake du directeur financier appelle et demande à l'équipe financière de virer de l'argent, aucun défi MFA ne se déclenche — l'employé financier est légitimement connecté au système bancaire avec ses propres identifiants. Il autorise lui-même le transfert. Le problème n'est pas l'authentification de l'employé ; c'est la vérification de la demande.
La MFA répond à : « Cette personne est-elle autorisée à accéder au système ? » Un mot de passe répond à : « La personne qui donne des instructions est-elle bien celle qu'elle prétend être ? » Ce sont des questions de sécurité fondamentalement différentes, et les deux nécessitent des réponses.
La couche de connaissance que les deepfakes ne peuvent pas reproduire
Un deepfake peut reproduire tout ce qui est observable publiquement : visage, voix, manies, arrière-plan, vêtements. Ce qu'il ne peut pas reproduire, c'est une information qui n'existe que dans l'esprit de deux personnes ou plus et qui n'a jamais été transmise numériquement. Un mot de passe partagé en personne, jamais écrit ni envoyé électroniquement, est invisible pour l'IA. Il ne peut être ni collecté, ni intercepté, ni inféré.
C'est pourquoi la publication spéciale 800-63B du NIST approuve l'authentification hors bande par voie vocale : le principe de vérifier l'identité par un canal séparé en utilisant une connaissance partagée est cryptographiquement solide, même quand le médium de vérification (la voix) est analogique.
Comment mettre en place des protocoles de vérification en entreprise
L'attaque contre Arup aurait été stoppée par une seule question : « Quel est notre mot de vérification ? » Voici comment vous assurer que votre organisation est préparée.
- Établir des mots de passe en personne lors de réunions d'équipe — un par département ou groupe fonctionnel
- Les transactions financières au-dessus d'un seuil nécessitent une vérification verbale avec le mot de passe
- Le service informatique exige le mot de passe du département avant les réinitialisations de mot de passe ou les modifications MFA
- Vérification par appel vidéo : au début de tout appel impliquant des décisions financières, les participants échangent le mot de passe
- Vérification par rappel : après avoir reçu une demande inhabituelle, raccrocher et rappeler sur un numéro connu, puis vérifier le mot de passe
- Mots de passe fournisseurs : établir des mots de vérification séparés avec chaque fournisseur critique pour les communications liées aux paiements
- Rotation trimestrielle : changer le mot de passe chaque trimestre lors d'une réunion en personne
Cela se reproduira
L'attaque contre Arup n'était pas une anomalie — c'est un aperçu de l'avenir. La technologie deepfake s'améliore de manière exponentielle tout en devenant moins chère. Les outils de synthèse faciale et vocale en temps réel sont disponibles pour moins de 100 $ par mois. La barrière à l'entrée pour exécuter cette attaque est quasi nulle. Toute entreprise dont les dirigeants disposent de contenu vidéo ou audio public est une cible potentielle.
La question n'est pas de savoir si votre entreprise sera confrontée à une tentative d'usurpation par deepfake. C'est de savoir si votre équipe saura quoi demander quand cela arrivera.
Utilisez le Constructeur de protocole de Safewords.io pour créer un protocole de vérification en entreprise dès aujourd'hui. Sélectionnez « Entreprise » comme type de groupe, ajoutez votre équipe, et définissez les scénarios où la vérification par mot de passe est requise. Imprimez la carte de sécurité et distribuez-la lors de votre prochaine réunion d'équipe.