एक सामान्य वीडियो कॉल जिसकी कीमत $25 मिलियन रही
जनवरी 2024 में, Arup — 18,000 कर्मचारियों वाली एक बहुराष्ट्रीय इंजीनियरिंग फर्म — के वित्त विभाग के एक कर्मचारी को कंपनी के UK-आधारित मुख्य वित्तीय अधिकारी से एक गोपनीय वित्तीय लेनदेन का अनुरोध करने वाला संदेश मिला। कर्मचारी पहले संदेहास्पद था। फिर वीडियो कॉल आई।
कॉल पर CFO और कई अन्य सहकर्मी थे जिन्हें कर्मचारी पहचानता था। उनके चेहरे मिलते थे। उनकी आवाज़ें मिलती थीं। उन्होंने विस्तार से लेनदेन पर चर्चा की, सवालों के जवाब दिए, और ट्रांसफर अधिकृत किए। मीटिंग के दौरान, कर्मचारी ने कुल HK$200 मिलियन — लगभग $25.6 मिलियन USD — के 15 लेनदेन निष्पादित किए।
उस कॉल पर हर व्यक्ति एक डीपफेक था। कर्मचारी मीटिंग में एकमात्र असली इंसान था।
बहु-व्यक्ति डीपफेक कॉल कैसे काम करती हैं
रियल-टाइम डीपफेक वीडियो तकनीक इस स्तर तक पहुँच गई है जहाँ कई सिंथेटिक प्रतिभागी एक साथ वीडियो कॉल पर दिखाई दे सकते हैं। हमलावर हर व्यक्ति के पूर्व-रिकॉर्ड किए गए या सार्वजनिक रूप से उपलब्ध वीडियो — कॉन्फ्रेंस वार्ता, YouTube इंटरव्यू, या कंपनी वेबसाइटों से — का उपयोग करके चेहरे और आवाज़ मॉडल बनाता है। कॉल के दौरान, हमलावर सभी नकली प्रतिभागियों को नियंत्रित करता है, सवालों का जवाब देता है और स्वाभाविक बातचीत का प्रवाह बनाए रखता है।
- हर व्यक्ति का कुछ मिनट का वीडियो फुटेज (अक्सर सार्वजनिक वार्ताओं, इंटरव्यू, या सोशल मीडिया से उपलब्ध)
- वॉइस क्लोनिंग के लिए ऑडियो सैंपल — बुनियादी क्लोन के लिए 3 सेकंड, उच्च-गुणवत्ता के लिए 30 सेकंड
- कंपनी, उसके संगठन चार्ट, और लक्ष्य की भूमिका के बारे में सार्वजनिक रूप से उपलब्ध जानकारी
- रियल-टाइम डीपफेक सॉफ्टवेयर — $100/माह से कम में कई व्यावसायिक टूल उपलब्ध
- एक विश्वसनीय बहाना: विलय, अधिग्रहण, नियामक जाँच — कुछ भी जो गोपनीयता और तात्कालिकता को उचित ठहराए
वीडियो कॉल भरोसेमंद क्यों लगती हैं (और क्यों नहीं लगनी चाहिए)
मनुष्य चेहरों पर भरोसा करने के लिए विकसित हुए हैं। जब आप किसी को देख सकते हैं — उनके भाव, उनकी बॉडी लैंग्वेज, उनकी आँखों का संपर्क — आपका मस्तिष्क उन्हें "उपस्थित" और "असली" के रूप में पंजीकृत करता है। वीडियो कॉल वही न्यूरल ट्रस्ट पाथवे सक्रिय करती हैं जो व्यक्तिगत बैठकों में होती हैं। इसीलिए Arup कर्मचारी ने निर्देशों का पालन किया: वह CFO को देख सकता था। वह CFO को सुन सकता था। उसके मस्तिष्क के पास संदेह करने का कोई कारण नहीं था।
लेकिन डीपफेक वीडियो चेहरा नहीं है। यह एक गणितीय मॉडल है जो रियल टाइम में रेंडर किया गया है। आपका मस्तिष्क उस चेहरे को जो भरोसा देता है वह लाखों वर्षों के विकास पर आधारित है जो पाँच वर्ष से भी कम पुरानी तकनीक से मिलता है। विकास हारता है।
"कर्मचारी के पास कॉल को वास्तविक मानने का पूरा कारण था। प्रतिभागी उन सहकर्मियों जैसे दिखते और सुनाई देते थे जिन्हें वह जानता था। यह तकनीक उस स्तर से आगे निकल गई है जिसे मानव आँख और कान विश्वसनीय रूप से पहचान सकते हैं।" — हॉन्ग कॉन्ग पुलिस अधीक्षक Baron Chan
कार्यकारी प्रतिरूपण के लिए वॉइस क्लोनिंग
कार्यकारी आवाज़ें क्लोन करना सबसे आसान है क्योंकि कार्यकारी कंपनी में सबसे सार्वजनिक रूप से श्रव्य लोग हैं। अर्निंग कॉल, मुख्य भाषण, पॉडकास्ट इंटरव्यू, पैनल चर्चा — सभी वह कच्चा ऑडियो प्रदान करते हैं जो AI को वॉइस मॉडल बनाने के लिए चाहिए। American Bar Association बताता है कि 3 सेकंड का ऑडियो 85% वॉइस मैच उत्पन्न कर सकता है।
UK में, एक CEO को $243,000 का धोखा दिया गया जब उन्होंने एक कॉल प्राप्त किया जो बिल्कुल उनकी पैरेंट कंपनी के बॉस जैसा लगा। वॉइस क्लोन ने न केवल आवाज़ बल्कि हल्का जर्मन उच्चारण और बोलने के पैटर्न भी दोहराए। CEO ने संदेह होने से पहले तीन वायर ट्रांसफर अधिकृत कर दिए।
मल्टी-फैक्टर ऑथेंटिकेशन इसे क्यों नहीं रोकता
MFA इस बात को सत्यापित करने के लिए डिज़ाइन किया गया है कि सिस्टम में लॉग इन करते समय आप वही हैं जो आप होने का दावा कर रहे हैं। यह उस व्यक्ति की पहचान सत्यापित नहीं करता जो आपसे कुछ करने के लिए कह रहा है। जब एक डीपफेक CFO कॉल करता है और वित्त टीम से पैसे वायर करने के लिए कहता है, तो कोई MFA चुनौती ट्रिगर नहीं होती — वित्त कर्मचारी वैध रूप से अपने क्रेडेंशियल्स के साथ बैंकिंग सिस्टम में लॉग इन है। वे खुद ट्रांसफर अधिकृत कर रहे हैं। समस्या कर्मचारी का ऑथेंटिकेशन नहीं है; समस्या अनुरोध का सत्यापन है।
MFA का जवाब है: "क्या यह व्यक्ति सिस्टम तक पहुँचने के लिए अधिकृत है?" सेफवर्ड का जवाब है: "क्या निर्देश देने वाला व्यक्ति वही है जो वे होने का दावा कर रहे हैं?" ये मौलिक रूप से अलग सुरक्षा प्रश्न हैं, और दोनों को उत्तर की ज़रूरत है।
ज्ञान-आधारित परत जो डीपफेक दोहरा नहीं सकते
एक डीपफेक कुछ भी दोहरा सकता है जो सार्वजनिक रूप से देखने योग्य है: चेहरा, आवाज़, तौर-तरीके, पृष्ठभूमि, कपड़े। जो यह दोहरा नहीं सकता वह है वह जानकारी जो केवल दो या अधिक लोगों के मन में मौजूद है और कभी डिजिटल रूप से प्रसारित नहीं हुई। व्यक्तिगत रूप से साझा किया गया, कभी न लिखा गया या इलेक्ट्रॉनिक रूप से नहीं भेजा गया सेफवर्ड AI के लिए अदृश्य है। इसे स्क्रैप, इंटरसेप्ट, या अनुमान नहीं लगाया जा सकता।
इसीलिए NIST SP 800-63B वॉइस-आधारित आउट-ऑफ-बैंड ऑथेंटिकेशन को अनुमोदित करता है: साझा ज्ञान का उपयोग करके एक अलग चैनल के माध्यम से पहचान सत्यापित करने का सिद्धांत क्रिप्टोग्राफिक रूप से स्वस्थ है, भले ही सत्यापन माध्यम (आवाज़) एनालॉग हो।
कार्यस्थल सत्यापन प्रोटोकॉल कैसे सेट करें
Arup हमले को एक सवाल से रोका जा सकता था: "हमारा सत्यापन शब्द क्या है?" यहाँ बताया गया है कि कैसे सुनिश्चित करें कि आपका संगठन तैयार है।
- टीम मीटिंग में व्यक्तिगत रूप से सेफवर्ड स्थापित करें — एक प्रति विभाग या कार्यात्मक समूह
- सीमा से ऊपर के वित्तीय लेनदेन के लिए सेफवर्ड के साथ मौखिक सत्यापन आवश्यक
- IT हेल्पडेस्क को पासवर्ड रीसेट या MFA परिवर्तन से पहले विभाग सेफवर्ड आवश्यक
- वीडियो कॉल सत्यापन: वित्तीय निर्णयों वाली किसी भी कॉल की शुरुआत में, प्रतिभागी सेफवर्ड का आदान-प्रदान करें
- कॉलबैक सत्यापन: असामान्य अनुरोध प्राप्त करने के बाद, फोन काटें और एक ज्ञात नंबर पर वापस कॉल करें, फिर सेफवर्ड सत्यापित करें
- वेंडर सेफवर्ड: भुगतान-संबंधी संचार के लिए प्रत्येक महत्वपूर्ण वेंडर के साथ अलग सत्यापन शब्द स्थापित करें
- तिमाही रोटेशन: हर तिमाही में व्यक्तिगत बैठक में सेफवर्ड बदलें
यह फिर होगा
Arup हमला कोई अपवाद नहीं था — यह एक पूर्वावलोकन है। डीपफेक तकनीक तेज़ी से सुधर रही है और सस्ती हो रही है। रियल-टाइम फेस और वॉइस सिंथेसिस टूल $100 प्रति माह से कम में उपलब्ध हैं। इस हमले को अंजाम देने की बाधा लगभग शून्य है। कोई भी कंपनी जिसके कार्यकारियों का सार्वजनिक-सामना करने वाला वीडियो या ऑडियो है, वह एक संभावित लक्ष्य है।
सवाल यह नहीं है कि क्या आपकी कंपनी डीपफेक प्रतिरूपण प्रयास का सामना करेगी। सवाल यह है कि जब ऐसा होगा तो क्या आपकी टीम जानेगी कि क्या पूछना है।
आज ही कार्यस्थल सत्यापन प्रोटोकॉल बनाने के लिए Safewords.io प्रोटोकॉल बिल्डर का उपयोग करें। अपने समूह प्रकार के रूप में "कार्यस्थल" चुनें, अपनी टीम जोड़ें, और परिभाषित करें कि सेफवर्ड सत्यापन कब आवश्यक है। सुरक्षा कार्ड प्रिंट करें और अपनी अगली टीम मीटिंग में वितरित करें।