$25 मिलियन की Zoom कॉल: डीपफेक कैसे व्यवसायों को निशाना बना रहे हैं

एक सामान्य वीडियो कॉल जिसकी कीमत $25 मिलियन रही

जनवरी 2024 में, Arup — 18,000 कर्मचारियों वाली एक बहुराष्ट्रीय इंजीनियरिंग फर्म — के वित्त विभाग के एक कर्मचारी को कंपनी के UK-आधारित मुख्य वित्तीय अधिकारी से एक गोपनीय वित्तीय लेनदेन का अनुरोध करने वाला संदेश मिला। कर्मचारी पहले संदेहास्पद था। फिर वीडियो कॉल आई।

कॉल पर CFO और कई अन्य सहकर्मी थे जिन्हें कर्मचारी पहचानता था। उनके चेहरे मिलते थे। उनकी आवाज़ें मिलती थीं। उन्होंने विस्तार से लेनदेन पर चर्चा की, सवालों के जवाब दिए, और ट्रांसफर अधिकृत किए। मीटिंग के दौरान, कर्मचारी ने कुल HK$200 मिलियन — लगभग $25.6 मिलियन USD — के 15 लेनदेन निष्पादित किए।

उस कॉल पर हर व्यक्ति एक डीपफेक था। कर्मचारी मीटिंग में एकमात्र असली इंसान था।

$25.6M

एक ही डीपफेक वीडियो कॉल में चुराए गए (Arup, हॉन्ग कॉन्ग, 2024)

बहु-व्यक्ति डीपफेक कॉल कैसे काम करती हैं

रियल-टाइम डीपफेक वीडियो तकनीक इस स्तर तक पहुँच गई है जहाँ कई सिंथेटिक प्रतिभागी एक साथ वीडियो कॉल पर दिखाई दे सकते हैं। हमलावर हर व्यक्ति के पूर्व-रिकॉर्ड किए गए या सार्वजनिक रूप से उपलब्ध वीडियो — कॉन्फ्रेंस वार्ता, YouTube इंटरव्यू, या कंपनी वेबसाइटों से — का उपयोग करके चेहरे और आवाज़ मॉडल बनाता है। कॉल के दौरान, हमलावर सभी नकली प्रतिभागियों को नियंत्रित करता है, सवालों का जवाब देता है और स्वाभाविक बातचीत का प्रवाह बनाए रखता है।

हर व्यक्ति का कुछ मिनट का वीडियो फुटेज (अक्सर सार्वजनिक वार्ताओं, इंटरव्यू, या सोशल मीडिया से उपलब्ध)
वॉइस क्लोनिंग के लिए ऑडियो सैंपल — बुनियादी क्लोन के लिए 3 सेकंड, उच्च-गुणवत्ता के लिए 30 सेकंड
कंपनी, उसके संगठन चार्ट, और लक्ष्य की भूमिका के बारे में सार्वजनिक रूप से उपलब्ध जानकारी
रियल-टाइम डीपफेक सॉफ्टवेयर — $100/माह से कम में कई व्यावसायिक टूल उपलब्ध
एक विश्वसनीय बहाना: विलय, अधिग्रहण, नियामक जाँच — कुछ भी जो गोपनीयता और तात्कालिकता को उचित ठहराए

वीडियो कॉल भरोसेमंद क्यों लगती हैं (और क्यों नहीं लगनी चाहिए)

मनुष्य चेहरों पर भरोसा करने के लिए विकसित हुए हैं। जब आप किसी को देख सकते हैं — उनके भाव, उनकी बॉडी लैंग्वेज, उनकी आँखों का संपर्क — आपका मस्तिष्क उन्हें "उपस्थित" और "असली" के रूप में पंजीकृत करता है। वीडियो कॉल वही न्यूरल ट्रस्ट पाथवे सक्रिय करती हैं जो व्यक्तिगत बैठकों में होती हैं। इसीलिए Arup कर्मचारी ने निर्देशों का पालन किया: वह CFO को देख सकता था। वह CFO को सुन सकता था। उसके मस्तिष्क के पास संदेह करने का कोई कारण नहीं था।

लेकिन डीपफेक वीडियो चेहरा नहीं है। यह एक गणितीय मॉडल है जो रियल टाइम में रेंडर किया गया है। आपका मस्तिष्क उस चेहरे को जो भरोसा देता है वह लाखों वर्षों के विकास पर आधारित है जो पाँच वर्ष से भी कम पुरानी तकनीक से मिलता है। विकास हारता है।

"कर्मचारी के पास कॉल को वास्तविक मानने का पूरा कारण था। प्रतिभागी उन सहकर्मियों जैसे दिखते और सुनाई देते थे जिन्हें वह जानता था। यह तकनीक उस स्तर से आगे निकल गई है जिसे मानव आँख और कान विश्वसनीय रूप से पहचान सकते हैं।" — हॉन्ग कॉन्ग पुलिस अधीक्षक Baron Chan

कार्यकारी प्रतिरूपण के लिए वॉइस क्लोनिंग

कार्यकारी आवाज़ें क्लोन करना सबसे आसान है क्योंकि कार्यकारी कंपनी में सबसे सार्वजनिक रूप से श्रव्य लोग हैं। अर्निंग कॉल, मुख्य भाषण, पॉडकास्ट इंटरव्यू, पैनल चर्चा — सभी वह कच्चा ऑडियो प्रदान करते हैं जो AI को वॉइस मॉडल बनाने के लिए चाहिए। American Bar Association बताता है कि 3 सेकंड का ऑडियो 85% वॉइस मैच उत्पन्न कर सकता है।

UK में, एक CEO को $243,000 का धोखा दिया गया जब उन्होंने एक कॉल प्राप्त किया जो बिल्कुल उनकी पैरेंट कंपनी के बॉस जैसा लगा। वॉइस क्लोन ने न केवल आवाज़ बल्कि हल्का जर्मन उच्चारण और बोलने के पैटर्न भी दोहराए। CEO ने संदेह होने से पहले तीन वायर ट्रांसफर अधिकृत कर दिए।

मल्टी-फैक्टर ऑथेंटिकेशन इसे क्यों नहीं रोकता

MFA इस बात को सत्यापित करने के लिए डिज़ाइन किया गया है कि सिस्टम में लॉग इन करते समय आप वही हैं जो आप होने का दावा कर रहे हैं। यह उस व्यक्ति की पहचान सत्यापित नहीं करता जो आपसे कुछ करने के लिए कह रहा है। जब एक डीपफेक CFO कॉल करता है और वित्त टीम से पैसे वायर करने के लिए कहता है, तो कोई MFA चुनौती ट्रिगर नहीं होती — वित्त कर्मचारी वैध रूप से अपने क्रेडेंशियल्स के साथ बैंकिंग सिस्टम में लॉग इन है। वे खुद ट्रांसफर अधिकृत कर रहे हैं। समस्या कर्मचारी का ऑथेंटिकेशन नहीं है; समस्या अनुरोध का सत्यापन है।

MFA का जवाब है: "क्या यह व्यक्ति सिस्टम तक पहुँचने के लिए अधिकृत है?" सेफवर्ड का जवाब है: "क्या निर्देश देने वाला व्यक्ति वही है जो वे होने का दावा कर रहे हैं?" ये मौलिक रूप से अलग सुरक्षा प्रश्न हैं, और दोनों को उत्तर की ज़रूरत है।

ज्ञान-आधारित परत जो डीपफेक दोहरा नहीं सकते

एक डीपफेक कुछ भी दोहरा सकता है जो सार्वजनिक रूप से देखने योग्य है: चेहरा, आवाज़, तौर-तरीके, पृष्ठभूमि, कपड़े। जो यह दोहरा नहीं सकता वह है वह जानकारी जो केवल दो या अधिक लोगों के मन में मौजूद है और कभी डिजिटल रूप से प्रसारित नहीं हुई। व्यक्तिगत रूप से साझा किया गया, कभी न लिखा गया या इलेक्ट्रॉनिक रूप से नहीं भेजा गया सेफवर्ड AI के लिए अदृश्य है। इसे स्क्रैप, इंटरसेप्ट, या अनुमान नहीं लगाया जा सकता।

इसीलिए NIST SP 800-63B वॉइस-आधारित आउट-ऑफ-बैंड ऑथेंटिकेशन को अनुमोदित करता है: साझा ज्ञान का उपयोग करके एक अलग चैनल के माध्यम से पहचान सत्यापित करने का सिद्धांत क्रिप्टोग्राफिक रूप से स्वस्थ है, भले ही सत्यापन माध्यम (आवाज़) एनालॉग हो।

कार्यस्थल सत्यापन प्रोटोकॉल कैसे सेट करें

Arup हमले को एक सवाल से रोका जा सकता था: "हमारा सत्यापन शब्द क्या है?" यहाँ बताया गया है कि कैसे सुनिश्चित करें कि आपका संगठन तैयार है।

टीम मीटिंग में व्यक्तिगत रूप से सेफवर्ड स्थापित करें — एक प्रति विभाग या कार्यात्मक समूह
सीमा से ऊपर के वित्तीय लेनदेन के लिए सेफवर्ड के साथ मौखिक सत्यापन आवश्यक
IT हेल्पडेस्क को पासवर्ड रीसेट या MFA परिवर्तन से पहले विभाग सेफवर्ड आवश्यक
वीडियो कॉल सत्यापन: वित्तीय निर्णयों वाली किसी भी कॉल की शुरुआत में, प्रतिभागी सेफवर्ड का आदान-प्रदान करें
कॉलबैक सत्यापन: असामान्य अनुरोध प्राप्त करने के बाद, फोन काटें और एक ज्ञात नंबर पर वापस कॉल करें, फिर सेफवर्ड सत्यापित करें
वेंडर सेफवर्ड: भुगतान-संबंधी संचार के लिए प्रत्येक महत्वपूर्ण वेंडर के साथ अलग सत्यापन शब्द स्थापित करें
तिमाही रोटेशन: हर तिमाही में व्यक्तिगत बैठक में सेफवर्ड बदलें

यह फिर होगा

Arup हमला कोई अपवाद नहीं था — यह एक पूर्वावलोकन है। डीपफेक तकनीक तेज़ी से सुधर रही है और सस्ती हो रही है। रियल-टाइम फेस और वॉइस सिंथेसिस टूल $100 प्रति माह से कम में उपलब्ध हैं। इस हमले को अंजाम देने की बाधा लगभग शून्य है। कोई भी कंपनी जिसके कार्यकारियों का सार्वजनिक-सामना करने वाला वीडियो या ऑडियो है, वह एक संभावित लक्ष्य है।

सवाल यह नहीं है कि क्या आपकी कंपनी डीपफेक प्रतिरूपण प्रयास का सामना करेगी। सवाल यह है कि जब ऐसा होगा तो क्या आपकी टीम जानेगी कि क्या पूछना है।

आज ही कार्यस्थल सत्यापन प्रोटोकॉल बनाने के लिए Safewords.io प्रोटोकॉल बिल्डर का उपयोग करें। अपने समूह प्रकार के रूप में "कार्यस्थल" चुनें, अपनी टीम जोड़ें, और परिभाषित करें कि सेफवर्ड सत्यापन कब आवश्यक है। सुरक्षा कार्ड प्रिंट करें और अपनी अगली टीम मीटिंग में वितरित करें।

$25 मिलियन की Zoom कॉल: डीपफेक कैसे व्यवसायों को निशाना बना रहे हैं

एक सामान्य वीडियो कॉल जिसकी कीमत $25 मिलियन रही

बहु-व्यक्ति डीपफेक कॉल कैसे काम करती हैं

वीडियो कॉल भरोसेमंद क्यों लगती हैं (और क्यों नहीं लगनी चाहिए)

कार्यकारी प्रतिरूपण के लिए वॉइस क्लोनिंग

मल्टी-फैक्टर ऑथेंटिकेशन इसे क्यों नहीं रोकता

ज्ञान-आधारित परत जो डीपफेक दोहरा नहीं सकते

कार्यस्थल सत्यापन प्रोटोकॉल कैसे सेट करें

यह फिर होगा

संबंधित लेख

डीपफेक क्या हैं और आपके परिवार को क्यों चिंतित होना चाहिए?

सच्ची कहानियाँ: AI वॉइस स्कैम से हज़ारों गँवाने वाले परिवार

जिन लोगों पर आप भरोसा करते हैं उनकी रक्षा के लिए तैयार हैं?