लेकिन क्या आप कल्पना कर सकते हैं कि वॉल स्ट्रीट हेज फंड एक निर्माण के लिए अरबों खर्च करने का निर्णय ले रहा होसामान्य कृत्रिम बुद्धि? बिल्कुल वैसा ही उसने किया उच्च उड़ता, एक चीनी मात्रात्मक निधि जिसने अपने संपूर्ण अनुसंधान एवं विकास विभाग को बदल दिया है डीपसीक 2023 में। अमेरिकी प्रतिबंधों से पहले ढेर सारे जीपीयू जमा होने के साथ, संस्थापक लियांग वेनफेंग 30 से कम उम्र के शोधकर्ताओं और अत्यधिक अनुकूलन पर दांव लगाया है।
"हम तत्काल लाभ की तलाश में नहीं हैं, बल्कि दुनिया के सबसे कठिन सवालों के जवाब की तलाश में हैं।" कहा लिआंग.
इस दर्शन का परिणाम है डीपसीक-आर1, ओपन सोर्स मॉडल जो गणित और तर्क में ओपनएआई ओ1 से बेहतर प्रदर्शन करता है संसाधनों का 1/10 लामा 3.1 द्वारा. रहस्य? "आवश्यकता का गुण बनाना"वो समझाता है मरीना झांग के 'सिडनी विश्वविद्यालय. सबसे उन्नत एनवीडिया चिप्स तक पहुंच के बिना, डीपसीक ने एल्गोरिदम बनाकर मॉडल आर्किटेक्चर में क्रांति ला दी जो जैज़ ऑर्केस्ट्रा की तरह संवाद करते हैं: कुछ वाद्ययंत्र, अधिकतम सामंजस्य। और अब वे अमीरों (और महंगे भी) को थरथरा देते हैं ऊर्जा संसाधनों के संदर्भ में) पश्चिमी एआई की दुनिया।
युवा प्रतिभाएँ और देशभक्ति: रहस्य (और थोड़ा अराजक) नुस्खा
जबकि गूगल और मेटा वे दिग्गजों को काम पर रखते हैं (और विदेश से प्रतिभाएँ), डीपसीक पर ध्यान केंद्रित करता है बीजिंग और सिंघुआ से हाल ही में स्नातक: दिमाग अकादमिक गौरव का भूखा है, सुनहरी तनख्वाह का नहीं। "हम उन लोगों को काम पर रखते हैं जिन्होंने शून्य औद्योगिक अनुभव के बावजूद अंतरराष्ट्रीय पुरस्कार जीते हैं", लियांग मानते हैं। एक दृष्टिकोण जो लाभदायक है: टीम ने विकसित किया मल्टी-हेड अव्यक्त ध्यान, एक तकनीक जिससे मेमोरी खपत 40% कम हो जाती है।
"वे 70 के दशक के स्टार्टअप की तरह हैं: कम पैसा, बहुत सारी रचनात्मकता," वे कहते हैं वेंडी चांग, के विश्लेषक मर्केटर संस्थान. "उन्होंने इंजीनियरिंग युक्तियों को संयोजित किया: कस्टम संचार योजनाएं, डेटा संपीड़न... ज्ञात चीजें, लेकिन इस तरह कभी उपयोग नहीं किया गया".
और इसमें एक अतिरिक्त घटक है: तकनीकी देशभक्ति. "यह पीढ़ी दिखाना चाहती है कि चीन प्रतिबंधों के बावजूद नवप्रवर्तन कर सकता है", झांग कहते हैं। एक मानसिकता (कमोबेश सहज) जो सीमाओं को स्प्रिंगबोर्ड में बदल देती है।
एमएलए और विशेषज्ञों का मिश्रण: ओपनएआई को हराने के लिए डीपसीक के गुप्त हथियार
डीपसीक-आर1 को इतना कुशल क्या बनाता है? तीन मुख्य कारक:
- मल्टी-हेड अव्यक्त ध्यान (एमएलए): मुख्य पैटर्न पर ध्यान केंद्रित करते हुए, अनावश्यक गणनाओं को कम करता है।
- विशेषज्ञों का मिश्रण: कार्य के आधार पर तंत्रिका नेटवर्क के केवल विशिष्ट भागों को सक्रिय करता है, जैसे एक मैकेनिक केवल आवश्यक उपकरणों का उपयोग करता है।
- यह खुला स्रोत हैकम से कम अभी के लिए। "यह पश्चिम को पकड़ने का एकमात्र तरीका है", चांग बताते हैं। "आप वैश्विक योगदानकर्ताओं को आकर्षित करते हैं, मॉडल में सुधार करते हैं, एक पारिस्थितिकी तंत्र बनाते हैं". जीतने की रणनीति: 2 महीनों में, 20.000 डेवलपर्स ने कोड में योगदान दिया।
यह एक फेरारी इंजन की तरह है जो पांडा की तरह खपत करता है. डीपसीक-आर1 के प्रशिक्षण में पैसा खर्च होता है $15 मिलियन के खिलाफ $150 मिलियन मेटा का. एक ऐसा अंतर जो सिलिकॉन वैली को कंपा देता है।
अमेरिकी प्रतिबंध? एक बूमरैंग (शायद)
जब अमेरिका ने 2022 में उन्नत चिप्स के निर्यात को अवरुद्ध कर दिया, तो कई लोगों ने चीनी एआई के पतन की भविष्यवाणी की। अभी के लिए, डीपसीक यह साबित करता है सरलता हार्डवेयर को मात देती है. "चीन अपने संसाधनों के साथ क्या कर सकता है इसका अनुमान संशोधित करने की आवश्यकता है", चांग को चेतावनी दी।
चीनी मॉडल? अत्यधिक अनुकूलन + खुला स्रोत + तकनीकी राष्ट्रवाद। "यदि अन्य लोग अनुसरण करेंगे, तो प्रतिबंधों का अर्थ खो जाएगा", झांग ने निष्कर्ष निकाला। इस बीच, कोड ओपन सोर्स हो सकते हैं, लेकिन डीपसीक वायर्ड के ईमेल (हमारे ईमेल की तो बात ही छोड़ दें) का जवाब नहीं देता है।
हम इसके बारे में जरूर सुनेंगे.