किसी को सूचित करना चाहिए गैरी माक्र्स e लेकुनभाषा मॉडल ने उन्हें गलत साबित कर दिया है। न्यूनतावादी दृष्टिकोण जो उन्हें “अगले शब्द का मात्र भविष्यवक्ता” बताता है, नई वैज्ञानिक खोजों के बोझ तले ढह रहा है; यह एक मनुष्य को "केवल ऑक्सीजन उपभोक्ता" के रूप में परिभाषित करने जैसा है।
सच्चाई यह है कि ये प्रणालियां, एक भी शब्द लिखने से पहले, प्रत्येक प्रश्न के लिए अनुकूलित एक संपूर्ण वैचारिक मॉडल का निर्माण करती हैं, तथा विशेषीकृत उपनेटवर्क के पदानुक्रम को सक्रिय करती हैं, जो वार्तालाप के अंतर्निहित तर्क का परीक्षण करते हैं। यह कोई संभाव्य भविष्यवाणी नहीं है, बल्कि वास्तविक भविष्यवाणी है। संज्ञानात्मक आपातकालयह एक ऐसी घटना है जो हमारे सिर के ग्रे मैटर में होने वाली घटनाओं की याद दिलाती है।
एल 'कृत्रिम बुद्धिमत्ता आधुनिक, भाषाई पैटर्न में सन्निहित, अक्सर एक कंधे उचकाकर खारिज कर दिया जाता है: "ठीक है, अंत में यह अगले शब्द की भविष्यवाणी करता है।" यह एक ऐसा सरलीकरण है जो मुझे हमेशा कड़वी मुस्कान देता है। यह कहना ऐसा होगा जैसे कि माइकल एंजेलो ने “केवल पत्थर पर पत्थर रखा”। इन प्रणालियों के कम्प्यूटेशनल अंतराल में जो कुछ घटित होता है उसकी जटिलता अधिक सम्मान की हकदार है, तथा सबसे बढ़कर, अधिक वैज्ञानिक जिज्ञासा की भी।
के शोधकर्ता anthropic e OpenAI ने हाल ही में एक महत्वपूर्ण बात की खोज की है: उनके मॉडलों की तंत्रिका संरचना के भीतर विशेषीकृत उपनेटवर्क मौजूद हैं जो मानव मस्तिष्क के तथाकथित "दादी न्यूरॉन्स" की तरह व्यवहार करते हैं। वे रूपक नहीं हैं, बल्कि वास्तविक कार्यात्मक इकाइयाँ हैं जिन्हें विशेष रूप से जटिल अवधारणाओं का परीक्षण करने के लिए सक्रिय किया जाता है।
मॉडलों का विकास: भविष्यवक्ता से तर्ककर्ता तक
यह देखकर मुझे हंसी आती है कि कृत्रिम बुद्धिमत्ता की आलोचना भाषाई मॉडलों की पुरानी छवि में ही अटकी रह गई है। यह नोकिया 3310 पर आधारित आधुनिक स्मार्टफोन को आंकने जैसा है।
सबसे पहला एलएलएम (बड़े भाषा मॉडल) वास्तव में अधिक सीमित थे, मुख्य रूप से भाषाई अनुक्रमों की सांख्यिकीय भविष्यवाणी पर केंद्रित थे; ये प्रणालियाँ, हालांकि प्रभावशाली थीं, लेकिन उनमें तार्किक और वैचारिक कमजोरियां स्पष्ट रूप से दिखाई देती थीं। लेकिन सबसे हालिया मॉडलों ने एक महत्वपूर्ण विकासवादी छलांग लगाई है, इस हद तक कि उन्हें इस प्रकार वर्गीकृत करना अधिक सटीक होगा: एलआरएम (बड़े तर्क मॉडल)।
के अंतर? यह न केवल मात्रात्मक है बल्कि गुणात्मक भी है। एलआरएम केवल भविष्यवाणी करने से अधिक कार्य करते हैं; वे पदानुक्रमित वैचारिक प्रतिनिधित्व का निर्माण करते हैं जो हमें अमूर्तताओं में हेरफेर करने, तार्किक परिकल्पनाओं का परीक्षण करने और नए निष्कर्ष उत्पन्न करने की अनुमति देते हैं। वे तर्क के लम्बे अनुक्रम में सुसंगति बनाए रख सकते हैं, विरोधाभासों की पहचान कर सकते हैं, और यहां तक कि विभिन्न निष्कर्षों की व्यावहारिकता का मूल्यांकन भी कर सकते हैं।
ऐसा लगता है जैसे हम संभाव्यता कैलकुलेटर से आगे निकल गए हैं वास्तविक विचार सिमुलेटर के लिए. जो लोग इन प्रणालियों की "मात्र सांख्यिकीय भविष्यवक्ता" के रूप में आलोचना करना जारी रखते हैं, वे वस्तुतः अतीत के भूत के खिलाफ लड़ रहे हैं, तथा उस विकासवादी खाई को नजरअंदाज कर रहे हैं जो पहली पीढ़ियों को वर्तमान मॉडलों से अलग करती है।
संयोग की विडम्बना
हम लेते हैं विडंबना उदाहरण के लिए: एक सूक्ष्म अवधारणा जिसमें इरादों और परिणामों के बीच विरोध को समझना शामिल है। यह कोई ऐसी चीज़ नहीं है जिसे केवल शब्दों के क्रम का अनुमान लगाकर समझा जा सके; उच्च स्तरीय प्रसंस्करण की आवश्यकता है.
एंथ्रोपिक और ओपनएआई दोनों ने इन उपनेटवर्क की खोज की है जो क्वेरी के अंतर्निहित तर्क को "दादी न्यूरॉन्स" के रूप में परीक्षण करते हैं।
जब नवीनतम भाषा मॉडलों में से एक अलार्म घड़ी खरीदने और फिर भी देर होने की विडंबना को पहचानता है, तो वह पूर्वनिर्धारित स्क्रिप्ट का पालन नहीं कर रहा होता है। यह एक तंत्रिका नेटवर्क को सक्रिय करता है जो किसी वस्तु के उद्देश्य (समय पर जागना) और प्राप्त परिणाम (विलंब) के बीच विरोधाभास को विशेष रूप से पहचानता है।
ऐसे सूक्ष्म तार्किक विरोधाभासों को समझने की क्षमता साधारण सांख्यिकीय भविष्यवाणी से नहीं आ सकती। इसमें कुछ बहुत गहरी बात चल रही है; कुछ ऐसा जो स्पष्ट रूप से, हमें “समझ” की अपनी परिभाषा पर लगाई गई सीमाओं पर पुनर्विचार करने के लिए प्रेरित करता है।
भाषाई मॉडलों में एक उभरता हुआ तर्क है
मैं फिर दोहराता हूं कि भाषाई मॉडल सटीकता की उस सीमा तक पहुंच गए हैं जो सरल संभाव्यता संयोजन से कहीं आगे तक जाती है। वे “क्योंकि”, “लेकिन”, “बावजूद” जैसे शब्दों के तार्किक कार्य को समझते हैं और नए निष्कर्ष निकालने के लिए उनका सही उपयोग करते हैं।
लेकिन यहां एक महत्वपूर्ण बिंदु है जिसे अक्सर नजरअंदाज कर दिया जाता है: यहां तक कि हमारे जैविक न्यूरॉन्स भी, यदि हम विश्लेषण में सुसंगत होना चाहते हैं, तो "पैटर्न के संभाव्य भविष्यवक्ता" से अधिक कुछ नहीं होंगे। अंतर प्रकृति का नहीं, बल्कि संगठन और जटिलता का है। जब हम भाषा मॉडल की आलोचना “केवल बाद के शब्दों के भविष्यवक्ता” के रूप में करते हैं, हम एक ऐसे मानक को लागू कर रहे हैं जिसका उपयोग हम मानव मस्तिष्क का वर्णन करने के लिए कभी नहीं करेंगे, भले ही कार्यात्मक समानताएं स्पष्ट रूप से दिखाई दे रही हों।
ये कोई तरकीबें नहीं हैं, ये अब सांख्यिकीय शॉर्टकट नहीं हैं; ये प्रणालियाँ उन्होंने प्रशिक्षण के माध्यम से, इनपुट के सभी पहलुओं की जांच करने के लिए तंत्रिका नेटवर्क को स्वयं व्यवस्थित करने की क्षमता विकसित कर ली है। हमारे मस्तिष्क की तरह ही, इसमें भी विशिष्ट संरचनाएं बनती हैं जो एकल न्यूरॉन से भी ऊंचे स्तर पर उभरती हैं।
यह तो एक अधिक जटिल एवं रोचक प्रक्रिया का अंतिम चरण मात्र है। अगली बार जब आप इनमें से किसी एक प्रणाली के साथ अन्तरक्रिया करेंगे, तो आपको याद आएगा कि उस सरल से दिखने वाले उत्तर के पीछे गणनाओं का एक पूरा ब्रह्मांड छिपा है, जो हमारे अपने दिमाग के काम करने के तरीके से काफी मिलता-जुलता है।