एक लीक हुआ Google मेमो इस बात का एक बिंदु-दर-बिंदु सारांश प्रस्तुत करता है कि Google ओपन सोर्स AI से क्यों हार रहा है और प्रभुत्व और मंच के मालिक होने के लिए एक रास्ता सुझाता है।
मेमो उनके प्रतिस्पर्धी को स्वीकार करते हुए खुलता है जो कभी भी OpenAI नहीं था और हमेशा ओपन सोर्स होने वाला था।
ओपन सोर्स के खिलाफ प्रतिस्पर्धा नहीं कर सकता
इसके अलावा, वे स्वीकार करते हैं कि वे खुले स्रोत के खिलाफ प्रतिस्पर्धा करने के लिए किसी भी तरह से तैनात नहीं हैं, यह स्वीकार करते हुए कि वे पहले ही एआई प्रभुत्व के लिए संघर्ष खो चुके हैं।
उन्होने लिखा है:
“हमने OpenAI में अपने कंधों पर बहुत कुछ देखा है। अगला मील का पत्थर कौन पार करेगा? अगली चाल क्या होगी?
लेकिन असहज करने वाला सच यह है कि हम हथियारों की इस दौड़ को जीतने की स्थिति में नहीं हैं और न ही OpenAI है। जब हम आपस में झगड़ रहे थे, एक तीसरा गुट चुपचाप हमारा लंच खा रहा था।
मैं बात कर रहा हूँ, बेशक, ओपन सोर्स के बारे में।
सीधे शब्दों में कहें, तो वे हमें थप्पड़ मार रहे हैं। जिन चीजों को हम “बड़ी खुली समस्याएं” मानते हैं, वे आज हल हो गई हैं और लोगों के हाथों में हैं।
मेमो का बड़ा हिस्सा यह बताने में खर्च किया जाता है कि ओपन सोर्स द्वारा Google को कैसे आउटप्ले किया जाता है।
और भले ही Google को ओपन सोर्स पर थोड़ा फायदा है, मेमो के लेखक ने स्वीकार किया है कि यह फिसल रहा है और कभी वापस नहीं आएगा।
रूपक कार्डों का आत्म-विश्लेषण जो उन्होंने खुद निपटाया है, काफी हद तक कम है:
“जबकि हमारे मॉडल अभी भी गुणवत्ता के मामले में थोड़ी बढ़त रखते हैं, अंतर आश्चर्यजनक रूप से जल्दी से बंद हो रहा है।
ओपन-सोर्स मॉडल तेज, अधिक अनुकूलन योग्य, अधिक निजी और पाउंड-फॉर-पाउंड अधिक सक्षम हैं।
वे $100 और 13B पैराम के साथ काम कर रहे हैं जिससे हम $10M और 540B पर संघर्ष कर रहे हैं।
और वे ऐसा हफ्तों में कर रहे हैं, महीनों में नहीं।”
बड़े भाषा मॉडल का आकार कोई फायदा नहीं है
शायद मेमो में व्यक्त सबसे द्रुतशीतन अहसास Google का आकार अब एक फायदा नहीं है।
उनके मॉडलों के बाहरी रूप से बड़े आकार को अब नुकसान के रूप में देखा जाता है और किसी भी तरह से उस दुर्गम लाभ के रूप में नहीं देखा जाता है जो उन्होंने सोचा था।
लीक हुए मेमो में घटनाओं की एक श्रृंखला सूचीबद्ध है जो Google (और OpenAI) के AI के नियंत्रण को संकेत देती है जो तेजी से खत्म हो सकती है।
यह बताता है कि बमुश्किल एक महीने पहले, मार्च 2023 में, ओपन सोर्स समुदाय ने मेटा द्वारा विकसित एक लीक ओपन सोर्स मॉडल लार्ज लैंग्वेज मॉडल प्राप्त किया जिसे LLaMA कहा जाता है।
दिनों और हफ्तों के भीतर वैश्विक ओपन सोर्स समुदाय ने बार्ड और चैटजीपीटी क्लोन बनाने के लिए आवश्यक सभी बिल्डिंग पार्ट्स विकसित किए।
इंस्ट्रक्शन ट्यूनिंग और रीइंफोर्समेंट लर्निंग फ्रॉम ह्यूमन फीडबैक (आरएलएचएफ) जैसे परिष्कृत कदमों को वैश्विक ओपन सोर्स कम्युनिटी द्वारा सस्ते में तेजी से दोहराया गया।
- निर्देश ट्यूनिंग
किसी भाषा मॉडल को फाइन-ट्यूनिंग करने की एक प्रक्रिया जिससे वह कुछ विशिष्ट कर सके जिसे करने के लिए उसे शुरू में प्रशिक्षित नहीं किया गया था। - मानव प्रतिक्रिया से सुदृढीकरण सीखना (आरएलएचएफ)
एक ऐसी तकनीक जिसमें मनुष्य किसी भाषा मॉडल के आउटपुट को रेट करते हैं ताकि यह सीख सके कि कौन से आउटपुट मनुष्यों के लिए संतोषजनक हैं।
RLHF OpenAI द्वारा InstructGPT बनाने के लिए उपयोग की जाने वाली तकनीक है, जो कि ChatGPT के अंतर्गत एक मॉडल है और GPT-3.5 और GPT-4 मॉडल को निर्देश लेने और कार्यों को पूरा करने की अनुमति देता है।
आरएलएचएफ वह आग है जिससे ओपन सोर्स ने लिया है
ओपन सोर्स का पैमाना Google को डराता है
विशेष रूप से Google को जो बात डराती है वह यह है कि ओपन सोर्स आंदोलन उनकी परियोजनाओं को इस तरह से स्केल करने में सक्षम है कि बंद स्रोत नहीं कर सकता।
ओपन सोर्स चैटजीपीटी क्लोन, डॉली 2.0 बनाने के लिए इस्तेमाल किया गया सवाल और जवाब डेटासेट पूरी तरह से हजारों कर्मचारी स्वयंसेवकों द्वारा बनाया गया था।
Google और OpenAI रेडिट जैसी साइटों से स्क्रैप किए गए प्रश्न और उत्तरों पर आंशिक रूप से निर्भर थे।
डेटाब्रिक्स द्वारा बनाए गए ओपन सोर्स क्यू एंड ए डेटासेट के उच्च गुणवत्ता वाले होने का दावा किया जाता है क्योंकि जिन लोगों ने इसे बनाने में योगदान दिया वे पेशेवर थे और उनके द्वारा प्रदान किए गए उत्तर एक विशिष्ट प्रश्न और उत्तर डेटासेट में पाए जाने वाले उत्तर की तुलना में लंबे और अधिक पर्याप्त थे। सार्वजनिक मंच।
लीक हुए ज्ञापन में देखा गया:
“मार्च की शुरुआत में ओपन सोर्स कम्युनिटी को उनके पहले वास्तव में सक्षम फाउंडेशन मॉडल पर हाथ मिला, क्योंकि मेटा का LLaMA जनता के लिए लीक हो गया था।
इसमें कोई निर्देश या वार्तालाप ट्यूनिंग नहीं थी, और कोई RLHF नहीं था।
बहरहाल, समुदाय को तुरंत ही समझ आ गया कि उन्हें क्या दिया गया है।
प्रमुख विकासों के बीच कुछ ही दिनों के साथ, नवाचार का जबरदस्त विस्तार हुआ …
यहां हम बमुश्किल एक महीने बाद हैं, और निर्देश ट्यूनिंग, परिमाणीकरण, गुणवत्ता में सुधार, मानव मूल्यांकन, मल्टीमॉडलिटी, आरएलएचएफ, आदि के साथ वेरिएंट हैं, जिनमें से कई एक दूसरे पर निर्मित होते हैं।
सबसे महत्वपूर्ण बात यह है कि उन्होंने स्केलिंग की समस्या को इस हद तक हल कर दिया है कि कोई भी छेड़छाड़ कर सकता है।
कई नए विचार आम लोगों के हैं।
प्रशिक्षण और प्रयोग के लिए प्रवेश की बाधा एक प्रमुख शोध संगठन के कुल उत्पादन से एक व्यक्ति, एक शाम और एक बीफ लैपटॉप तक गिर गई है।
दूसरे शब्दों में, Google और OpenAI को प्रशिक्षित करने और बनाने में महीनों और वर्षों का समय लगा और ओपन सोर्स समुदाय के लिए केवल कुछ ही दिन लगे।
यह Google के लिए वास्तव में भयावह परिदृश्य होना चाहिए।
यह एक कारण है कि मैं ओपन सोर्स एआई आंदोलन के बारे में इतना क्यों लिख रहा हूं क्योंकि यह वास्तव में ऐसा लगता है कि जेनेरेटिव एआई का भविष्य अपेक्षाकृत कम समय में कहां होगा।
खुला स्रोत ऐतिहासिक रूप से बंद स्रोत से आगे निकल गया है
मेमो ओपनएआई के डीएएल-ई के साथ हाल के अनुभव का हवाला देता है, जो ओपन सोर्स स्टेबल डिफ्यूजन बनाम छवियों को बनाने के लिए इस्तेमाल किया जाने वाला गहन शिक्षण मॉडल है, जो वर्तमान में बार्ड और चैटजीपीटी जैसे जेनेरेटिव एआई को प्रभावित कर रहा है।
Dall-e को OpenAI द्वारा जनवरी 2021 में रिलीज़ किया गया था। स्टेबल डिफ्यूजन, ओपन सोर्स संस्करण, डेढ़ साल बाद अगस्त 2022 में जारी किया गया था और कुछ ही हफ्तों में Dall-E की लोकप्रियता को पीछे छोड़ दिया।
यह टाइमलाइन ग्राफ दिखाता है कि कितनी तेजी से स्थिर प्रसार ने Dall-E को पीछे छोड़ दिया:
उपरोक्त Google ट्रेंड्स टाइमलाइन से पता चलता है कि कैसे ओपन सोर्स स्टेबल डिफ्यूजन मॉडल में रुचि ने Dall-E की रिलीज के तीन सप्ताह के भीतर ही इसे पार कर लिया।
और हालांकि Dall-E को डेढ़ साल हो गए थे, स्थिर प्रसार में रुचि तेजी से बढ़ती रही जबकि OpenAI का Dall-E स्थिर रहा।
बार्ड (और OpenAI) से आगे निकलने वाली समान घटनाओं का अस्तित्वगत खतरा Google को बुरे सपने दे रहा है।
ओपन सोर्स मॉडल की निर्माण प्रक्रिया सुपीरियर है
एक अन्य कारक जो Google के इंजीनियरों को चिंतित कर रहा है, वह यह है कि ओपन सोर्स मॉडल बनाने और सुधारने की प्रक्रिया तेज, सस्ती है और वैश्विक सहयोगात्मक दृष्टिकोण के लिए खुद को पूरी तरह से उधार देती है जो ओपन सोर्स प्रोजेक्ट्स के लिए सामान्य है।
ज्ञापन में पाया गया है कि लोरा (बड़े भाषा मॉडल के निम्न-रैंक अनुकूलन) जैसी नई तकनीकें अत्यधिक कम लागत वाले दिनों में भाषा मॉडल के ठीक-ठीक ट्यूनिंग की अनुमति देती हैं, अंतिम एलएलएम अत्यधिक महंगे एलएलएम की तुलना में Google और OpenAI द्वारा बनाया गया।
एक और लाभ यह है कि ओपन सोर्स इंजीनियर स्क्रैच से शुरू करने के बजाय पिछले काम के ऊपर निर्माण कर सकते हैं, पुनरावृति कर सकते हैं।
OpenAI और Google जिस तरह से अरबों मापदंडों के साथ बड़े भाषा मॉडल का निर्माण कर रहे हैं, वह आज आवश्यक नहीं है।
यह कौन सा बिंदु हो सकता है कि सैम एल्टन हाल ही में इशारा कर रहे थे जब उन्होंने हाल ही में कहा था कि बड़े पैमाने पर बड़े भाषा मॉडल का युग खत्म हो गया है।
Google मेमो के लेखक ने मौजूदा बड़े एआई दृष्टिकोण के खिलाफ एलएलएम बनाने के लिए सस्ते और तेज़ लोरा दृष्टिकोण की तुलना की।
मेमो लेखक Google की कमी को दर्शाता है:
“इसके विपरीत, विशाल मॉडल को खरोंच से प्रशिक्षित करना न केवल पूर्व-प्रशिक्षण को दूर करता है, बल्कि शीर्ष पर किए गए किसी भी पुनरावृत्त सुधार को भी दूर करता है। ओपन सोर्स की दुनिया में, इन सुधारों के हावी होने में ज्यादा समय नहीं लगता है, जिससे एक पूर्ण रीट्रेन बेहद महंगा हो जाता है।
हमें इस बारे में विचार करना चाहिए कि क्या प्रत्येक नए एप्लिकेशन या विचार को वास्तव में एक नए मॉडल की आवश्यकता है।
…वास्तव में, इंजीनियर-घंटे के संदर्भ में, इन मॉडलों से सुधार की गति बहुत अधिक है जो हम अपने सबसे बड़े वेरिएंट के साथ कर सकते हैं, और सबसे अच्छे पहले से ही चैटजीपीटी से काफी हद तक अप्रभेद्य हैं।
लेखक इस बोध के साथ निष्कर्ष निकालता है कि उन्होंने जो सोचा था वह उनका लाभ था, उनके विशाल मॉडल और सहवर्ती निषेधात्मक लागत, वास्तव में एक नुकसान था।
ओपन सोर्स की वैश्विक-सहयोगी प्रकृति अधिक कुशल है और नवाचार में तेजी से परिमाण के आदेश हैं।
दुनिया भर के इंजीनियरों की भारी भीड़ के खिलाफ एक बंद-स्रोत प्रणाली कैसे प्रतिस्पर्धा कर सकती है?
लेखक का निष्कर्ष है कि वे प्रतिस्पर्धा नहीं कर सकते हैं और उनके शब्दों में, यह सीधी प्रतिस्पर्धा “हारने का प्रस्ताव” है।
यही संकट है, तूफ़ान, जो Google के बाहर विकसित हो रहा है।
अगर आप ओपन सोर्स को मात नहीं दे सकते तो उनसे जुड़ें
मेमो लेखक को ओपन सोर्स में एकमात्र सांत्वना यह मिलती है कि क्योंकि ओपन सोर्स इनोवेशन फ्री हैं, गूगल भी इसका फायदा उठा सकता है।
अंत में, लेखक का निष्कर्ष है कि Google के लिए खुला एकमात्र दृष्टिकोण प्लेटफॉर्म का मालिक होना है, उसी तरह वे ओपन सोर्स क्रोम और एंड्रॉइड प्लेटफॉर्म पर हावी हैं।
वे इंगित करते हैं कि अनुसंधान के लिए अपने LLaMA बड़े भाषा मॉडल को जारी करने से मेटा को कैसे लाभ हो रहा है और कैसे अब उनके पास हजारों लोग मुफ्त में अपना काम कर रहे हैं।
शायद मेमो से बड़ा निष्कर्ष यह है कि Google निकट भविष्य में ओपन सोर्स आधार पर अपनी परियोजनाओं को जारी करके अपने ओपन सोर्स प्रभुत्व को दोहराने की कोशिश कर सकता है और इस तरह मंच का मालिक बन सकता है।
मेमो का निष्कर्ष है कि ओपन सोर्स जाना सबसे व्यवहार्य विकल्प है:
“Google को खुले स्रोत समुदाय में खुद को एक नेता के रूप में स्थापित करना चाहिए, व्यापक बातचीत को अनदेखा करने के बजाय सहयोग करके नेतृत्व करना चाहिए।
इसका मतलब शायद कुछ असुविधाजनक कदम उठाना है, जैसे छोटे यूएलएम वेरिएंट के लिए मॉडल वेट प्रकाशित करना। इसका अनिवार्य रूप से मतलब है हमारे मॉडलों पर कुछ नियंत्रण छोड़ना।
लेकिन यह समझौता अपरिहार्य है।
हम नवोन्मेष को बढ़ावा देने और इसे नियंत्रित करने की उम्मीद नहीं कर सकते।”
ओपन सोर्स एआई फायर के साथ चलता है
पिछले हफ्ते मैंने मानव नायक प्रोमेथियस के ग्रीक मिथक को माउंट ओलिंप पर देवताओं से आग चुराने के लिए एक संकेत दिया, Google और OpenAI के “ओलंपियन देवताओं” के खिलाफ प्रोमेथियस के लिए खुले स्रोत को खड़ा किया:
मैं ट्वीट किए:
“जबकि Google, Microsoft और Open AI आपस में झगड़ते हैं और अपनी पीठ मोड़ लेते हैं, क्या Open Source अपनी आग से दूर चल रहा है?”
Google के ज्ञापन का रिसाव उस अवलोकन की पुष्टि करता है लेकिन यह ओपन सोर्स आंदोलन में शामिल होने के लिए Google पर संभावित रणनीति परिवर्तन को इंगित करता है और इस तरह इसे सह-चयन करता है और क्रोम और एंड्रॉइड के साथ उसी तरह हावी होता है।
लीक हुआ गूगल मेमो यहां पढ़ें: