Google का बार्ड LaMDA भाषा मॉडल पर आधारित है, जिसे Infiniset नामक इंटरनेट सामग्री पर आधारित डेटासेट पर प्रशिक्षित किया गया है, जिसके बारे में बहुत कम जानकारी है कि डेटा कहाँ से आया और उन्हें कैसे प्राप्त हुआ।
2022 LaMDA शोध पत्र LaMDA को प्रशिक्षित करने के लिए उपयोग किए जाने वाले विभिन्न प्रकार के डेटा के प्रतिशत को सूचीबद्ध करता है, लेकिन केवल 12.5% वेब से क्रॉल की गई सामग्री के सार्वजनिक डेटासेट से आता है और अन्य 12.5% विकिपीडिया से आता है।
Google जानबूझकर अस्पष्ट है कि शेष स्क्रैप किए गए डेटा कहां से आते हैं लेकिन उन डेटासेट में कौन सी साइटें हैं, इसके संकेत हैं।
Google का इनफिनिसेट डेटासेट
Google बार्ड LaMDA नामक एक भाषा मॉडल पर आधारित है, जो एक संक्षिप्त रूप है संवाद अनुप्रयोगों के लिए भाषा मॉडल.
LaMDA को Infiniset नामक डेटासेट पर प्रशिक्षित किया गया था।
Infiniset इंटरनेट सामग्री का एक मिश्रण है जिसे जानबूझकर मॉडल की संवाद में संलग्न होने की क्षमता को बढ़ाने के लिए चुना गया था।
LaMDA शोध पत्र (पीडीएफ) बताते हैं कि उन्होंने सामग्री के इस संयोजन को क्यों चुना:
“… इस संरचना को संवाद कार्यों पर अधिक मजबूत प्रदर्शन प्राप्त करने के लिए चुना गया था … जबकि अभी भी कोड जनरेशन जैसे अन्य कार्यों को करने की क्षमता को बनाए रखा गया है।
भविष्य के काम के रूप में, हम अध्ययन कर सकते हैं कि इस रचना का चुनाव मॉडल द्वारा किए गए कुछ अन्य एनएलपी कार्यों की गुणवत्ता को कैसे प्रभावित कर सकता है।
शोध पत्र का संदर्भ देता है संवाद और संवादजो कंप्यूटर विज्ञान के दायरे में इस संदर्भ में प्रयुक्त शब्दों की वर्तनी है।
कुल मिलाकर, LaMDA को “के 1.56 ट्रिलियन शब्दों पर पूर्व-प्रशिक्षित किया गया था”सार्वजनिक संवाद डेटा और वेब पाठ।”
डेटासेट में निम्नलिखित मिश्रण शामिल हैं:
- 12.5% C4-आधारित डेटा
- 12.5% अंग्रेजी भाषा विकिपीडिया
- प्रोग्रामिंग क्यू एंड ए वेबसाइटों, ट्यूटोरियल और अन्य से 12.5% कोड दस्तावेज़
- 6.25% अंग्रेजी वेब दस्तावेज़
- 6.25% गैर-अंग्रेज़ी वेब दस्तावेज़
- सार्वजनिक मंचों से 50% संवाद डेटा
Infiniset के पहले दो भाग (C4 और विकिपीडिया) ज्ञात डेटा से युक्त हैं।
C4 डेटासेट, जिसे शीघ्र ही एक्सप्लोर किया जाएगा, कॉमन क्रॉल डेटासेट का एक विशेष रूप से फ़िल्टर किया गया संस्करण है।
केवल 25% डेटा एक नामित स्रोत से है ( सी 4 डेटासेट और विकिपीडिया).
शेष डेटा जो Infiniset डेटासेट का बड़ा हिस्सा बनाता है, 75% में ऐसे शब्द होते हैं जिन्हें इंटरनेट से स्क्रैप किया गया था।
शोध पत्र में यह नहीं बताया गया है कि वेबसाइटों से डेटा कैसे प्राप्त किया गया था, यह किन वेबसाइटों से प्राप्त किया गया था या स्क्रैप की गई सामग्री के बारे में कोई अन्य विवरण।
Google केवल “गैर-अंग्रेज़ी वेब दस्तावेज़” जैसे सामान्यीकृत विवरणों का उपयोग करता है।
शब्द “अंधकार” का अर्थ है जब कुछ समझाया नहीं जाता है और अधिकतर छुपाया जाता है।
LaMDA के प्रशिक्षण के लिए Google द्वारा उपयोग किए जाने वाले 75% डेटा का वर्णन करने के लिए मुर्की सबसे अच्छा शब्द है।
इससे कुछ सुराग मिले हैं सामान्य विचार दे सकता है 75% वेब सामग्री में कौन सी साइटें शामिल हैं, लेकिन हम निश्चित रूप से नहीं जान सकते।
सी 4 डेटासेट
C4 2020 में Google द्वारा विकसित एक डेटासेट है। C4 का अर्थ है “कोलोसल क्लीन क्रॉल्ड कॉर्पस।”
यह डेटासेट कॉमन क्रॉल डेटा पर आधारित है, जो एक ओपन-सोर्स डेटासेट है।
कॉमन क्रॉल के बारे में
सामान्य क्रॉल एक पंजीकृत गैर-लाभकारी संगठन है जो मुफ्त डेटासेट बनाने के लिए मासिक आधार पर इंटरनेट को क्रॉल करता है जिसका कोई भी उपयोग कर सकता है।
कॉमन क्रॉल संगठन वर्तमान में उन लोगों द्वारा चलाया जाता है जिन्होंने विकिमीडिया फाउंडेशन के लिए काम किया है, पूर्व गोगलर्स, ब्लेको के संस्थापक, और पीटर नॉरविग, Google के अनुसंधान निदेशक और डैनी सुलिवन (Google के भी) जैसे सलाहकार लोगों के रूप में गिने जाते हैं।
सामान्य क्रॉल से C4 कैसे विकसित होता है
डेटासेट को मुख्य सामग्री तक सीमित करने के लिए कच्चे कॉमन क्रॉल डेटा को पतली सामग्री, अश्लील शब्द, लोरेम इप्सम, नेविगेशनल मेनू, डुप्लीकेशन आदि जैसी चीजों को हटाकर साफ किया जाता है।
अनावश्यक डेटा को फ़िल्टर करने का उद्देश्य अस्पष्टता को दूर करना और प्राकृतिक अंग्रेजी के उदाहरणों को बनाए रखना था।
C4 बनाने वाले शोधकर्ताओं ने यही लिखा है:
“हमारे आधार डेटा सेट को इकट्ठा करने के लिए, हमने अप्रैल 2019 से वेब निकाले गए पाठ को डाउनलोड किया और उपरोक्त फ़िल्टरिंग को लागू किया।
यह पाठ का एक संग्रह तैयार करता है जो न केवल पूर्व-प्रशिक्षण (लगभग 750 जीबी) के लिए उपयोग किए जाने वाले अधिकांश डेटा सेटों की तुलना में बड़े परिमाण का आदेश है, बल्कि इसमें यथोचित स्वच्छ और प्राकृतिक अंग्रेजी पाठ भी शामिल है।
हम इस डेटा को “कोलोसल क्लीन क्रॉल्ड कॉर्पस” (या शॉर्ट के लिए C4) सेट करते हैं और इसे TensorFlow डेटासेट के हिस्से के रूप में रिलीज़ करते हैं…”
C4 के अन्य अनफ़िल्टर्ड संस्करण भी हैं।
C4 डेटासेट का वर्णन करने वाले शोध पत्र का शीर्षक है, यूनिफाइड टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर (पीडीएफ) के साथ ट्रांसफर लर्निंग की सीमाओं की खोज.
2021 से एक और शोध पत्र, (डॉक्यूमेंटिंग लार्ज वेबटेक्स्ट कॉर्पोरा: ए केस स्टडी ऑन द कोलोसल क्लीन क्रॉल्ड कॉर्पस – पीडीएफ) ने C4 डेटासेट में शामिल साइटों की बनावट की जांच की।
दिलचस्प बात यह है कि दूसरे शोध पत्र ने मूल C4 डेटासेट में विसंगतियों की खोज की जिसके परिणामस्वरूप हिस्पैनिक और अफ्रीकी अमेरिकी गठबंधन वाले वेबपृष्ठों को हटा दिया गया।
हिस्पैनिक संरेखित वेबपृष्ठों को 32% पृष्ठों की दर से ब्लॉकलिस्ट फ़िल्टर (अपशब्द, आदि) द्वारा हटा दिया गया था।
अफ्रीकी अमेरिकी संरेखित वेबपृष्ठों को 42% की दर से हटा दिया गया।
संभवत: उन कमियों को दूर कर लिया गया है …
एक अन्य खोज यह थी कि C4 डेटासेट का 51.3% वेबपृष्ठों से युक्त था जो संयुक्त राज्य में होस्ट किए गए थे।
अंत में, मूल C4 डेटासेट का 2021 विश्लेषण स्वीकार करता है कि डेटासेट कुल इंटरनेट के एक अंश का प्रतिनिधित्व करता है।
विश्लेषण कहता है:
“हमारे विश्लेषण से पता चलता है कि जबकि यह डेटासेट सार्वजनिक इंटरनेट के एक महत्वपूर्ण अंश का प्रतिनिधित्व करता है, यह किसी भी तरह से अंग्रेजी बोलने वाली दुनिया का प्रतिनिधि नहीं है, और यह कई वर्षों तक फैला हुआ है।
वेब के किसी स्क्रैप से डेटासेट बनाते समय, उन डोमेन की रिपोर्ट करना जिनसे टेक्स्ट स्क्रैप किया गया है, डेटासेट को समझने का अभिन्न अंग है; डेटा संग्रह प्रक्रिया से इंटरनेट डोमेन का वितरण अपेक्षा से काफी अलग हो सकता है।
C4 डेटासेट के बारे में निम्नलिखित आँकड़े दूसरे शोध पत्र से हैं जो ऊपर जुड़ा हुआ है।
C4 में शीर्ष 25 वेबसाइटें (टोकन की संख्या के अनुसार) हैं:
- पेटेंट.गूगल.कॉम
- en.wikipedia.org
- en.m.wikipedia.org
- www.nytimes.com
- www.latimes.com
- www.theguardian.com
- journals.plos.org
- www.forbes.com
- www.huffpost.com
- पेटेंट.com
- www.scribd.com
- www.washingtonpost.com
- www.fool.com
- ipfs.io
- www.frontiersin.org
- www.businessinsider.com
- www.chicagotribune.com
- www.booking.com
- www.theatlantic.com
- link.springer.com
- www.aljazeera.com
- www.kickstarter.com
- caselaw.findlaw.com
- www.ncbi.nlm.nih.gov
- www.npr.org
ये C4 डेटासेट में शीर्ष 25 प्रतिनिधित्व वाले शीर्ष स्तर के डोमेन हैं:
यदि आप C4 डेटासेट के बारे में अधिक जानने में रुचि रखते हैं, तो मैं पढ़ने की सलाह देता हूं बड़े वेबटेक्स्ट कॉर्पोरा का दस्तावेजीकरण: विशाल स्वच्छ क्रॉल्ड कॉर्पस (पीडीएफ) पर एक केस स्टडी साथ ही मूल 2020 शोध पत्र (पीडीएफ) जिसके लिए C4 बनाया गया था।
सार्वजनिक मंचों से डायलॉग डेटा क्या हो सकता है?
प्रशिक्षण डेटा का 50% “से आता है”सार्वजनिक मंचों से संवाद डेटा।”
इस प्रशिक्षण डेटा के बारे में Google का LaMDA शोध पत्र बस इतना ही कहता है।
यदि कोई अनुमान लगाता है, तो Reddit और StackOverflow जैसे अन्य शीर्ष समुदाय सुरक्षित दांव हैं।
Reddit का उपयोग कई महत्वपूर्ण डेटासेट जैसे कि एक में किया जाता है OpenAI द्वारा विकसित WebText2 (पीडीएफ) कहा जाता हैWebText2 का एक ओपन-सोर्स अनुमान जिसे OpenWebText2 और Google का अपना कहा जाता है वेब टेक्स्ट जैसा (पीडीएफ) 2020 से डेटासेट।
Google ने LaMDA पेपर के प्रकाशन से एक महीने पहले सार्वजनिक संवाद साइटों के अन्य डेटासेट का विवरण भी प्रकाशित किया।
सार्वजनिक संवाद साइटों वाले इस डेटासेट को मैसिववेब कहा जाता है।
हम अनुमान नहीं लगा रहे हैं कि मैसिववेब डेटासेट का उपयोग लाएमडीए को प्रशिक्षित करने के लिए किया गया था।
लेकिन इसमें एक अच्छा उदाहरण है कि Google ने संवाद पर केंद्रित एक अन्य भाषा मॉडल के लिए क्या चुना।
मैसिववेब डीपमाइंड द्वारा बनाया गया था, जिसका स्वामित्व Google के पास है।
इसे गोफर नामक एक बड़े भाषा मॉडल द्वारा उपयोग के लिए डिजाइन किया गया था (शोध पत्र के पीडीएफ का लिंक).
रेडडिट-प्रभावित डेटा की ओर पूर्वाग्रह बनाने से बचने के लिए मैसिववेब डायलॉग वेब स्रोतों का उपयोग करता है जो रेडडिट से परे जाते हैं।
यह अभी भी Reddit का उपयोग करता है। लेकिन इसमें कई अन्य साइटों से स्क्रैप किया गया डेटा भी शामिल है।
मैसिववेब में शामिल सार्वजनिक संवाद साइट हैं:
- फेसबुक
- क्वोरा
- यूट्यूब
- मध्यम
- स्टैक ओवरफ़्लो
दोबारा, यह सुझाव नहीं दे रहा है कि LaMDA को उपरोक्त साइटों के साथ प्रशिक्षित किया गया था।
यह केवल यह दिखाने के लिए है कि Google क्या उपयोग कर सकता था, एक डेटासेट दिखाकर Google लगभग उसी समय LaMDA के रूप में काम कर रहा था, जिसमें फ़ोरम-प्रकार की साइटें शामिल थीं।
शेष 37.5%
डेटा स्रोतों का अंतिम समूह हैं:
- क्यू एंड ए साइट्स, ट्यूटोरियल इत्यादि जैसी प्रोग्रामिंग से संबंधित साइटों से 12.5% कोड दस्तावेज़;
- 12.5% विकिपीडिया (अंग्रेज़ी)
- 6.25% अंग्रेजी वेब दस्तावेज़
- 6.25% गैर-अंग्रेज़ी वेब दस्तावेज़।
Google यह निर्दिष्ट नहीं करता है कि इसमें कौन-सी साइटें हैं प्रोग्रामिंग क्यू एंड ए साइट्स श्रेणी जो LaMDA द्वारा प्रशिक्षित डेटासेट का 12.5% बनाती है।
इसलिए हम केवल अनुमान लगा सकते हैं।
स्टैक ओवरफ्लो और रेडिट स्पष्ट पसंद की तरह प्रतीत होते हैं, खासकर जब से वे मैसिववेब डेटासेट में शामिल थे।
क्या “ट्यूटोरियल” साइटों को क्रॉल किया गया? हम केवल अनुमान लगा सकते हैं कि वे “ट्यूटोरियल” साइट क्या हो सकती हैं।
यह सामग्री की अंतिम तीन श्रेणियों को छोड़ देता है, जिनमें से दो अत्यधिक अस्पष्ट हैं।
अंग्रेजी भाषा के विकिपीडिया पर किसी चर्चा की आवश्यकता नहीं है, हम सभी विकिपीडिया को जानते हैं।
लेकिन निम्नलिखित दो की व्याख्या नहीं की गई है:
अंग्रेज़ी और गैर – अंग्रेजी भाषा वेब पेज डेटाबेस में शामिल 13% साइटों का सामान्य विवरण हैं।
प्रशिक्षण डेटा के इस भाग के बारे में Google द्वारा प्रदान की जाने वाली सभी जानकारी।
क्या Google को बार्ड के लिए उपयोग किए जाने वाले डेटासेट के बारे में पारदर्शी होना चाहिए?
कुछ प्रकाशक असहज महसूस करते हैं कि उनकी साइटों का उपयोग AI सिस्टम को प्रशिक्षित करने के लिए किया जाता है, क्योंकि उनकी राय में, वे सिस्टम भविष्य में उनकी वेबसाइटों को अप्रचलित और गायब कर सकते हैं।
यह सच है या नहीं यह देखा जाना बाकी है, लेकिन यह प्रकाशकों और खोज विपणन समुदाय के सदस्यों द्वारा व्यक्त की गई वास्तविक चिंता है।
LaMDA को प्रशिक्षित करने के लिए उपयोग की जाने वाली वेबसाइटों के साथ-साथ डेटा के लिए वेबसाइटों को परिमार्जन करने के लिए किस तकनीक का उपयोग किया गया था, इसके बारे में Google निराशाजनक रूप से अस्पष्ट है।
जैसा कि C4 डेटासेट के विश्लेषण में देखा गया था, बड़े भाषा मॉडल के प्रशिक्षण के लिए किस वेबसाइट सामग्री का उपयोग करना है, यह चुनने की पद्धति कुछ आबादी को छोड़कर भाषा मॉडल की गुणवत्ता को प्रभावित कर सकती है।
क्या Google को अपने एआई को प्रशिक्षित करने के लिए उपयोग की जाने वाली साइटों के बारे में अधिक पारदर्शी होना चाहिए या कम से कम उपयोग किए गए डेटा के बारे में एक आसान पारदर्शिता रिपोर्ट प्रकाशित करनी चाहिए?
शटरस्टॉक/एसीयर रोमेरो द्वारा प्रदर्शित छवि