Google Bard AI – What Sites Were Used To Train It?

Google का बार्ड LaMDA भाषा मॉडल पर आधारित है, जिसे Infiniset नामक इंटरनेट सामग्री पर आधारित डेटासेट पर प्रशिक्षित किया गया है, जिसके बारे में बहुत कम जानकारी है कि डेटा कहाँ से आया और उन्हें कैसे प्राप्त हुआ।

2022 LaMDA शोध पत्र LaMDA को प्रशिक्षित करने के लिए उपयोग किए जाने वाले विभिन्न प्रकार के डेटा के प्रतिशत को सूचीबद्ध करता है, लेकिन केवल 12.5% ​​वेब से क्रॉल की गई सामग्री के सार्वजनिक डेटासेट से आता है और अन्य 12.5% ​​​​विकिपीडिया से आता है।

Google जानबूझकर अस्पष्ट है कि शेष स्क्रैप किए गए डेटा कहां से आते हैं लेकिन उन डेटासेट में कौन सी साइटें हैं, इसके संकेत हैं।

Google का इनफिनिसेट डेटासेट

Google बार्ड LaMDA नामक एक भाषा मॉडल पर आधारित है, जो एक संक्षिप्त रूप है संवाद अनुप्रयोगों के लिए भाषा मॉडल.

LaMDA को Infiniset नामक डेटासेट पर प्रशिक्षित किया गया था।

Infiniset इंटरनेट सामग्री का एक मिश्रण है जिसे जानबूझकर मॉडल की संवाद में संलग्न होने की क्षमता को बढ़ाने के लिए चुना गया था।

LaMDA शोध पत्र (पीडीएफ) बताते हैं कि उन्होंने सामग्री के इस संयोजन को क्यों चुना:

“… इस संरचना को संवाद कार्यों पर अधिक मजबूत प्रदर्शन प्राप्त करने के लिए चुना गया था … जबकि अभी भी कोड जनरेशन जैसे अन्य कार्यों को करने की क्षमता को बनाए रखा गया है।

भविष्य के काम के रूप में, हम अध्ययन कर सकते हैं कि इस रचना का चुनाव मॉडल द्वारा किए गए कुछ अन्य एनएलपी कार्यों की गुणवत्ता को कैसे प्रभावित कर सकता है।

शोध पत्र का संदर्भ देता है संवाद और संवादजो कंप्यूटर विज्ञान के दायरे में इस संदर्भ में प्रयुक्त शब्दों की वर्तनी है।

कुल मिलाकर, LaMDA को “के 1.56 ट्रिलियन शब्दों पर पूर्व-प्रशिक्षित किया गया था”सार्वजनिक संवाद डेटा और वेब पाठ।”

डेटासेट में निम्नलिखित मिश्रण शामिल हैं:

  • 12.5% ​​C4-आधारित डेटा
  • 12.5% ​​अंग्रेजी भाषा विकिपीडिया
  • प्रोग्रामिंग क्यू एंड ए वेबसाइटों, ट्यूटोरियल और अन्य से 12.5% ​​कोड दस्तावेज़
  • 6.25% अंग्रेजी वेब दस्तावेज़
  • 6.25% गैर-अंग्रेज़ी वेब दस्तावेज़
  • सार्वजनिक मंचों से 50% संवाद डेटा

Infiniset के पहले दो भाग (C4 और विकिपीडिया) ज्ञात डेटा से युक्त हैं।

C4 डेटासेट, जिसे शीघ्र ही एक्सप्लोर किया जाएगा, कॉमन क्रॉल डेटासेट का एक विशेष रूप से फ़िल्टर किया गया संस्करण है।

केवल 25% डेटा एक नामित स्रोत से है ( सी 4 डेटासेट और विकिपीडिया).

शेष डेटा जो Infiniset डेटासेट का बड़ा हिस्सा बनाता है, 75% में ऐसे शब्द होते हैं जिन्हें इंटरनेट से स्क्रैप किया गया था।

शोध पत्र में यह नहीं बताया गया है कि वेबसाइटों से डेटा कैसे प्राप्त किया गया था, यह किन वेबसाइटों से प्राप्त किया गया था या स्क्रैप की गई सामग्री के बारे में कोई अन्य विवरण।

Google केवल “गैर-अंग्रेज़ी वेब दस्तावेज़” जैसे सामान्यीकृत विवरणों का उपयोग करता है।

शब्द “अंधकार” का अर्थ है जब कुछ समझाया नहीं जाता है और अधिकतर छुपाया जाता है।

LaMDA के प्रशिक्षण के लिए Google द्वारा उपयोग किए जाने वाले 75% डेटा का वर्णन करने के लिए मुर्की सबसे अच्छा शब्द है।

इससे कुछ सुराग मिले हैं सामान्य विचार दे सकता है 75% वेब सामग्री में कौन सी साइटें शामिल हैं, लेकिन हम निश्चित रूप से नहीं जान सकते।

सी 4 डेटासेट

C4 2020 में Google द्वारा विकसित एक डेटासेट है। C4 का अर्थ है “कोलोसल क्लीन क्रॉल्ड कॉर्पस।”

यह डेटासेट कॉमन क्रॉल डेटा पर आधारित है, जो एक ओपन-सोर्स डेटासेट है।

कॉमन क्रॉल के बारे में

सामान्य क्रॉल एक पंजीकृत गैर-लाभकारी संगठन है जो मुफ्त डेटासेट बनाने के लिए मासिक आधार पर इंटरनेट को क्रॉल करता है जिसका कोई भी उपयोग कर सकता है।

कॉमन क्रॉल संगठन वर्तमान में उन लोगों द्वारा चलाया जाता है जिन्होंने विकिमीडिया फाउंडेशन के लिए काम किया है, पूर्व गोगलर्स, ब्लेको के संस्थापक, और पीटर नॉरविग, Google के अनुसंधान निदेशक और डैनी सुलिवन (Google के भी) जैसे सलाहकार लोगों के रूप में गिने जाते हैं।

सामान्य क्रॉल से C4 कैसे विकसित होता है

डेटासेट को मुख्य सामग्री तक सीमित करने के लिए कच्चे कॉमन क्रॉल डेटा को पतली सामग्री, अश्लील शब्द, लोरेम इप्सम, नेविगेशनल मेनू, डुप्लीकेशन आदि जैसी चीजों को हटाकर साफ किया जाता है।

अनावश्यक डेटा को फ़िल्टर करने का उद्देश्य अस्पष्टता को दूर करना और प्राकृतिक अंग्रेजी के उदाहरणों को बनाए रखना था।

C4 बनाने वाले शोधकर्ताओं ने यही लिखा है:

“हमारे आधार डेटा सेट को इकट्ठा करने के लिए, हमने अप्रैल 2019 से वेब निकाले गए पाठ को डाउनलोड किया और उपरोक्त फ़िल्टरिंग को लागू किया।

यह पाठ का एक संग्रह तैयार करता है जो न केवल पूर्व-प्रशिक्षण (लगभग 750 जीबी) के लिए उपयोग किए जाने वाले अधिकांश डेटा सेटों की तुलना में बड़े परिमाण का आदेश है, बल्कि इसमें यथोचित स्वच्छ और प्राकृतिक अंग्रेजी पाठ भी शामिल है।

हम इस डेटा को “कोलोसल क्लीन क्रॉल्ड कॉर्पस” (या शॉर्ट के लिए C4) सेट करते हैं और इसे TensorFlow डेटासेट के हिस्से के रूप में रिलीज़ करते हैं…”

C4 के अन्य अनफ़िल्टर्ड संस्करण भी हैं।

C4 डेटासेट का वर्णन करने वाले शोध पत्र का शीर्षक है, यूनिफाइड टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर (पीडीएफ) के साथ ट्रांसफर लर्निंग की सीमाओं की खोज.

2021 से एक और शोध पत्र, (डॉक्यूमेंटिंग लार्ज वेबटेक्स्ट कॉर्पोरा: ए केस स्टडी ऑन द कोलोसल क्लीन क्रॉल्ड कॉर्पस – पीडीएफ) ने C4 डेटासेट में शामिल साइटों की बनावट की जांच की।

दिलचस्प बात यह है कि दूसरे शोध पत्र ने मूल C4 डेटासेट में विसंगतियों की खोज की जिसके परिणामस्वरूप हिस्पैनिक और अफ्रीकी अमेरिकी गठबंधन वाले वेबपृष्ठों को हटा दिया गया।

हिस्पैनिक संरेखित वेबपृष्ठों को 32% पृष्ठों की दर से ब्लॉकलिस्ट फ़िल्टर (अपशब्द, आदि) द्वारा हटा दिया गया था।

अफ्रीकी अमेरिकी संरेखित वेबपृष्ठों को 42% की दर से हटा दिया गया।

संभवत: उन कमियों को दूर कर लिया गया है …

एक अन्य खोज यह थी कि C4 डेटासेट का 51.3% वेबपृष्ठों से युक्त था जो संयुक्त राज्य में होस्ट किए गए थे।

अंत में, मूल C4 डेटासेट का 2021 विश्लेषण स्वीकार करता है कि डेटासेट कुल इंटरनेट के एक अंश का प्रतिनिधित्व करता है।

विश्लेषण कहता है:

“हमारे विश्लेषण से पता चलता है कि जबकि यह डेटासेट सार्वजनिक इंटरनेट के एक महत्वपूर्ण अंश का प्रतिनिधित्व करता है, यह किसी भी तरह से अंग्रेजी बोलने वाली दुनिया का प्रतिनिधि नहीं है, और यह कई वर्षों तक फैला हुआ है।

वेब के किसी स्क्रैप से डेटासेट बनाते समय, उन डोमेन की रिपोर्ट करना जिनसे टेक्स्ट स्क्रैप किया गया है, डेटासेट को समझने का अभिन्न अंग है; डेटा संग्रह प्रक्रिया से इंटरनेट डोमेन का वितरण अपेक्षा से काफी अलग हो सकता है।

C4 डेटासेट के बारे में निम्नलिखित आँकड़े दूसरे शोध पत्र से हैं जो ऊपर जुड़ा हुआ है।

C4 में शीर्ष 25 वेबसाइटें (टोकन की संख्या के अनुसार) हैं:

  1. पेटेंट.गूगल.कॉम
  2. en.wikipedia.org
  3. en.m.wikipedia.org
  4. www.nytimes.com
  5. www.latimes.com
  6. www.theguardian.com
  7. journals.plos.org
  8. www.forbes.com
  9. www.huffpost.com
  10. पेटेंट.com
  11. www.scribd.com
  12. www.washingtonpost.com
  13. www.fool.com
  14. ipfs.io
  15. www.frontiersin.org
  16. www.businessinsider.com
  17. www.chicagotribune.com
  18. www.booking.com
  19. www.theatlantic.com
  20. link.springer.com
  21. www.aljazeera.com
  22. www.kickstarter.com
  23. caselaw.findlaw.com
  24. www.ncbi.nlm.nih.gov
  25. www.npr.org

ये C4 डेटासेट में शीर्ष 25 प्रतिनिधित्व वाले शीर्ष स्तर के डोमेन हैं:

से स्क्रीनशॉट डॉक्यूमेंटिंग लार्ज वेबटेक्स्ट कॉर्पोरा: ए केस स्टडी ऑन द कोलोसल क्लीन क्रॉल्ड कॉर्पस

यदि आप C4 डेटासेट के बारे में अधिक जानने में रुचि रखते हैं, तो मैं पढ़ने की सलाह देता हूं बड़े वेबटेक्स्ट कॉर्पोरा का दस्तावेजीकरण: विशाल स्वच्छ क्रॉल्ड कॉर्पस (पीडीएफ) पर एक केस स्टडी साथ ही मूल 2020 शोध पत्र (पीडीएफ) जिसके लिए C4 बनाया गया था।

सार्वजनिक मंचों से डायलॉग डेटा क्या हो सकता है?

प्रशिक्षण डेटा का 50% “से आता है”सार्वजनिक मंचों से संवाद डेटा।”

इस प्रशिक्षण डेटा के बारे में Google का LaMDA शोध पत्र बस इतना ही कहता है।

यदि कोई अनुमान लगाता है, तो Reddit और StackOverflow जैसे अन्य शीर्ष समुदाय सुरक्षित दांव हैं।

Reddit का उपयोग कई महत्वपूर्ण डेटासेट जैसे कि एक में किया जाता है OpenAI द्वारा विकसित WebText2 (पीडीएफ) कहा जाता हैWebText2 का एक ओपन-सोर्स अनुमान जिसे OpenWebText2 और Google का अपना कहा जाता है वेब टेक्स्ट जैसा (पीडीएफ) 2020 से डेटासेट।

Google ने LaMDA पेपर के प्रकाशन से एक महीने पहले सार्वजनिक संवाद साइटों के अन्य डेटासेट का विवरण भी प्रकाशित किया।

सार्वजनिक संवाद साइटों वाले इस डेटासेट को मैसिववेब कहा जाता है।

हम अनुमान नहीं लगा रहे हैं कि मैसिववेब डेटासेट का उपयोग लाएमडीए को प्रशिक्षित करने के लिए किया गया था।

लेकिन इसमें एक अच्छा उदाहरण है कि Google ने संवाद पर केंद्रित एक अन्य भाषा मॉडल के लिए क्या चुना।

मैसिववेब डीपमाइंड द्वारा बनाया गया था, जिसका स्वामित्व Google के पास है।

इसे गोफर नामक एक बड़े भाषा मॉडल द्वारा उपयोग के लिए डिजाइन किया गया था (शोध पत्र के पीडीएफ का लिंक).

रेडडिट-प्रभावित डेटा की ओर पूर्वाग्रह बनाने से बचने के लिए मैसिववेब डायलॉग वेब स्रोतों का उपयोग करता है जो रेडडिट से परे जाते हैं।

यह अभी भी Reddit का उपयोग करता है। लेकिन इसमें कई अन्य साइटों से स्क्रैप किया गया डेटा भी शामिल है।

मैसिववेब में शामिल सार्वजनिक संवाद साइट हैं:

  • reddit
  • फेसबुक
  • क्वोरा
  • यूट्यूब
  • मध्यम
  • स्टैक ओवरफ़्लो

दोबारा, यह सुझाव नहीं दे रहा है कि LaMDA को उपरोक्त साइटों के साथ प्रशिक्षित किया गया था।

यह केवल यह दिखाने के लिए है कि Google क्या उपयोग कर सकता था, एक डेटासेट दिखाकर Google लगभग उसी समय LaMDA के रूप में काम कर रहा था, जिसमें फ़ोरम-प्रकार की साइटें शामिल थीं।

शेष 37.5%

डेटा स्रोतों का अंतिम समूह हैं:

  • क्यू एंड ए साइट्स, ट्यूटोरियल इत्यादि जैसी प्रोग्रामिंग से संबंधित साइटों से 12.5% ​​कोड दस्तावेज़;
  • 12.5% ​​विकिपीडिया (अंग्रेज़ी)
  • 6.25% अंग्रेजी वेब दस्तावेज़
  • 6.25% गैर-अंग्रेज़ी वेब दस्तावेज़।

Google यह निर्दिष्ट नहीं करता है कि इसमें कौन-सी साइटें हैं प्रोग्रामिंग क्यू एंड ए साइट्स श्रेणी जो LaMDA द्वारा प्रशिक्षित डेटासेट का 12.5% ​​बनाती है।

इसलिए हम केवल अनुमान लगा सकते हैं।

स्टैक ओवरफ्लो और रेडिट स्पष्ट पसंद की तरह प्रतीत होते हैं, खासकर जब से वे मैसिववेब डेटासेट में शामिल थे।

क्या “ट्यूटोरियल” साइटों को क्रॉल किया गया? हम केवल अनुमान लगा सकते हैं कि वे “ट्यूटोरियल” साइट क्या हो सकती हैं।

यह सामग्री की अंतिम तीन श्रेणियों को छोड़ देता है, जिनमें से दो अत्यधिक अस्पष्ट हैं।

अंग्रेजी भाषा के विकिपीडिया पर किसी चर्चा की आवश्यकता नहीं है, हम सभी विकिपीडिया को जानते हैं।

लेकिन निम्नलिखित दो की व्याख्या नहीं की गई है:

अंग्रेज़ी और गैर – अंग्रेजी भाषा वेब पेज डेटाबेस में शामिल 13% साइटों का सामान्य विवरण हैं।

प्रशिक्षण डेटा के इस भाग के बारे में Google द्वारा प्रदान की जाने वाली सभी जानकारी।

क्या Google को बार्ड के लिए उपयोग किए जाने वाले डेटासेट के बारे में पारदर्शी होना चाहिए?

कुछ प्रकाशक असहज महसूस करते हैं कि उनकी साइटों का उपयोग AI सिस्टम को प्रशिक्षित करने के लिए किया जाता है, क्योंकि उनकी राय में, वे सिस्टम भविष्य में उनकी वेबसाइटों को अप्रचलित और गायब कर सकते हैं।

यह सच है या नहीं यह देखा जाना बाकी है, लेकिन यह प्रकाशकों और खोज विपणन समुदाय के सदस्यों द्वारा व्यक्त की गई वास्तविक चिंता है।

LaMDA को प्रशिक्षित करने के लिए उपयोग की जाने वाली वेबसाइटों के साथ-साथ डेटा के लिए वेबसाइटों को परिमार्जन करने के लिए किस तकनीक का उपयोग किया गया था, इसके बारे में Google निराशाजनक रूप से अस्पष्ट है।

जैसा कि C4 डेटासेट के विश्लेषण में देखा गया था, बड़े भाषा मॉडल के प्रशिक्षण के लिए किस वेबसाइट सामग्री का उपयोग करना है, यह चुनने की पद्धति कुछ आबादी को छोड़कर भाषा मॉडल की गुणवत्ता को प्रभावित कर सकती है।

क्या Google को अपने एआई को प्रशिक्षित करने के लिए उपयोग की जाने वाली साइटों के बारे में अधिक पारदर्शी होना चाहिए या कम से कम उपयोग किए गए डेटा के बारे में एक आसान पारदर्शिता रिपोर्ट प्रकाशित करनी चाहिए?

शटरस्टॉक/एसीयर रोमेरो द्वारा प्रदर्शित छवि

Leave a Comment