Is ChatGPT Use Of Web Content Fair?

बड़े भाषा मॉडल (एलएलएम) जैसे चैटजीपीटी वेब सामग्री सहित सूचना के अनेक स्रोतों का उपयोग करके प्रशिक्षित करें। यह डेटा उन लेखों के रूप में उस सामग्री के सारांश का आधार बनाता है जो चैटजीपीटी के प्रशिक्षण के लिए उपयोग की जाने वाली मूल सामग्री को प्रकाशित करने वालों के लिए बिना श्रेय या लाभ के उत्पादित किए जाते हैं।

वेबसाइटों के लिंक के रूप में उत्तर प्रदान करने के लिए खोज इंजन वेबसाइट सामग्री (जिसे क्रॉलिंग और इंडेक्सिंग कहा जाता है) डाउनलोड करते हैं।

वेबसाइट प्रकाशकों के पास रोबोट्स एक्सक्लूज़न प्रोटोकॉल के माध्यम से खोज इंजनों द्वारा अपनी सामग्री को क्रॉल और अनुक्रमित करने से ऑप्ट-आउट करने की क्षमता है, जिसे आमतौर पर रोबोट्स.टीएक्सटी कहा जाता है।

रोबोट एक्सक्लूज़न प्रोटोकॉल एक आधिकारिक इंटरनेट मानक नहीं है, लेकिन वैध वेब क्रॉलर इसका पालन करते हैं।

क्या बड़े भाषा मॉडल को अपनी वेबसाइट सामग्री का उपयोग करने से रोकने के लिए वेब प्रकाशकों को Robots.txt प्रोटोकॉल का उपयोग करने में सक्षम होना चाहिए?

बड़े भाषा मॉडल बिना किसी श्रेय के वेबसाइट सामग्री का उपयोग करते हैं

खोज विपणन से जुड़े कुछ लोग इस बात से असहज हैं कि पावती या ट्रैफ़िक की तरह बिना कुछ वापस दिए मशीनों को प्रशिक्षित करने के लिए वेबसाइट डेटा का उपयोग कैसे किया जाता है।

हंस पेटर ब्लाइंडहेम (लिंक्डइन प्रोफ़ाइल), कुरामांडो के वरिष्ठ विशेषज्ञ ने मेरे साथ अपनी राय साझा की।

हंस पेटर ने टिप्पणी की:

“जब कोई लेखक आपकी साइट पर किसी लेख से कुछ सीखने के बाद कुछ लिखता है, तो वे अक्सर आपके मूल काम से लिंक नहीं करेंगे क्योंकि यह विश्वसनीयता और पेशेवर शिष्टाचार प्रदान करता है।

इसे उद्धरण कहते हैं।

लेकिन जिस पैमाने पर ChatGPT सामग्री को आत्मसात करता है और कुछ भी वापस नहीं देता है, वह इसे Google और लोगों दोनों से अलग करता है।

एक वेबसाइट आम तौर पर एक व्यावसायिक निर्देश को ध्यान में रखकर बनाई जाती है।

Google लोगों को सामग्री खोजने में मदद करता है, ट्रैफ़िक प्रदान करता है, जिससे इसका पारस्परिक लाभ होता है।

लेकिन ऐसा नहीं है कि बड़े भाषा मॉडल ने आपकी सामग्री का उपयोग करने के लिए आपकी अनुमति मांगी, वे आपकी सामग्री प्रकाशित होने पर अपेक्षा की तुलना में व्यापक अर्थ में इसका उपयोग करते हैं।

और अगर एआई भाषा मॉडल बदले में मूल्य प्रदान नहीं करते हैं – प्रकाशकों को उन्हें सामग्री को क्रॉल करने और उपयोग करने की अनुमति क्यों देनी चाहिए?

क्या आपकी सामग्री का उनका उपयोग उचित उपयोग के मानकों को पूरा करता है?

जब ChatGPT और Google के अपने ML/AI मॉडल आपकी अनुमति के बिना आपकी सामग्री पर प्रशिक्षण देते हैं, वहां जो सीखते हैं उसे स्पिन करते हैं और लोगों को आपकी वेबसाइटों से दूर रखते हुए उसका उपयोग करते हैं – क्या उद्योग और कानून निर्माताओं को मजबूर करके इंटरनेट पर नियंत्रण वापस लेने का प्रयास नहीं करना चाहिए उन्हें “ऑप्ट-इन” मॉडल में बदलने के लिए?”

हंस पेट्टर द्वारा व्यक्त की गई चिंताएँ उचित हैं।

तकनीक कितनी तेजी से विकसित हो रही है, इसे देखते हुए क्या उचित उपयोग से संबंधित कानूनों पर पुनर्विचार और अद्यतन किया जाना चाहिए?

मैंने जॉन रिजवी से पूछा, एक पंजीकृत पेटेंट अटार्नी (लिंक्डइन प्रोफ़ाइल) जो बौद्धिक संपदा कानून में प्रमाणित बोर्ड है, अगर इंटरनेट कॉपीराइट कानून पुराने हैं.

जॉन ने उत्तर दिया:

“हाँ, बिना किसी शक के।

इस तरह के मामलों में विवाद का एक प्रमुख कारण यह तथ्य है कि कानून अनिवार्य रूप से तकनीक की तुलना में कहीं अधिक धीमी गति से विकसित होता है।

1800 के दशक में, यह शायद इतना अधिक मायने नहीं रखता था क्योंकि प्रगति अपेक्षाकृत धीमी थी और इसलिए कानूनी मशीनरी कमोबेश मेल खाने के लिए तैयार थी।

आज, हालांकि, तेजी से तकनीकी प्रगति ने कानून की क्षमता को बनाए रखने की क्षमता को बहुत दूर कर दिया है।

कानून को बनाए रखने के लिए बस बहुत अधिक अग्रिम और बहुत सारे गतिशील भाग हैं।

जैसा कि यह वर्तमान में गठित और प्रशासित है, बड़े पैमाने पर उन लोगों द्वारा जो प्रौद्योगिकी के क्षेत्रों में शायद ही विशेषज्ञ हैं जिनकी हम यहां चर्चा कर रहे हैं, कानून तकनीक के साथ तालमेल रखने के लिए खराब रूप से सुसज्जित या संरचित है … और हमें विचार करना चाहिए कि यह पूरी तरह से नहीं है बुरी चीज़।

तो, एक मामले में, हां, बौद्धिक संपदा कानून को विकसित करने की जरूरत है, भले ही यह तकनीकी विकास के साथ कदम से कदम मिलाकर चलने की उम्मीद ही क्यों न रखता हो।

प्राथमिक समस्या उन तरीकों के बीच एक संतुलन बना रही है, जिनमें तकनीक के विभिन्न रूपों का उपयोग किया जा सकता है, जबकि परोपकारी इरादों में छिपे हुए राजनीतिक लाभ के लिए ज़बरदस्त अतिरेक या एकमुश्त सेंसरशिप से पीछे हटना पड़ता है।

कानून को इस बात का भी ध्यान रखना होगा कि तकनीक के संभावित उपयोगों के खिलाफ इतने व्यापक रूप से कानून न बनाया जाए कि उनसे प्राप्त होने वाले किसी भी संभावित लाभ का गला घोंट दिया जाए।

आप आसानी से पहले संशोधन और किसी भी संख्या में निपटाए गए मामलों से भाग सकते हैं जो कि कैसे, क्यों और किस हद तक बौद्धिक संपदा का उपयोग और किसके द्वारा किया जा सकता है।

और इसे व्यवहार्य या संभव बनाने के लिए ढांचे के अस्तित्व में आने से पहले वर्षों या दशकों तक प्रौद्योगिकी के हर कल्पनीय उपयोग की कल्पना करने का प्रयास करना एक अत्यधिक खतरनाक मूर्खतापूर्ण कार्य होगा।

इस तरह की स्थितियों में, कानून वास्तव में मदद नहीं कर सकता है, लेकिन तकनीक का उपयोग कैसे किया जाता है, इसके प्रति प्रतिक्रियात्मक हो … जरूरी नहीं कि यह कैसे इरादा था।

यह जल्द ही कभी भी बदलने की संभावना नहीं है, जब तक कि हम एक बड़े पैमाने पर और अप्रत्याशित तकनीकी पठार पर नहीं पहुंच जाते हैं, जो कानून को वर्तमान घटनाओं को पकड़ने की अनुमति देता है।

तो ऐसा प्रतीत होता है कि जब एआई को प्रशिक्षित करने की बात आती है तो कॉपीराइट कानूनों के मुद्दे पर संतुलन के लिए कई विचार हैं, इसका कोई सरल उत्तर नहीं है।

OpenAI और Microsoft मुकदमा

एक दिलचस्प मामला जो हाल ही में दायर किया गया था, वह है जिसमें OpenAI और Microsoft ने अपने CoPilot उत्पाद बनाने के लिए ओपन सोर्स कोड का इस्तेमाल किया।

ओपन सोर्स कोड का उपयोग करने में समस्या यह है कि क्रिएटिव कॉमन्स लाइसेंस के लिए एट्रिब्यूशन की आवश्यकता होती है।

ए के अनुसार लेख प्रकाशित एक विद्वान पत्रिका में:

“वादी का आरोप है कि ओपनएआई और गिटहब ने सार्वजनिक रूप से सुलभ कोड का उपयोग करके जनरेटिव कोड बनाने के लिए कोपिलॉट नामक एक वाणिज्यिक उत्पाद को इकट्ठा और वितरित किया, जो मूल रूप से विभिन्न” ओपन सोर्स “-स्टाइल लाइसेंस के तहत उपलब्ध कराया गया था, जिनमें से कई में एट्रिब्यूशन आवश्यकता शामिल है।

जैसा कि गिटहब कहता है, ‘…[t]कोड की अरबों लाइनों पर बारिश हुई, GitHub Copilot प्राकृतिक भाषा संकेतों को दर्जनों भाषाओं में कोडिंग सुझावों में बदल देती है।’

परिणामी उत्पाद ने मूल रचनाकारों को कथित रूप से कोई श्रेय नहीं दिया।

उस लेख के लेखक, जो कॉपीराइट के विषय पर एक कानूनी विशेषज्ञ हैं, ने लिखा है कि कई ओपन सोर्स क्रिएटिव कॉमन्स लाइसेंस को “फ्री-फॉर-ऑल” के रूप में देखते हैं।

कुछ लोग वाक्यांश पर भी विचार कर सकते हैं सभी के लिए नि: शुल्क इंटरनेट सामग्री से युक्त डेटासेट का एक उचित विवरण स्क्रैप किया जाता है और चैटजीपीटी जैसे एआई उत्पादों को उत्पन्न करने के लिए उपयोग किया जाता है।

एलएलएम और डेटासेट पर पृष्ठभूमि

बड़े भाषा मॉडल सामग्री के एकाधिक डेटा सेट पर प्रशिक्षित होते हैं। डेटासेट में ईमेल, किताबें, सरकारी डेटा, विकिपीडिया लेख और यहां तक ​​कि Reddit पर पोस्ट से लिंक की गई वेबसाइटों से बने डेटासेट भी शामिल हो सकते हैं, जिनमें कम से कम तीन अपवोट हैं।

इंटरनेट की सामग्री से संबंधित कई डेटासेट की उत्पत्ति एक गैर-लाभकारी संगठन द्वारा बनाए गए क्रॉल में होती है सामान्य क्रॉल.

उनका डेटासेट, सामान्य क्रॉल डेटासेट, डाउनलोड और उपयोग के लिए निःशुल्क उपलब्ध है।

कॉमन क्रॉल डेटासेट इससे बनाए गए कई अन्य डेटासेट के लिए शुरुआती बिंदु है।

उदाहरण के लिए, GPT-3 ने सामान्य क्रॉल (लैंग्वेज मॉडल फ्यू-शॉट लर्नर्स हैं पीडीएफ).

इस प्रकार GPT-3 शोधकर्ताओं ने कॉमन क्रॉल डेटासेट में निहित वेबसाइट डेटा का उपयोग किया:

“भाषा मॉडल के लिए डेटासेट तेजी से विस्तारित हुए हैं, कॉमन क्रॉल डेटासेट में समापन … लगभग एक ट्रिलियन शब्दों का गठन।

डेटासेट का यह आकार हमारे सबसे बड़े मॉडल को एक ही क्रम में दो बार अपडेट किए बिना प्रशिक्षित करने के लिए पर्याप्त है।

हालांकि, हमने पाया है कि सामान्य क्रॉल के अनफ़िल्टर्ड या हल्के फ़िल्टर किए गए संस्करणों की गुणवत्ता अधिक क्यूरेट किए गए डेटासेट की तुलना में कम होती है।

इसलिए, हमने अपने डेटासेट की औसत गुणवत्ता में सुधार के लिए 3 कदम उठाए:

(1) हमने उच्च गुणवत्ता वाले संदर्भ कॉर्पोरा की श्रेणी के समानता के आधार पर कॉमनक्रॉल के एक संस्करण को डाउनलोड और फ़िल्टर किया,

(2) हमने अतिरेक को रोकने और ओवरफिटिंग के सटीक माप के रूप में हमारे आयोजित-आउट सत्यापन सेट की अखंडता को संरक्षित करने के लिए, डेटासेट के भीतर और उसके पार दस्तावेज़ स्तर पर फ़ज़ी डिडुप्लीकेशन का प्रदर्शन किया, और

(3) हमने कॉमनक्रॉल को बढ़ाने और इसकी विविधता को बढ़ाने के लिए प्रशिक्षण मिश्रण में ज्ञात उच्च-गुणवत्ता वाले संदर्भ कॉर्पोरा को भी जोड़ा।

Google का C4 डेटासेट (Colossal, Cleaned Crawl Corpus), जिसका उपयोग टेक्स्ट-टू-टेक्स्ट ट्रांसफर ट्रांसफ़ॉर्मर (T5) बनाने के लिए किया गया था, इसकी जड़ें कॉमन क्रॉल डेटासेट में भी हैं।

उनके शोध पत्र (यूनिफाइड टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर के साथ ट्रांसफर लर्निंग की सीमाओं की खोज पीडीएफ) बताते हैं:

“हमारे बड़े पैमाने पर अनुभवजन्य अध्ययन से परिणाम प्रस्तुत करने से पहले, हम अपने परिणामों को समझने के लिए आवश्यक आवश्यक पृष्ठभूमि विषयों की समीक्षा करते हैं, जिसमें ट्रांसफॉर्मर मॉडल आर्किटेक्चर और डाउनस्ट्रीम कार्यों का हम मूल्यांकन करते हैं।

हम प्रत्येक समस्या को टेक्स्ट-टू-टेक्स्ट कार्य के रूप में मानने के लिए अपना दृष्टिकोण भी पेश करते हैं और हमारे “विशाल स्वच्छ क्रॉल किए गए कॉर्पस” (C4) का वर्णन करते हैं, जो सामान्य क्रॉल-आधारित डेटा सेट है जिसे हमने बिना लेबल वाले टेक्स्ट डेटा के स्रोत के रूप में बनाया है।

हम अपने मॉडल और ढांचे को ‘टेक्स्ट-टू-टेक्स्ट ट्रांसफर ट्रांसफॉर्मर’ (टी5) कहते हैं।”

गूगल उनके एआई ब्लॉग पर एक लेख प्रकाशित किया यह आगे बताता है कि कैसे सामान्य क्रॉल डेटा (जिसमें इंटरनेट से स्क्रैप की गई सामग्री शामिल है) का उपयोग C4 बनाने के लिए किया गया था।

उन्होंने लिखा:

“ट्रांसफर लर्निंग के लिए एक महत्वपूर्ण घटक पूर्व-प्रशिक्षण के लिए उपयोग किया जाने वाला गैर-लेबल डेटासेट है।

पूर्व-प्रशिक्षण की मात्रा को बढ़ाने के प्रभाव को सटीक रूप से मापने के लिए, एक ऐसे डेटासेट की आवश्यकता होती है जो न केवल उच्च गुणवत्ता और विविध हो, बल्कि बड़े पैमाने पर भी हो।

मौजूदा पूर्व-प्रशिक्षण डेटासेट इन तीनों मानदंडों को पूरा नहीं करते हैं – उदाहरण के लिए, विकिपीडिया से पाठ उच्च गुणवत्ता वाला है, लेकिन शैली में समान है और हमारे उद्देश्यों के लिए अपेक्षाकृत छोटा है, जबकि कॉमन क्रॉल वेब स्क्रैप विशाल और अत्यधिक विविध हैं, लेकिन निष्पक्ष रूप से खराब क्वालिटी।

इन आवश्यकताओं को पूरा करने के लिए, हमने Colossal Clean Crawled Corpus (C4) विकसित किया है, जो कॉमन क्रॉल का एक साफ़ किया गया संस्करण है, जो विकिपीडिया से दो गुना बड़ा है।

हमारी सफ़ाई प्रक्रिया में डीडुप्लीकेशन, अधूरे वाक्यों को हटाना और आपत्तिजनक या शोर करने वाली सामग्री को हटाना शामिल है।

इस फ़िल्टरिंग से डाउनस्ट्रीम कार्यों पर बेहतर परिणाम मिले, जबकि अतिरिक्त आकार ने पूर्व-प्रशिक्षण के दौरान बिना ओवरफिटिंग के मॉडल के आकार को बढ़ाने की अनुमति दी।

Google, OpenAI, यहां तक ​​कि Oracle का ओपन डेटा डेटासेट बनाने के लिए इंटरनेट सामग्री, आपकी सामग्री का उपयोग कर रहे हैं जिनका उपयोग चैटजीपीटी जैसे एआई अनुप्रयोगों को बनाने के लिए किया जाता है।

कॉमन क्रॉल को ब्लॉक किया जा सकता है

कॉमन क्रॉल को ब्लॉक करना और बाद में कॉमन क्रॉल पर आधारित सभी डेटासेट से ऑप्ट-आउट करना संभव है।

लेकिन अगर साइट को पहले ही क्रॉल किया जा चुका है तो वेबसाइट डेटा पहले से ही डेटासेट में है। कॉमन क्रॉल डेटासेट और C4 और ओपन डेटा जैसे किसी भी अन्य डेरिवेटिव डेटासेट से आपकी सामग्री को हटाने का कोई तरीका नहीं है।

Robots.txt प्रोटोकॉल का उपयोग केवल सामान्य क्रॉल द्वारा भविष्य के क्रॉल को ब्लॉक करेगा, यह शोधकर्ताओं को डेटासेट में पहले से मौजूद सामग्री का उपयोग करने से नहीं रोकेगा।

अपने डेटा से कॉमन क्रॉल को कैसे ब्लॉक करें

ऊपर चर्चा की गई सीमाओं के भीतर, आम क्रॉल को ब्लॉक करना रोबोट्स.टीएक्सटी प्रोटोकॉल के उपयोग के माध्यम से संभव है।

कॉमन क्रॉल बॉट को CCBot कहा जाता है।

यह सबसे अद्यतित CCBot उपयोगकर्ता-एजेंट स्ट्रिंग का उपयोग करके पहचाना जाता है: CCBot/2.0

CCBot को Robots.txt के साथ ब्लॉक करना किसी भी अन्य बॉट की तरह ही पूरा किया जाता है।

यहां CCBot को Robots.txt के साथ ब्लॉक करने के लिए कोड दिया गया है।

User-agent: CCBot
Disallow: /

CCBot Amazon AWS IP पतों से क्रॉल करता है।

CCBot nofollow रोबोट्स मेटा टैग का भी अनुसरण करता है:

<meta name="robots" content="nofollow">

क्या होगा यदि आप सामान्य क्रॉल को अवरुद्ध नहीं कर रहे हैं?

वेब सामग्री को बिना अनुमति के डाउनलोड किया जा सकता है, जिस तरह ब्राउज़र काम करते हैं, वे सामग्री डाउनलोड करते हैं।

Google या किसी और को सार्वजनिक रूप से प्रकाशित सामग्री को डाउनलोड करने और उपयोग करने की अनुमति की आवश्यकता नहीं है।

वेबसाइट प्रकाशकों के पास सीमित विकल्प हैं

वेब सामग्री पर एआई को प्रशिक्षित करना नैतिक है या नहीं, इस पर विचार करना एआई तकनीक के विकास की नैतिकता के बारे में किसी भी बातचीत का हिस्सा नहीं लगता है।

ऐसा लगता है कि इंटरनेट सामग्री को डाउनलोड, सारांशित और चैटजीपीटी नामक उत्पाद में परिवर्तित किया जा सकता है।

क्या यह उचित लगता है? उत्तर जटिल है।

शटरस्टॉक/Krakenimages.com द्वारा प्रदर्शित छवि

Leave a Comment