How to Block ChatGPT From Using Your Website Content

बड़ी भाषा मॉडल (एलएलएम) को प्रशिक्षित करने के लिए किसी की सामग्री का उपयोग करने से ऑप्ट आउट करने के आसान तरीके की कमी के बारे में चिंता है चैटजीपीटी. इसे करने का एक तरीका है, लेकिन यह न तो सीधा है और न ही काम करने की गारंटी है।

एआई आपकी सामग्री से कैसे सीखते हैं

बड़े भाषा मॉडल (एलएलएम) डेटा पर प्रशिक्षित होते हैं जो कई स्रोतों से उत्पन्न होते हैं। इनमें से कई डेटासेट ओपन सोर्स हैं और एआई के प्रशिक्षण के लिए स्वतंत्र रूप से उपयोग किए जाते हैं।

उपयोग किए गए कुछ स्रोत हैं:

  • विकिपीडिया
  • सरकारी अदालत के रिकॉर्ड
  • पुस्तकें
  • ईमेल
  • क्रॉल की गई वेबसाइटें

वास्तव में डेटासेट प्रदान करने वाले पोर्टल और वेबसाइट हैं जो बड़ी मात्रा में जानकारी दे रहे हैं।

इनमें से एक पोर्टल Amazon द्वारा होस्ट किया गया है, जो हजारों डेटासेट की पेशकश करता है AWS पर ओपन डेटा की रजिस्ट्री.

अमेज़ॅन से स्क्रीनशॉट, जनवरी 2023

हजारों डेटासेट वाला अमेज़ॅन पोर्टल कई अन्य पोर्टलों में से सिर्फ एक पोर्टल है जिसमें अधिक डेटासेट हैं।

विकिपीडिया में 28 पोर्टलों की सूची है हजारों डेटासेट खोजने के लिए Google डेटासेट और हगिंग फेस पोर्टल सहित डेटासेट डाउनलोड करने के लिए।

वेब सामग्री के डेटासेट

ओपनवेबटेक्स्ट

वेब सामग्री के एक लोकप्रिय डेटासेट को OpenWebText कहा जाता है। OpenWebText में रेडिट पोस्ट पर पाए गए URL होते हैं जिनमें कम से कम तीन अपवोट होते हैं।

विचार यह है कि ये URL भरोसेमंद हैं और इनमें गुणवत्तापूर्ण सामग्री होगी। मुझे उनके क्रॉलर के लिए उपयोगकर्ता एजेंट के बारे में जानकारी नहीं मिली, शायद यह सिर्फ पायथन के रूप में पहचाना गया है, मुझे यकीन नहीं है।

फिर भी, हम जानते हैं कि यदि आपकी साइट कम से कम तीन अपवोट के साथ Reddit से लिंक है तो इस बात की अच्छी संभावना है कि आपकी साइट OpenWebText डेटासेट में है।

के बारे में अधिक जानकारी ओपनवेबटेक्स्ट यहां है.

सामान्य क्रॉल

इंटरनेट सामग्री के लिए सबसे अधिक उपयोग किए जाने वाले डेटासेट में से एक गैर-लाभकारी संगठन द्वारा पेश किया जाता है सामान्य क्रॉल.

सामान्य क्रॉल डेटा एक बॉट से आता है जो पूरे इंटरनेट को क्रॉल करता है।

डेटा का उपयोग करने के इच्छुक संगठनों द्वारा डेटा डाउनलोड किया जाता है और फिर स्पैम वाली साइटों आदि को साफ किया जाता है।

कॉमन क्रॉल बॉट का नाम सीसीबॉट है।

CCBot robots.txt प्रोटोकॉल का पालन करता है इसलिए आम क्रॉल को robots.txt के साथ ब्लॉक करना संभव है और आपके वेबसाइट डेटा को इसे किसी अन्य डेटासेट में बनाने से रोकता है।

हालांकि, यदि आपकी साइट को पहले ही क्रॉल किया जा चुका है तो संभव है कि यह पहले से ही अनेक डेटासेट में शामिल हो चुकी है।

फिर भी, कॉमन क्रॉल को ब्लॉक करके आपकी वेबसाइट की सामग्री को नए कॉमन क्रॉल डेटा से प्राप्त नए डेटासेट में शामिल होने से रोकना संभव है।

CCBot उपयोगकर्ता-एजेंट स्ट्रिंग है:

CCBot/2.0

कॉमन क्रॉल बॉट को ब्लॉक करने के लिए अपनी robots.txt फ़ाइल में निम्नलिखित जोड़ें:

User-agent: CCBot
Disallow: /

CCBot उपयोगकर्ता एजेंट के वैध होने की पुष्टि करने का एक अतिरिक्त तरीका यह है कि यह Amazon AWS IP पतों से क्रॉल करता है।

CCBot nofollow robots मेटा टैग निर्देशों का भी पालन करता है।

इसे अपने रोबोट मेटा टैग में उपयोग करें:

<meta name="robots" content="nofollow">

अपनी सामग्री का उपयोग करने से AI को ब्लॉक करना

सर्च इंजन वेबसाइटों को क्रॉल होने से ऑप्ट आउट करने की अनुमति देते हैं। कॉमन क्रॉल भी ऑप्ट आउट करने की अनुमति देता है। लेकिन फ़िलहाल मौजूदा डेटासेट से किसी की वेबसाइट की सामग्री को हटाने का कोई तरीका नहीं है।

इसके अलावा, अनुसंधान वैज्ञानिक वेबसाइट प्रकाशकों को क्रॉल किए जाने से ऑप्ट आउट करने का कोई तरीका प्रदान नहीं करते हैं।

लेख, क्या वेब सामग्री का चैटजीपीटी उपयोग उचित है? इस विषय की पड़ताल करता है कि क्या बिना अनुमति के वेबसाइट डेटा का उपयोग करना नैतिक है या ऑप्ट आउट करने का एक तरीका है।

कई प्रकाशक इसकी सराहना कर सकते हैं यदि निकट भविष्य में, उन्हें अपनी सामग्री का उपयोग करने के तरीके पर अधिक बोलने दिया जाए, विशेष रूप से चैटजीपीटी जैसे एआई उत्पादों द्वारा।

क्या ऐसा होगा इस समय अज्ञात है।

और अधिक संसाधनों:

शटरस्टॉक/वीडीआई स्टूडियो द्वारा फीचर्ड छवि

Leave a Comment