Technology

New Open Source ChatGPT Clone – Called Dolly

ओपन सोर्स जीपीटी चैट ने डाटाब्रिक्स एंटरप्राइज सॉफ्टवेयर कंपनी द्वारा बनाए गए डॉली लार्ज लैंग्वेज मॉडल (डीएलएल) की रिलीज के साथ एक और कदम आगे बढ़ाया।

नए चैटजीपीटी क्लोन को डॉली कहा जाता है, जिसका नाम उस नाम की प्रसिद्ध भेड़ के नाम पर रखा गया है, जो क्लोन किया जाने वाला पहला स्तनपायी है।

ओपन सोर्स लार्ज लैंग्वेज मॉडल

डॉली एलएलएम बढ़ते ओपन सोर्स एआई आंदोलन की नवीनतम अभिव्यक्ति है जो प्रौद्योगिकी तक अधिक पहुंच की पेशकश करना चाहता है ताकि यह बड़े निगमों द्वारा एकाधिकार और नियंत्रित न हो।

ओपन सोर्स एआई आंदोलन को चलाने वाली चिंताओं में से एक यह है कि एआई प्रौद्योगिकी को नियंत्रित करने वाले तीसरे पक्ष को संवेदनशील डेटा सौंपने के लिए व्यवसाय अनिच्छुक हो सकते हैं।

ओपन सोर्स पर आधारित

डॉली को गैर-लाभकारी EleutherAI अनुसंधान संस्थान और स्टैनफोर्ड विश्वविद्यालय द्वारा बनाए गए एक ओपन सोर्स मॉडल से बनाया गया था अल्पाका मॉडल जो खुद 65 बिलियन पैरामीटर ओपन सोर्स से बनाया गया था नमूना मेटा द्वारा बनाया गया।

LLaMA, जो लार्ज लैंग्वेज मॉडल मेटा एआई के लिए खड़ा है, एक भाषा मॉडल है जिसे सार्वजनिक रूप से उपलब्ध डेटा पर प्रशिक्षित किया जाता है।

के एक लेख के अनुसार भार और पक्षपातLLaMA छोटे होने के बावजूद कई शीर्ष भाषा मॉडल (OpenAI GPT-3, Gopher by Deep Mind और Chinchilla by DeepMind) को मात दे सकता है।

बेहतर डेटासेट बनाना

एक और प्रेरणा एक अकादमिक शोध पत्र से मिली (सेल्फ-इंस्ट्रक्ट: एलाइनिंग लैंग्वेज मॉडल विद सेल्फ जनरेटेड इंस्ट्रक्शंस) पीडीएफ) जिसने सीमित सार्वजनिक डेटा से बेहतर उच्च गुणवत्ता वाले ऑटोजेनरेटेड प्रश्न और उत्तर प्रशिक्षण डेटा बनाने का एक तरीका बताया।

सेल्फ-इंस्ट्रक्शन रिसर्च पेपर बताते हैं:

“… हम नए कार्यों के लिए विशेषज्ञ-लिखित निर्देशों के एक सेट को क्यूरेट करते हैं, और मानव मूल्यांकन के माध्यम से दिखाते हैं कि GPT3 को SELF-INSTRUCT के साथ ट्यूनिंग करने से बड़े अंतर से मौजूदा सार्वजनिक निर्देश डेटासेट का उपयोग करके बेहतर प्रदर्शन होता है, जो InstructGPT के पीछे केवल 5% पूर्ण अंतर छोड़ता है …

… वेनिला GPT3 के लिए हमारी पद्धति को लागू करते हुए, हम InstructGPT के प्रदर्शन के साथ-साथ SUPERNATURALINSTRUCTIONS पर मूल मॉडल पर 33% पूर्ण सुधार प्रदर्शित करते हैं … जिसे निजी उपयोगकर्ता डेटा और मानव एनोटेशन के साथ प्रशिक्षित किया जाता है।

डॉली का महत्व यह है कि यह दर्शाता है कि छोटे लेकिन उच्च गुणवत्ता वाले डेटासेट के साथ एक उपयोगी बड़ा भाषा मॉडल बनाया जा सकता है।

डाटाब्रिक्स ने देखा:

“डॉली EleutherAI से एक मौजूदा ओपन सोर्स 6 बिलियन पैरामीटर मॉडल लेकर काम करती है और अल्पाका के डेटा का उपयोग करके मूल मॉडल में मौजूद ब्रेनस्टॉर्मिंग और टेक्स्ट जनरेशन जैसी क्षमताओं का पालन करने के लिए निर्देश को थोड़ा-बहुत संशोधित करती है।

…हम दिखाते हैं कि कोई भी एक दिनांकित ऑफ-द-शेल्फ ओपन सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) ले सकता है और उच्च गुणवत्ता वाले प्रशिक्षण डेटा का उपयोग करके इसे एक मशीन पर 30 मिनट में प्रशिक्षित करके जादुई चैटजीपीटी जैसा निर्देश दे सकता है।

आश्चर्यजनक रूप से, निर्देशों का पालन करने के लिए नवीनतम या सबसे बड़े मॉडल की आवश्यकता नहीं लगती है: हमारा मॉडल GPT-3 के लिए 175 बिलियन की तुलना में केवल 6 बिलियन पैरामीटर है।

डाटाब्रिक्स ओपन सोर्स एआई

कहा जाता है कि डॉली एआई का लोकतंत्रीकरण करती है। यह एक गाउनिंग आंदोलन का एक हिस्सा है जो हाल ही में Mozilla.ai की स्थापना के साथ गैर-लाभकारी मोज़िला संगठन से जुड़ा था। Mozilla Firefox ब्राउज़र और अन्य ओपन सोर्स सॉफ़्टवेयर का प्रकाशक है।

डाटाब्रिक्स द्वारा पूरी घोषणा पढ़ें:

हैलो डॉली: खुले मॉडल के साथ चैटजीपीटी के जादू का लोकतंत्रीकरण

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button
Ads Blocker Image Powered by Code Help Pro

Ads Blocker Detected!!!

We have detected that you are using extensions to block ads. Please support us by disabling these ads blocker.

Powered By
Best Wordpress Adblock Detecting Plugin | CHP Adblock