डाटाब्रिक्स ने डॉली 2.0 नामक पहला ओपन सोर्स इंस्ट्रक्शन-ट्यून लैंग्वेज मॉडल जारी करने की घोषणा की। इसे InstructGPT के समान कार्यप्रणाली का उपयोग करके प्रशिक्षित किया गया था, लेकिन दावा किया गया उच्च गुणवत्ता वाला डेटासेट जो 100% खुला स्रोत है।
यह मॉडल व्यावसायिक उद्देश्यों सहित उपयोग करने के लिए स्वतंत्र है, क्योंकि मॉडल का प्रत्येक भाग 100% खुला स्रोत है।
ओपन सोर्स इंस्ट्रक्शन ट्रेनिंग
चैटजीपीटी को निर्देशों का पालन करने में सक्षम बनाता है वह प्रशिक्षण है जो इसमें उल्लिखित तकनीकों का उपयोग करके प्राप्त करता है निर्देश जीपीटी शोध पत्र.
InstructGPT के साथ खोजी गई सफलता यह है कि भाषा मॉडल को बड़े और बड़े प्रशिक्षण सेटों की आवश्यकता नहीं होती है।
मानव मूल्यांकित प्रश्न और उत्तर प्रशिक्षण का उपयोग करके, OpenAI पिछले मॉडल, GPT-3 की तुलना में सौ गुना कम मापदंडों का उपयोग करके एक बेहतर भाषा मॉडल को प्रशिक्षित करने में सक्षम था।
डेटाब्रिक्स ने कॉल नामक शीघ्र और प्रतिक्रिया डेटासेट बनाने के लिए एक समान दृष्टिकोण का उपयोग किया डेटाब्रिक्स-डॉली-15k.
उनका त्वरित/प्रतिक्रिया डेटासेट वेब फ़ोरम या रेडिट को स्क्रैप किए बिना बनाया गया था।
databricks-dolly-15k, Databricks के कर्मचारियों द्वारा बनाया गया एक डेटासेट है, जो 100% मूल, मानव जनित 15,000 प्रांप्ट और प्रतिक्रिया जोड़े को डॉली 2.0 भाषा मॉडल को उसी तरह से प्रशिक्षित करने के लिए डिज़ाइन किया गया है जिस तरह से ChatGPT मॉडल InstructGPT के साथ बनाया गया था।
डेटासेट के लिए गिटहब पेज बताते हैं कि उन्होंने यह कैसे किया:
“डेटाब्रिक्स-डॉली-15के प्रशिक्षण डेटाब्रिक्स/डॉली-वी2-12बी में उपयोग किए जाने वाले निर्देश-निम्नलिखित रिकॉर्ड का एक ओपन सोर्स डेटासेट है, जो बुद्धिशीलता, वर्गीकरण सहित निर्देशजीपीटी पेपर में उल्लिखित कई व्यवहार श्रेणियों में हजारों डेटाब्रिक्स कर्मचारियों द्वारा उत्पन्न किया गया था। , बंद क्यूए, पीढ़ी, सूचना निष्कर्षण, खुला क्यूए और सारांश।
…डाटाब्रिक्स के कर्मचारियों को आठ अलग-अलग निर्देश श्रेणियों में से प्रत्येक में शीघ्र / प्रतिक्रिया जोड़े बनाने के लिए आमंत्रित किया गया था, जिसमें इंस्ट्रक्शनजीपीटी पेपर में उल्लिखित सात, साथ ही एक ओपन-एंड फ्री-फॉर्म श्रेणी भी शामिल है।
योगदानकर्ताओं को विकिपीडिया (निर्देश श्रेणियों के विशेष उपसमुच्चय के लिए) के अपवाद के साथ वेब पर किसी भी स्रोत से जानकारी का उपयोग करने से बचने का निर्देश दिया गया था, और निर्देश या प्रतिक्रिया तैयार करने में जनरेटिव एआई का उपयोग करने से बचने के लिए स्पष्ट रूप से निर्देश दिया गया था। प्रत्येक श्रेणी के लिए उपयुक्त प्रकार के प्रश्नों और निर्देशों को प्रेरित करने के लिए प्रत्येक व्यवहार के उदाहरण प्रदान किए गए।
डेटा निर्माण प्रक्रिया के आधे रास्ते में, योगदानकर्ताओं को अन्य योगदानकर्ताओं द्वारा पूछे गए सवालों के जवाब देने का विकल्प दिया गया। उन्हें मूल प्रश्न को फिर से लिखने के लिए कहा गया था और केवल उन प्रश्नों का चयन करने के लिए कहा गया था जिनके सही उत्तर देने की उम्मीद की जा सकती थी।
डाटाब्रिक्स का दावा है कि चैटजीपीटी की तरह निर्देशों का पालन करने के लिए भाषा मॉडल को प्रशिक्षित करने के लिए बनाया गया यह पहला मानव जनित निर्देश डेटासेट हो सकता है।
चुनौती एक 100% मूल डेटासेट बनाने की थी जिसका चैटजीपीटी या प्रतिबंधात्मक लाइसेंस वाले किसी अन्य स्रोत से कोई संबंध नहीं था।
बुद्धिशीलता, वर्गीकरण और रचनात्मक लेखन जैसे कार्यों की सात श्रेणियों के साथ 15,000 शीघ्र/प्रतिक्रियाओं को उत्पन्न करने में योगदान करने के लिए कर्मचारियों को एक प्रतियोगिता द्वारा प्रोत्साहित किया गया था।
डेटाब्रिक्स का दावा है कि डेटाब्रिक्स-डॉली-15k प्रशिक्षण सेट चैटजीपीटी को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटासेट से बेहतर हो सकता है।
वे ध्यान देते हैं कि यद्यपि उनका डेटासेट स्टैनफोर्ड अल्पाका मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले डेटासेट से छोटा है, उनके मॉडल ने बेहतर प्रदर्शन किया क्योंकि उनका डेटा उच्च गुणवत्ता वाला है।
वे लिखते हैं:
EleutherAI के पाइथिया-12बी पर आधारित डॉली 2.0 मॉडल ने व्यवहार के बाद उच्च गुणवत्ता वाले निर्देशों का प्रदर्शन किया। बाद में, यह आश्चर्यजनक नहीं है।
हाल के महीनों में जारी किए गए कई निर्देश ट्यूनिंग डेटासेट में संश्लेषित डेटा होता है, जिसमें अक्सर मतिभ्रम और तथ्यात्मक त्रुटियां होती हैं।
दूसरी ओर डेटाब्रिक्स-डॉली-15k, पेशेवरों द्वारा तैयार किया गया है, उच्च गुणवत्ता वाला है, और इसमें अधिकांश कार्यों के लिए लंबे उत्तर हैं।
… हमें प्रभावशीलता के मामले में डॉली के अत्याधुनिक होने की उम्मीद नहीं है।
हालाँकि, हम उम्मीद करते हैं कि डॉली और ओपन सोर्स डेटासेट कई फॉलो-ऑन कार्यों के लिए बीज के रूप में कार्य करेंगे, जो और भी अधिक शक्तिशाली भाषा मॉडल को बूटस्ट्रैप करने का काम कर सकते हैं।
डेटासेट की सीमाएं
डेटासेट के लिए GitHub पेज स्वीकार करता है कि डेटासेट में कुछ कमियां हो सकती हैं।
विकिपीडिया डेटा का उपयोग कुछ प्रशिक्षण के लिए संकेतों और प्रतिक्रियाओं को बनाने के संदर्भ में किया गया था। इस प्रकार, यह संभव है कि विकिपीडिया में निहित पूर्वाग्रह परिणामी डेटासेट के भीतर परिलक्षित हो सकते हैं।
डेटासेट बनाने के लिए काम करने वाले कुछ कर्मचारी अंग्रेजी के मूल भाषी नहीं थे, जो डेटासेट में कुछ विसंगतियों को पेश कर सकता है।
डेटासेट बनाने वाले कर्मचारियों का जनसांख्यिकीय मेकअप स्वयं डेटासेट को प्रभावित कर सकता है जिसमें उन कर्मचारियों के लिए विशिष्ट पूर्वाग्रह शामिल हैं।
डेटासेट में उन संभावित कमियों के बावजूद, डेटाब्रिक्स ने व्यक्त किया कि उनकी उच्च गुणवत्ता है।
इसके अतिरिक्त, डॉली 2.0 दूसरों के लिए बेहतर संस्करण बनाने और नया करने के लिए एक शुरुआती बिंदु के रूप में सेवा करने के लिए है।
डेटाब्रिक्स का कहना है कि ओपन सोर्स एआई बेहतर है
डॉली 2.0 बनाने के पीछे एक प्रेरणा यह है कि डेटा के उपयोगकर्ता अपने द्वारा बनाए गए मॉडल के मालिक हो सकते हैं और अपने डेटा को किसी तीसरे पक्ष के साथ साझा न करके बेहतर तरीके से सुरक्षित रख सकते हैं।
उनका यह भी मानना है कि एआई सुरक्षा को तीन बड़े निगमों के हाथों में केंद्रित नहीं किया जाना चाहिए बल्कि सभी हितधारकों के बीच फैलाया जाना चाहिए।
खुला स्रोत गति पकड़ रहा है और यह देखना दिलचस्प होगा कि यह उद्योग अगले दो वर्षों में कहां है।
डॉली 2.0 मॉडल को कहां से डाउनलोड करना है और इसका उपयोग कैसे करना है, इस बारे में अधिक जानकारी उनकी घोषणा में मिल सकती है।
फ्री डॉली: पेश है दुनिया का पहला ट्रूली ओपन इंस्ट्रक्शन-ट्यून एलएलएम
शटरस्टॉक/कामिल मैकनियाक द्वारा प्रदर्शित छवि