गूगल और चैटजीपीटी निर्माता ओपनएआई जैसी तकनीकी कंपनियाँ चैटबॉट द्वारा प्रदान किए जाने वाले आउटपुट को बढ़ाने के लिए नवाचार को आगे बढ़ा रही हैं। एआई, मशीन लर्निंग और उन्नत डेटा एनालिटिक्स की शक्ति का उपयोग करके, वे प्रतिक्रियाओं को बेहतर बनाने के लिए भाषा मॉडल को अनुकूलित कर रहे हैं। ऐसे ही एक मामले में, ओपनएआई ने एक सफलता की सूचना दी है जिसमें कंपनी ने मजबूत भाषा मॉडल को ऐसा टेक्स्ट तैयार करने के लिए प्रशिक्षित किया है जिसे कमजोर भाषा मॉडल के लिए सत्यापित करना आसान है। माइक्रोसॉफ्ट समर्थित कंपनी ने पाया कि इस प्रशिक्षण ने मनुष्यों के लिए टेक्स्ट का मूल्यांकन करना भी आसान बना दिया।
ओपनएआई ने इस सप्ताह एक ब्लॉग में कहा, “यह सुनिश्चित करना कि भाषा मॉडल समझने योग्य पाठ तैयार करें, उन्हें लोगों के लिए उपयोगी बनाने के लिए महत्वपूर्ण है, खासकर जब गणित की समस्याओं को हल करने जैसे जटिल कार्यों से निपटना हो।”
कंपनी ने कहा कि उसने पाया कि उसके एआई मॉडल तथ्यात्मक रूप से सही उत्तर देने के बावजूद, उन्हें समझना कठिन था।
“जब हमने सीमित समय वाले मानव मूल्यांकनकर्ताओं से इन अत्यधिक अनुकूलित समाधानों का मूल्यांकन करने के लिए कहा, तो उन्होंने कम अनुकूलित समाधानों का मूल्यांकन करने की तुलना में लगभग दोगुनी गलतियाँ कीं। यह खोज न केवल शुद्धता के महत्व को उजागर करती है, बल्कि एआई-जनरेटेड टेक्स्ट में स्पष्टता और सत्यापन में आसानी को भी दर्शाती है,” यह जोड़ा।
ओपनएआई ने इस समस्या का समाधान कैसे खोजा
ओपनएआई ने उन्नत भाषा मॉडल को ऐसे पाठ बनाने के लिए प्रशिक्षित किया जिसे कमज़ोर मॉडल आसानी से सत्यापित कर सकते हैं, जिसका मानव भी अधिक प्रभावी ढंग से मूल्यांकन कर सकता है – एक प्रक्रिया जिसे पठनीयता में सुधार कहा जाता है। कंपनी ने एक ‘प्रूवर-सत्यापनकर्ता खेल’ तैनात किया जिसमें दो खिलाड़ी थे: एक “प्रूवर” जो समाधान उत्पन्न करता है और एक “सत्यापनकर्ता” जो सटीकता के लिए इसकी जाँच करता है।
“सुबोधता में सुधार करने के लिए, हम ग्रेड-स्कूल गणित की समस्याओं पर विचारों की श्रृंखला को कमज़ोर मॉडलों द्वारा सत्यापित करने के लिए अनुकूलित करते हैं और अध्ययन करते हैं कि क्या यह उन्हें मनुष्यों के लिए अधिक सुपाठ्य बनाता है। यह प्रशिक्षण प्रक्रिया प्रोवर-वेरिफायर गेम से प्रेरित है, जो सीखने वाले एजेंटों को सत्यापन योग्य तरीके से निर्णय समस्याओं को हल करने के लिए प्रोत्साहित करने के लिए एक गेम-सैद्धांतिक ढांचा है, “ओपनएआई ने कहा।
ओपनएआई का कहना है कि उसने एक प्रशिक्षण योजना का उपयोग किया जिसमें एक मजबूत मॉडल ने ऐसे समाधान तैयार किए जिन्हें एक बहुत कमजोर मॉडल, सत्यापनकर्ता, आसानी से सत्यापित कर सकता है – जीपीटी-4 परिवार के बड़े और छोटे मॉडल।
ओपनएआई ने इस सप्ताह एक ब्लॉग में कहा, “यह सुनिश्चित करना कि भाषा मॉडल समझने योग्य पाठ तैयार करें, उन्हें लोगों के लिए उपयोगी बनाने के लिए महत्वपूर्ण है, खासकर जब गणित की समस्याओं को हल करने जैसे जटिल कार्यों से निपटना हो।”
कंपनी ने कहा कि उसने पाया कि उसके एआई मॉडल तथ्यात्मक रूप से सही उत्तर देने के बावजूद, उन्हें समझना कठिन था।
“जब हमने सीमित समय वाले मानव मूल्यांकनकर्ताओं से इन अत्यधिक अनुकूलित समाधानों का मूल्यांकन करने के लिए कहा, तो उन्होंने कम अनुकूलित समाधानों का मूल्यांकन करने की तुलना में लगभग दोगुनी गलतियाँ कीं। यह खोज न केवल शुद्धता के महत्व को उजागर करती है, बल्कि एआई-जनरेटेड टेक्स्ट में स्पष्टता और सत्यापन में आसानी को भी दर्शाती है,” यह जोड़ा।
बढ़ाना
ओपनएआई ने उन्नत भाषा मॉडल को ऐसे पाठ बनाने के लिए प्रशिक्षित किया जिसे कमज़ोर मॉडल आसानी से सत्यापित कर सकते हैं, जिसका मानव भी अधिक प्रभावी ढंग से मूल्यांकन कर सकता है – एक प्रक्रिया जिसे पठनीयता में सुधार कहा जाता है। कंपनी ने एक ‘प्रूवर-सत्यापनकर्ता खेल’ तैनात किया जिसमें दो खिलाड़ी थे: एक “प्रूवर” जो समाधान उत्पन्न करता है और एक “सत्यापनकर्ता” जो सटीकता के लिए इसकी जाँच करता है।
“सुबोधता में सुधार करने के लिए, हम ग्रेड-स्कूल गणित की समस्याओं पर विचारों की श्रृंखला को कमज़ोर मॉडलों द्वारा सत्यापित करने के लिए अनुकूलित करते हैं और अध्ययन करते हैं कि क्या यह उन्हें मनुष्यों के लिए अधिक सुपाठ्य बनाता है। यह प्रशिक्षण प्रक्रिया प्रोवर-वेरिफायर गेम से प्रेरित है, जो सीखने वाले एजेंटों को सत्यापन योग्य तरीके से निर्णय समस्याओं को हल करने के लिए प्रोत्साहित करने के लिए एक गेम-सैद्धांतिक ढांचा है, “ओपनएआई ने कहा।
ओपनएआई का कहना है कि उसने एक प्रशिक्षण योजना का उपयोग किया जिसमें एक मजबूत मॉडल ने ऐसे समाधान तैयार किए जिन्हें एक बहुत कमजोर मॉडल, सत्यापनकर्ता, आसानी से सत्यापित कर सकता है – जीपीटी-4 परिवार के बड़े और छोटे मॉडल।