ओपनएआई ने इस सप्ताह एक ब्लॉग में कहा, “यह सुनिश्चित करना कि भाषा मॉडल समझने योग्य पाठ तैयार करें, उन्हें लोगों के लिए उपयोगी बनाने के लिए महत्वपूर्ण है, खासकर जब गणित की समस्याओं को हल करने जैसे जटिल कार्यों से निपटना हो।”
कंपनी ने कहा कि उसने पाया कि इसके बावजूद एआई मॉडल तथ्यात्मक रूप से सही उत्तर देने के बावजूद, उन्हें समझना कठिन था।
“जब हमने सीमित समय वाले मानव मूल्यांकनकर्ताओं से इन अत्यधिक अनुकूलित समाधानों का मूल्यांकन करने के लिए कहा, तो उन्होंने कम अनुकूलित समाधानों का मूल्यांकन करने की तुलना में लगभग दोगुनी गलतियाँ कीं। यह खोज न केवल शुद्धता के महत्व को उजागर करती है, बल्कि एआई-जनरेटेड टेक्स्ट में स्पष्टता और सत्यापन में आसानी को भी दर्शाती है,” यह जोड़ा।
ओपनएआई ने इस समस्या का समाधान कैसे खोजा
ओपनएआई ने उन्नत भाषा मॉडल को ऐसे पाठ बनाने के लिए प्रशिक्षित किया जिसे कमज़ोर मॉडल आसानी से सत्यापित कर सकते हैं, जिसका मानव भी अधिक प्रभावी ढंग से मूल्यांकन कर सकता है – एक प्रक्रिया जिसे पठनीयता में सुधार कहा जाता है। कंपनी ने एक ‘प्रूवर-सत्यापनकर्ता खेल’ तैनात किया जिसमें दो खिलाड़ी थे: एक “प्रूवर” जो समाधान उत्पन्न करता है और एक “सत्यापनकर्ता” जो सटीकता के लिए इसकी जाँच करता है।
“सुबोधता में सुधार करने के लिए, हम ग्रेड-स्कूल गणित की समस्याओं पर विचारों की श्रृंखला को कमज़ोर मॉडलों द्वारा सत्यापित करने के लिए अनुकूलित करते हैं और अध्ययन करते हैं कि क्या यह उन्हें मनुष्यों के लिए अधिक सुपाठ्य बनाता है। यह प्रशिक्षण प्रक्रिया प्रोवर-वेरिफायर गेम से प्रेरित है, जो सीखने वाले एजेंटों को सत्यापन योग्य तरीके से निर्णय समस्याओं को हल करने के लिए प्रोत्साहित करने के लिए एक गेम-सैद्धांतिक ढांचा है, “ओपनएआई ने कहा।
ओपनएआई का कहना है कि उसने एक प्रशिक्षण योजना का उपयोग किया जिसमें एक मजबूत मॉडल ने ऐसे समाधान तैयार किए जिन्हें एक बहुत कमजोर मॉडल, सत्यापनकर्ता, आसानी से सत्यापित कर सकता है – जीपीटी-4 परिवार के बड़े और छोटे मॉडल।