‘एलएलएम मॉडल आकार प्रतिस्पर्धा तीव्र हो रही है, पीछे की ओर जा रही है’

छोटे भाषा मॉडल का युग अभी शुरू हुआ है। “एलएलएम मॉडल आकार प्रतिस्पर्धा तेज हो रही है… पीछे की ओर!” चुटकी ली ओपनएआई के सह-संस्थापक आंद्रेज कारपथी, जीपीटी-4o मिनी और अन्य लघु भाषा मॉडल (एसएलएम) के बारे में हाल की घोषणाओं पर विचार व्यक्त करते हुए।

यह सप्ताह कई SLM के रिलीज़ के लिए उल्लेखनीय रहा। OpenAI ने GPT-4o मिनी रिलीज़ किया, जो एक अत्यधिक लागत-कुशल मॉडल है जिसे इंटेलिजेंस को अधिक किफायती बनाकर AI अनुप्रयोगों का विस्तार करने के लिए डिज़ाइन किया गया है। $0.15 प्रति मिलियन इनपुट टोकन और $0.6 प्रति मिलियन आउटपुट टोकन की कीमत पर, GPT-4o मिनी GPT-40 से 30 गुना सस्ता है और GPT-3.5 टर्बो से 60% सस्ता है।

दूसरी ओर, पेरिस स्थित एआई स्टार्टअप मिस्ट्रल एआई ने एनवीआईडीआईए के सहयोग से जारी किया मिस्ट्रल निमो128k टोकन संदर्भ लंबाई वाला 12 बिलियन पैरामीटर मॉडल। गेम्मा 2 9B और लामा 3 8B के मुकाबले बेंचमार्क किया गया, यह तर्क, विश्व ज्ञान और कोडिंग सटीकता में उत्कृष्ट है। मिस्ट्रल नेमो अंग्रेजी, फ्रेंच, जर्मन, स्पेनिश, इतालवी, पुर्तगाली, चीनी, जापानी, कोरियाई, अरबी और हिंदी में विशेष रूप से प्रभावी है। इतना ही नहीं, मिस्ट्रल ने यह भी लॉन्च किया मैथट्रलउन्नत गणितीय तर्क और वैज्ञानिक अन्वेषण के लिए एक विशेष 7बी मॉडल,

कुछ दिन पहले, हगिंग फेस ने स्मोलएलएम नामक कॉम्पैक्ट भाषा मॉडल की एक नई श्रृंखला भी जारी की, जो तीन आकारों में उपलब्ध है: 130M, 350M, और 1.7B पैरामीटर। ये मॉडल लैपटॉप और फोन जैसे स्थानीय उपकरणों पर उपयोग के लिए एकदम सही हैं, जो क्लाउड-आधारित संसाधनों की आवश्यकता को समाप्त करते हैं और ऊर्जा की खपत को काफी कम करते हैं।

इसी तरह, H2O.ai ने पेश किया H2O-डेन्यूब3मोबाइल डिवाइस में AI क्षमताएं लाने के लिए SLM की एक नई श्रृंखला। इस श्रृंखला में दो मॉडल शामिल हैं: H2O-Danube3-4B, जिसे 6 ट्रिलियन टोकन पर प्रशिक्षित किया गया है, और H2O-Danube3-500M, जिसे 4 ट्रिलियन टोकन पर प्रशिक्षित किया गया है।

Apple ने भी इस खेल में प्रवेश किया, DCLM-BASELINE 7B नामक 7B मॉडल जारी किया, इसके साथ ही इसके वज़न, प्रशिक्षण कोड और डेटासेट भी जारी किए। खुले डेटासेट से 2.5 ट्रिलियन टोकन पर प्रशिक्षित, मॉडल मुख्य रूप से अंग्रेजी डेटा का उपयोग करता है और इसमें 2048-टोकन संदर्भ विंडो की सुविधा है।

चीन में अलीबाबा जारी किया क्वेन के बेस और इंस्ट्रक्ट मॉडल पांच आकारों में हैं, जिनमें क्वेन2-0.5बी, क्वेन2-1.5बी, क्वेन2-7बी, क्वेन2-57बी-ए14बी और क्वेन2-72बी शामिल हैं, जिन्हें अंग्रेजी और चीनी के अलावा 27 अतिरिक्त भाषाओं में डेटा पर प्रशिक्षित किया गया है।

छोटा ही नया बड़ा है

भविष्य में एसएलएम या विशेष मॉडल ही होंगे, साथ ही जीपीटी-4 या क्लाउड 3.5 सॉनेट जैसे सामान्यीकृत मॉडल भी होंगे। “रोजमर्रा के इस्तेमाल के लिए, 8बी या शायद 70बी एलएलएम पर्याप्त होगा। अगर आप किसी मॉडल का अधिकतम परीक्षण नहीं करना चाहते हैं, तो आपको एसओटीए मॉडल की ज़रूरत नहीं है। रोज़मर्रा के सवालों के लिए, जो अब सभी प्रशिक्षण डेटा में दिखाई देते हैं, छोटे मॉडल पर्याप्त हैं,” की तैनाती X पर एक उपयोगकर्ता.

“विशेष और सामान्य दोनों मॉडल एक साथ मौजूद रहेंगे, एक दूसरे की जगह नहीं ले सकता। यह सोचना गलत है कि हमें केवल ओपनएआई जैसे एक एपीआई की आवश्यकता है। हमें एजीआई के लिए लक्ष्य रखने वाले मेगा मॉडल और विशेष माइक्रो मॉडल दोनों की आवश्यकता होगी जो आज के वर्कफ़्लो में एकीकृत हो सकें,” आधार के मुख्य वास्तुकार प्रमोद वर्मा ने हाल ही में एआईएम के साथ बातचीत में कहा।

भारत में, Gnani.ai हाल ही में वॉयस-फर्स्ट एसएलएम की एक श्रृंखला शुरू की गई है, जो लाखों ऑडियो घंटों के मालिकाना ऑडियो डेटासेट और अरबों भारतीय भाषा वार्तालापों पर प्रशिक्षित हैं, जो देश भर में प्रचलित बोलियों, लहजे और भाषाई बारीकियों की समृद्ध विविधता को कैप्चर करते हैं।

Abacus.AI प्रमुख बिन्दु रेड्डी है भविष्यवाणी की अगले पांच सालों में, छोटे मॉडल ज़्यादा कुशल हो जाएंगे, एलएलएम को प्रशिक्षित करना सस्ता होता जाएगा, और एलएलएम अनुमान व्यापक हो जाएगा। “हमें अगले एक से दो सालों में कई सॉनेट 3.5 क्लास मॉडल देखने की उम्मीद करनी चाहिए जो 100 गुना छोटे और सस्ते होंगे।”

इस साल की शुरुआत में, माइक्रोसॉफ्ट ने फी-3-मिनी का अनावरण किया, जो 3.3 ट्रिलियन टोकन के व्यापक डेटासेट पर प्रशिक्षित 3.8 बिलियन पैरामीटर भाषा मॉडल है। अपने कॉम्पैक्ट आकार के बावजूद, फी-3-मिनी का प्रदर्शन स्तर मिक्सट्रल 8x7B और GPT-3.5 जैसे बड़े मॉडलों को टक्कर देता है।

इसी तरह, कार्पेथी ने बताया कि वर्तमान मॉडल इतने बड़े होने का कारण यह है कि प्रशिक्षण प्रक्रिया अभी भी काफी बेकार है: “हम उन्हें इंटरनेट को याद करने के लिए कह रहे हैं, और, उल्लेखनीय रूप से, वे ऐसा करते हैं और कर सकते हैं, उदाहरण के लिए, सामान्य संख्याओं के SHA हैश को याद करना या वास्तव में गूढ़ तथ्यों को याद करना।”

“लेकिन कल्पना कीजिए कि अगर आपको बंद किताब में, इंटरनेट के मनमाने अंशों को याद करके, पहले कुछ शब्द दिए जाने पर परीक्षण किया जा रहा हो। यह आज के मॉडलों के लिए मानक (पूर्व) प्रशिक्षण उद्देश्य है,” उन्होंने कहा। उन्होंने कहा कि सोच (जैसे, तर्क) को प्रदर्शित करने की क्षमता मॉडल द्वारा प्रशिक्षण डेटा से सीखे गए ज्ञान की मात्रा से निकटता से जुड़ी हुई है।

उन्होंने आगे बताया कि भविष्य में, जैसे-जैसे बड़े मॉडल प्रशिक्षण प्रक्रिया को परिष्कृत और अनुकूलित करने में मदद करेंगे, छोटे मॉडल सामने आएंगे। “मॉडल को पहले बड़ा होना होगा, उसके बाद ही वे छोटे हो सकते हैं क्योंकि हमें प्रशिक्षण डेटा को आदर्श, सिंथेटिक प्रारूपों में पुनर्संयोजित और ढालने के लिए उनकी (स्वचालित) मदद की आवश्यकता होती है।”

प्रभावी लागत

एलएलएम के निरंतर उपयोग में भी इसकी कमियां हैं, जिनमें उच्च अनुमान लागत और ऊर्जा खपत शामिल है। गेम्मा या एलएलएएमए 8बी जैसे एसएलएम बहुत लागत प्रभावी हैं क्योंकि उन्हें कम गणना की आवश्यकता होती है और उनके अनुमान कम ऊर्जा की खपत करते हैं।

ओपनएआई लगभग 1000 करोड़ रुपये खर्च करता था। $700,000 चैटजीपीटी चलाने के लिए प्रतिदिन 1000 रुपये खर्च करने पड़ते हैं। GPT-4o मिनी के साथ, यह लागत कुछ हद तक कम हो सकती है। इसके अलावा, चूँकि SLM क्लाउड की आवश्यकता के बिना डिवाइस पर स्थानीय रूप से चल सकते हैं, इसलिए उन्हें व्यापक AI इंफ्रास्ट्रक्चर और GPU की आवश्यकता नहीं होती है।

क्लाउड 3.5 सॉनेट और गूगल के जेमिनी 1.5 प्रो की तुलना में ओपनएआई का GPT-4o मिनी काफी सस्ता है। हगिंग फेस के अनुसार, GPT-4o मिनी सबसे सस्ता है, जिसकी संयुक्त इनपुट और आउटपुट लागत सिर्फ़ 100 डॉलर है। प्रति मिलियन टोकन $0.75.

ओला क्रुट्रिम के प्रमुख भाविश अग्रवाल ने हाल ही में बताया कि एक H100 NVIDIA GPU एक साल में ओला S1 स्कूटर की तुलना में 30 गुना ज़्यादा बिजली की खपत करता है। उन्होंने कहा, “H100 GPU को हर साल लगभग 8.7 MWh ऊर्जा की ज़रूरत होती है, जबकि S1 को 0.25 MWh/साल की ज़रूरत होती है। भविष्य में बहुत ज़्यादा बिजली की ज़रूरत होगी!”

हालाँकि अब यह बदल रहा है क्योंकि करपथी ने हाल ही में प्रदर्शित किया कि आज कोई व्यक्ति ~$672 में अपने दम पर GPT-2 को प्रशिक्षित कर सकता है, जो 24 घंटे के लिए एक 8XH100 GPU नोड पर चल रहा है। “अविश्वसनीय रूप से, पिछले पाँच वर्षों में कंप्यूट हार्डवेयर (H100 GPU), सॉफ़्टवेयर (CUDA, cuBLAS, cuDNN, FlashAttention) और डेटा गुणवत्ता (जैसे FineWeb-Edu डेटासेट) में सुधार के कारण लागत में नाटकीय रूप से कमी आई है,” उन्होंने कहा।

दूसरी ओर, TWO AI के प्रमुख प्रणव मिस्त्री ने दावा किया कि भविष्य 1-बिट LLM में है क्योंकि उनके कई फायदे हैं, जिसका अर्थ है कि वे छोटे चिप्स पर फिट हो सकते हैं, कम मेमोरी की आवश्यकता होती है, और उनकी प्रोसेसिंग तेज होती है।

एसएलएम, जनरेटिव एआई का भविष्य?

एक प्रश्न उद्यमों को परेशान करता है: एसएलएम की प्रभावशाली क्षमताओं और बड़े मॉडलों के निजी उदाहरणों की तुलना में उनकी संभावित कमियों के बीच संतुलन, और क्या छोटे मॉडल जनरेटिव एआई के भविष्य का प्रतिनिधित्व करते हैं।

अपस्टेज के अनुसार, “हमारे संचालन और प्रशिक्षण के तरीके में प्रौद्योगिकी तेजी से विकसित हो रही है। तीन महीने पहले, ग्राहक के निजी डेटाबेस में अलग से SLM का उपयोग करना एक बड़े सार्वजनिक मॉडल के निजी उदाहरण की तुलना में एक कमी की तरह लग सकता था।” केसी रोहवाशिंगटन डीसी में हाल ही में आयोजित एडब्ल्यूएस शिखर सम्मेलन के अवसर पर यह बात कही गई।

दक्षिण कोरियाई कंपनी ने एक एसएलएम बनाया है जिसका नाम है सौरहगिंगफेस ओपन एलएलएम लीडरबोर्ड पर शीर्ष रैंक वाले मॉडलों में से एक, और लामा 2 का एक फाइनट्यून।

इसके अलावा, रोह ने कहा कि एसएलएम की चुनौतियों का समाधान करने के लिए, कंपनी ने अब अपने ग्राहकों के साथ सदस्यता मॉडल में प्रवेश किया है, जिससे उन्हें नवीनतम डेटा बिंदुओं के साथ मॉडल को लगातार प्रशिक्षित करने और उसे बेहतर बनाने की सुविधा मिलती है।

उनका मानना ​​है कि यह मॉड्यूलर और मानकीकृत दृष्टिकोण छोटे निजी मॉडल के उपयोग की कमियों को काफी हद तक कम करता है। “एक बार जब हमारे पास उपकरणों और कार्यक्रमों का एक पूरा सेट उपलब्ध हो जाता है, तो मुझे लगता है कि एक छोटे मॉडल के निजी होने की कमी को काफी हद तक संबोधित किया जा सकता है,” रोह ने निष्कर्ष निकाला।

Source link

  • susheelddk

    Related Posts

    गूगल समाचार

    ‘क्या चैटजीपीटी ने पहले संदेश भेजा था?’: रेडिटर ने वायरल एआई वार्तालाप आश्चर्य साझा कियाहिंदुस्तान टाइम्स Source link

    गूगल समाचार

    एट्रो एप्पल विजन प्रो अनुभव के साथ आगामी रनवे शो में भाग लेगाडब्ल्यूडब्ल्यूडी Source link

    You Missed

    यूरोप का इलेक्ट्रिक वाहन बाज़ार डूबा, कार निर्माता राहत की मांग कर रहे हैं। विवरण देखें

    यूरोप का इलेक्ट्रिक वाहन बाज़ार डूबा, कार निर्माता राहत की मांग कर रहे हैं। विवरण देखें

    गूगल समाचार

    गूगल समाचार

    गूगल समाचार

    गूगल समाचार

    मुख्य उत्तर लेखन अभ्यास

    मुख्य उत्तर लेखन अभ्यास

    केंद्र-राज्य संबंध और आपातकाल | मणिपुर संकट | अनुच्छेद 355 | इनफोकस | दृष्टि आईएएस अंग्रेजी

    केंद्र-राज्य संबंध और आपातकाल | मणिपुर संकट | अनुच्छेद 355 | इनफोकस | दृष्टि आईएएस अंग्रेजी

    भारत के सबसे अमीर और सबसे गरीब राज्य | PMEAC रिपोर्ट | Indepth | UPSC | Drishti IAS English

    भारत के सबसे अमीर और सबसे गरीब राज्य | PMEAC रिपोर्ट | Indepth | UPSC | Drishti IAS English