माइक्रोसॉफ्ट इस एआई मॉडल का परीक्षण कर रहा है, जिसके बारे में उन्हें लगता है कि इसे लॉन्च करना “बहुत जोखिम भरा” है – टाइम्स ऑफ इंडिया

माइक्रोसॉफ्ट ने एक शोध परियोजना प्रकाशित की है जिसमें VALL-E स्पीच एआई मॉडल की दूसरी पीढ़ी को दिखाया गया है जो ऑडियो सैंपल से किसी भी आवाज़ का अनुकरण कर सकता है। VALL-E 2 नामक यह मॉडल अपने प्रदर्शन को बेहतर बनाने के लिए अपने पूर्ववर्ती मॉडल की तुलना में दो महत्वपूर्ण सुधार लाता है।

कंपनी ने कहा, “VALL-E 2 न्यूरल कोडेक भाषा मॉडल में नवीनतम प्रगति है जो शून्य-शॉट टेक्स्ट-टू-स्पीच संश्लेषण (TTS) में एक मील का पत्थर है, जो पहली बार मानव समानता प्राप्त करता है।”

VALL-E 2 मॉडल में दो संवर्द्धन
माइक्रोसॉफ्ट का कहना है कि VALL-E 2, VALL-E द्वारा रखी गई नींव पर आधारित है, तथा इसमें रिपीटिशन अवेयर सैम्पलिंग और ग्रुप्ड कोड मॉडलिंग की सुविधा है।

रिपीटिशन अवेयर सैंपलिंग डिकोडिंग इतिहास में टोकन रिपीटिशन को ध्यान में रखकर मूल न्यूक्लियस सैंपलिंग प्रक्रिया को परिष्कृत करता है और डिकोडिंग को स्थिर करता है। समूहीकृत कोड मॉडलिंग अनुक्रम लंबाई को प्रभावी ढंग से छोटा करने के लिए कोडेक कोड को समूहों में व्यवस्थित करता है। यह अनुमान लगाने की गति को बढ़ाता है और लंबे अनुक्रम मॉडलिंग की चुनौतियों का समाधान करता है।

“लिब्रीस्पीच और वीसीटीके डेटासेट पर किए गए हमारे प्रयोगों से पता चला है कि वीएएलएल-ई 2 भाषण मजबूती, स्वाभाविकता और वक्ता समानता में पिछले शून्य-शॉट टीटीएस सिस्टम से आगे निकल जाता है। यह इन बेंचमार्क पर मानवीय समानता तक पहुंचने वाला अपनी तरह का पहला है,” माइक्रोसॉफ्ट ने कहा।

माइक्रोसॉफ्ट इसे आम जनता के लिए लॉन्च करने की योजना क्यों नहीं बना रहा है?
माइक्रोसॉफ्ट के शोधकर्ताओं का कहना है कि VALL-E 2 पूरी तरह से एक शोध परियोजना है। वे कहते हैं कि इस मॉडल का इस्तेमाल शैक्षिक शिक्षण, मनोरंजन, पत्रकारिता, स्व-लिखित सामग्री, सुलभता सुविधाओं, इंटरैक्टिव वॉयस रिस्पॉन्स सिस्टम, अनुवाद चैटबॉट आदि के लिए किया जा सकता है, लेकिन इसमें जोखिम भी काफी है।

कंपनी ने कहा, “वैल-ई 2 वॉयस टैलेंट जैसी आवाज़ में बोल सकता है, लेकिन समानता और स्वाभाविकता स्पीच प्रॉम्प्ट की लंबाई और गुणवत्ता, पृष्ठभूमि शोर और अन्य कारकों पर निर्भर करती है। मॉडल के दुरुपयोग में संभावित जोखिम हो सकते हैं, जैसे कि आवाज़ की पहचान को धोखा देना या किसी विशिष्ट वक्ता की नकल करना।”

कंपनी ने कहा कि इस मॉडल से संबंधित सभी प्रयोग इस धारणा के साथ किए जाते हैं कि उपयोगकर्ता लक्ष्य वक्ता बनने के लिए सहमत है और वक्ता की सहमति प्राप्त कर ली गई है।

Source link

susheelddk

Related Posts

गूगल समाचार

वेलकम पार्टी पोकेमॉन गो: विशेष अनुसंधान चरण और पुरस्कारस्क्रीन रेंट Source link

गूगल समाचार

यह टेक कंपनी कहती है कि वह अपने उत्पादों में कभी भी AI सुविधाएँ नहीं लाएगी: यह क्यों मायने रखता हैन्यूज़18 प्रोक्रिएट ने डिजिटल आर्ट ऐप्स पर जेन एआई के…

You Missed

गूगल समाचार

गूगल समाचार

बिक्री में मंदी के बीच मारुति सुजुकी उत्पादन को ‘समायोजित’ करेगी: रिपोर्ट

बिक्री में मंदी के बीच मारुति सुजुकी उत्पादन को ‘समायोजित’ करेगी: रिपोर्ट

गूगल समाचार

गूगल समाचार

एमपॉक्स: फिलीपींस ने कहा कि नया मामला घातक वैरिएंट नहीं है

एमपॉक्स: फिलीपींस ने कहा कि नया मामला घातक वैरिएंट नहीं है

रोजगार वृद्धि: ईपीएफओ ने जून में 19.29 लाख शुद्ध सदस्य जोड़े – ईटी सरकार

रोजगार वृद्धि: ईपीएफओ ने जून में 19.29 लाख शुद्ध सदस्य जोड़े – ईटी सरकार

गूगल समाचार

गूगल समाचार