Microsoft AI टूल vall-e आपकी आवाज़ की हुब-हु नकल कर सकता है,आईये जानते इसके बारे में जो आपको जानना आवश्यक है |
vall-e किसी भी व्यक्ति की 3-सेकंड की रिकॉर्डिंग के साथ आपकी “उच्च-गुणवत्ता वाले व्यक्तिगत भाषण” को तुरंत कॉपी करने में सक्षम है और यह आवाज़ के द्वारा भावनाओं को भी समझ सकता है
डेस्क- vall-e ,2022 में ai टूल्स की बारिश हुई, और अभी भी नए ai टूल्स आते ही जा रहे है , लोगों को आश्चर्यचकित करने वाले निबंध, कलाकृति,चित्रकारी और वीडियो बनाने की उनकी क्षमता के साथ कुछ भी नहीं बल्कि एक टेक्स्ट प्रॉम्प्ट है। लेकिन ai जो लिखित आर्टिकल , चित्र और वीडियो उत्पन्न कर सकता है, कुछ समय के लिए सुर्खियों में रहा है, यह लगभग ऐसा है जैसे भाषण को बहुत प्यार नहीं दिखाया गया है। microsoft vall-e के साथ बदल रहा है, एक नया ai टेक्स्ट टू स्पीच सिस्टम (टीटीएस) जो किसी की आवाज की तीन सेकंड की सुनकर उसे दोहरा सकता है, लिखित शब्दों को भाषण में बदल सकता है। विचार नया नहीं है, निश्चित रूप से – नया क्या है कि ai हमें यह समझाने में कितना अच्छा है कि आउटपुट एक वास्तविक इंसान से है – जब की यह वास्तव में नहीं है।
आइए एक नज़र डालते हैं कि कैसे Vall-E अपना जादू चलाने में सक्षम है य नहीं
Microsoft Vall-E को “neural codec language model.” कहना पसंद करता है। यह इससे पहले आने वाले अन्य आवाज जनरेटरों की तुलना में एक अलग दृष्टिकोण का उपयोग करता है, जिससे इसे उच्च सटीकता प्राप्त करने में मदद मिलती है। इनमें से एक तथ्य यह है कि टीटीएस प्रशिक्षण डेटा को अंग्रेजी भाषण के 60,000 घंटे तक बढ़ाया गया था, जो माइक्रोसॉफ्ट का दावा है कि मौजूदा सिस्टम से सैकड़ों गुना बड़ा है। यह टीटीएस प्रणाली को “ध्वनिक संकेत” के रूप में किसी भी व्यक्ति की 3-सेकंड की रिकॉर्डिंग के अलावा “उच्च-गुणवत्ता वाले व्यक्तिगत भाषण” का उत्पादन करने की अनुमति देता है।
vall-e बाकियों से कैसे अलग है –
बड़े प्रशिक्षण डेटा, जैसा कि ऊपर उल्लेख किया गया है, और अन्य नए तरीकों का मतलब है कि vall-e अन्य TTS सिस्टम के लिए एक अलग दृष्टिकोण का उपयोग करता है। Microsoft का दावा है कि इसने वाक् स्वाभाविकता और वक्ता समानता के मामले में अपनी श्रेणी में अन्य उत्पादों को “महत्वपूर्ण रूप से बेहतर प्रदर्शन” किया है । Vall-E को “जीरो-शॉट स्थितियों” में वितरित करने के लिए भी बनाया गया है, जिसका अर्थ है कि इसके लिए किसी विशिष्ट संदर्भ में पूर्व उदाहरण या प्रशिक्षण की आवश्यकता नहीं है – आप इसे 3-सेकंड की ऑडियो क्लिप और एक टेक्स्ट देते है और यह आपको आपका मनचाहा परिणाम देता है।
vall-e का सबसे बड़ा फीचर भावनात्मक आवाज़ की पहचान
सबसे बढ़िया खासियत है vall-e की वक्ता की भावनाओं को संरक्षित करने की क्षमता है। Microsoft ने TTS सिस्टम के लिए GitHub पेज पर इस क्षमता का प्रदर्शन किया है। 3-सेकंड का ऑडियो किसी भी स्वर में बोला जा सकता है – गुस्सा, नींद, तटस्थ, खुश, निराश, आदि – और vall-e उस स्वर को संरक्षित करते हुए किसी भावना के साथ बोल सकता है ।
हमारे whatsapp ग्रुप में जुड़ने के लिए नीचे दी गयी लिंक को क्लिक कर ग्रुप में जुड़ें
https://chat.whatsapp.com/IVMRnyG2Z0L7jkEtqqkEXn
बस एक Click में सभी खबरें
https://swatantrasamay.com/
Twitter पर हमसे जुड़े
https://twitter.com/Ssamaynews
Facebook पर जुड़े
facebook.com/swatantrasamaynews
Youtube पर जुड़े
youtube.com/swatantrasamay1
हमारी ख़बरें लगातार पाने के लिए 8770671198 पर hi लिखकर भेजें