मल्टीमॉडल AI हैकथॉन (23Labs) का परिचय

9 अक्तू॰ 2023 • 9 मिनट पढ़ने का समय

रचनात्मक दिमागों और नवीन तकनीकों को 14-15 अक्टूबर को एक साथ लाना

इस पेज पर

परिचय
परिचय
ElevenLabs और Twelve Labs का अवलोकन
मल्टीमॉडल AI की सीमाओं को आगे बढ़ाना
- ElevenLabs का टेक्स्ट-टू-स्पीच मॉडल
- Twelve Labs का मल्टीमॉडल भाषा मॉडल
- भाषण और वीडियो मल्टीमॉडल AI को तेज़ करते हैं
हैकथॉन के लिए AI एप्लिकेशन आइडियाज
हैकथॉन प्रतिभागियों के लिए संसाधन
निष्कर्ष

परिचय

मल्टीमॉडल AI की रोमांचक दुनिया में आपका स्वागत है!23Labs हैकथॉन, Cerebral Valley, ElevenLabs, और Twelve Labs द्वारा आयोजित, 14 और 15 अक्टूबर को Shack 15, ऐतिहासिक Ferry Building में, सैन फ्रांसिस्को में होने जा रहा है। इस इवेंट का उद्देश्य रचनात्मक दिमागों और नवीन तकनीकों को एक साथ लाना है ताकि मल्टीमॉडल AI की संभावनाओं का पता लगाया जा सके, जो एक तेजी से उभरता हुआ क्षेत्र है जो आवाज़, वीडियो और अन्य माध्यमों को जोड़कर अद्वितीय एप्लिकेशन बनाता है।

प्रतिभागियों को ElevenLabs, Twelve Labs, और अन्य साझेदारों (Weaviate, Baseten, Pika Labs, और Omneky) के API एक्सेस दिए जाएंगे, जिससे वे इन अत्याधुनिक स्टार्टअप्स की टीमों से हाथों-हाथ समर्थन के साथ रचनात्मकता-केंद्रित टूल्स बना सकें। $10K से अधिक नकद पुरस्कार और क्रेडिट्स के साथ, यह हैकथॉन सभी के लिए एक अविस्मरणीय अनुभव होने का वादा करता है।

ElevenLabs और Twelve Labs का अवलोकन

2022 में स्थापित, ElevenLabs एक वॉइस टेक्नोलॉजी रिसर्च कंपनी है जो प्रकाशकों और निर्माताओं के लिए विश्व-स्तरीय टेक्स्ट-टू-स्पीच सॉफ़्टवेयर विकसित कर रही है। कंपनी का मिशन सामग्री को सार्वभौमिक रूप से सुलभ बनाना है।

ElevenLabs द्वारा निर्मित सॉफ़्टवेयर की मुख्य विशेषताएं यहां दी गई हैं:

पूर्व-निर्मित सिंथेटिक आवाज़ों का उपयोग करके टेक्स्ट-टू-स्पीच तकनीक
प्रोफेशनल वॉइस क्लोनिंग टूल्स
नई AI आवाज़ें डिज़ाइन करने की क्षमता
30 भाषाओं में टेक्स्ट 'बोलने' की क्षमता
लंबे ऑडियो को जनरेट और एडिट करने के टूल्स

2021 में स्थापित, Twelve Labs एक वीडियो समझने वाला प्लेटफ़ॉर्म बनाता है जो AI का उपयोग करके कई डाउनस्ट्रीम कार्यों को शक्ति देता है, जैसे कि प्राकृतिक भाषा खोज, ज़ीरो-शॉट वर्गीकरण, और वीडियो से टेक्स्ट जनरेशन। ये क्षमताएं प्लेटफ़ॉर्म के अत्याधुनिक मल्टीमॉडल फाउंडेशन मॉडल पर आधारित हैं। कंपनी का दृष्टिकोण डेवलपर्स को ऐसे प्रोग्राम बनाने में मदद करना है जो हमारी तरह दुनिया को देख, सुन और समझ सकें, उन्हें सबसे शक्तिशाली वीडियो समझने वाला इंफ्रास्ट्रक्चर प्रदान करके।

Twelve Labs प्लेटफ़ॉर्म की मुख्य विशेषताएं यहां दी गई हैं:

इंडेक्स API के साथ संदर्भ कैप्चर करें: एक बार इंडेक्स करें, सब कुछ करें। सेकंडों में सामग्री खोजने, वर्गीकृत करने और सारांशित करने के लिए संदर्भात्मक वीडियो एम्बेडिंग बनाएं।
खोज API के साथ कुछ भी खोजें: रोज़मर्रा की भाषा का उपयोग करके तेज़, संदर्भ-सचेत खोजें करें जो आपको आवश्यक सटीक दृश्य को इंगित करती हैं।
वर्गीकृत API के साथ वीडियो वर्गीकृत करें: सामग्री को तुरंत छांटें और वर्गीकृत करें। अपनी खुद की किसी भी टैक्सोनॉमी के साथ सामग्री को वर्गीकृत करें। कोई प्रशिक्षण आवश्यक नहीं।
जनरेट API के साथ टेक्स्ट जनरेट करें: अपने वीडियो के बारे में टेक्स्ट जनरेट करें। मॉडल से रिपोर्ट लिखने, सारांश प्राप्त करने और अध्याय बनाने के लिए कहें - जो भी आपको चाहिए।

मल्टीमॉडल AI की सीमाओं को आगे बढ़ाना

ElevenLabs का टेक्स्ट-टू-स्पीच मॉडल

ElevenLabs की रिसर्च टीमों ने अत्याधुनिक टेक्स्ट-टू-स्पीच क्षमताओं का नेतृत्व किया है जो अल्ट्रा-रियलिस्टिक डिलीवरी प्राप्त करने के लिए भाषण को संश्लेषित करने के लिए नए दृष्टिकोणों को जोड़ने पर केंद्रित हैं। ElevenLabs मॉडल शब्दों के बीच संबंध को समझने और संदर्भ के आधार पर डिलीवरी को समायोजित करने में सक्षम है; जिससे बारीकियों और भावनाओं को व्यक्त किया जा सके। इसका मतलब है कि AI आवाज़ें रोबोटिक नहीं लगतीं, बल्कि मानव जैसी लगती हैं। यह टेक्स्ट-टू-स्पीच तकनीक के लिए एक वैश्विक सफलता का प्रतिनिधित्व करता है।

पारंपरिक भाषण जनरेशन एल्गोरिदम वाक्य-दर-वाक्य आधार पर उच्चारण उत्पन्न करते थे। यह कम्प्यूटेशनली कम मांग वाला होता है लेकिन तुरंत रोबोटिक लगता है। भावनाएं और स्वर अक्सर एक विशेष विचारधारा को जोड़ने के लिए कई वाक्यों में फैलने और गूंजने की आवश्यकता होती है। स्वर और गति इरादे को व्यक्त करते हैं जो वास्तव में भाषण को मानव जैसा बनाता है। इसलिए प्रत्येक उच्चारण को अलग से उत्पन्न करने के बजाय, हमारा मॉडल आसपास के संदर्भ को ध्यान में रखता है, पूरे उत्पन्न सामग्री में उचित प्रवाह और प्रोसोडी बनाए रखता है। यह भावनात्मक गहराई, प्रमुख ऑडियो गुणवत्ता के साथ मिलकर, उपयोगकर्ताओं को सबसे प्रामाणिक और आकर्षक वर्णन उपकरण प्रदान करती है।

टेक्स्ट टू स्पीच

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

हमारे टेक्स्ट टू स्पीच (TTS) सिस्टम के साथ मानव जैसी आवाज़ें बनाएं, जो उच्च गुणवत्ता वाली नैरेशन, गेमिंग, वीडियो और एक्सेसिबिलिटी के लिए बनाया गया है। अभिव्यक्तिपूर्ण आवाज़ें, बहुभाषी समर्थन, और API इंटीग्रेशन से व्यक्तिगत प्रोजेक्ट्स से लेकर एंटरप्राइज़ वर्कफ़्लोज़ तक आसानी से स्केल करें।

Twelve Labs का मल्टीमॉडल भाषा मॉडल

जब आप एक फिल्म देखते हैं, तो आप आमतौर पर इसे अनुभव करने के लिए कई इंद्रियों का उपयोग करते हैं। उदाहरण के लिए, आप स्क्रीन पर अभिनेताओं और वस्तुओं को देखने के लिए अपनी आंखों का उपयोग करते हैं और संवाद और ध्वनियों को सुनने के लिए अपने कानों का उपयोग करते हैं। केवल एक इंद्रिय का उपयोग करने पर, आप शरीर की भाषा या बातचीत जैसे आवश्यक विवरणों को याद करेंगे। यह अधिकांश बड़े भाषा मॉडलों के संचालन के समान है - वे आमतौर पर केवल टेक्स्ट को समझने के लिए प्रशिक्षित होते हैं। हालांकि, वे कई प्रकार की जानकारी को एकीकृत नहीं कर सकते और यह नहीं समझ सकते कि दृश्य में क्या हो रहा है।

जब एक भाषा मॉडल किसी प्रकार की जानकारी, जैसे कि टेक्स्ट, को प्रोसेस करता है, तो यह उस विशेष इनपुट के अर्थ को परिभाषित करने वाला एक संक्षिप्त संख्यात्मक प्रतिनिधित्व उत्पन्न करता है। इन संख्यात्मक प्रतिनिधित्वों को यूनिमॉडल एम्बेडिंग कहा जाता है और ये बहु-आयामी स्थान में वास्तविक-मूल्य वाले वेक्टर के रूप में होते हैं। वे कंप्यूटर को अनुवाद, प्रश्न उत्तर, या वर्गीकरण जैसे विभिन्न डाउनस्ट्रीम कार्यों को करने की अनुमति देते हैं।

Diagram showing a process flow with input, language model, text embeddings, and downstream tasks.

इसके विपरीत, जब एक मल्टीमॉडल भाषा मॉडल एक वीडियो को प्रोसेस करता है, तो यह एक मल्टीमॉडल एम्बेडिंग उत्पन्न करता है जो सभी स्रोतों की जानकारी, जैसे कि छवियां, ध्वनियां, भाषण, या स्क्रीन पर प्रदर्शित टेक्स्ट, और वे एक-दूसरे से कैसे संबंधित हैं, का समग्र संदर्भ प्रस्तुत करता है। ऐसा करके, मॉडल वीडियो की व्यापक समझ प्राप्त करता है। एक बार मल्टीमॉडल एम्बेडिंग बन जाने के बाद, उनका उपयोग विभिन्न डाउनस्ट्रीम कार्यों के लिए किया जाता है जैसे कि दृश्य प्रश्न उत्तर, वर्गीकरण, या भावना विश्लेषण।

Diagram of a multimodal language model processing video input with visual, audio, and text embeddings to perform downstream tasks.

Twelve Labs ने एक मल्टीमॉडल वीडियो समझने वाली तकनीक विकसित की है जो आपके वीडियो के लिए मल्टीमॉडल एम्बेडिंग बनाती है। ये एम्बेडिंग भंडारण और कम्प्यूटेशनल आवश्यकताओं के मामले में अत्यधिक कुशल हैं। वे एक वीडियो की सभी संदर्भ सामग्री को समाहित करते हैं और पूरे वीडियो को संग्रहीत किए बिना तेज़ और स्केलेबल कार्य निष्पादन को सक्षम करते हैं।

मॉडल को विशाल मात्रा में वीडियो डेटा पर प्रशिक्षित किया गया है, और यह वीडियो में मौजूद संस्थाओं, क्रियाओं, पैटर्न, आंदोलनों, वस्तुओं, दृश्यों और अन्य तत्वों को पहचान सकता है। विभिन्न माध्यमों से जानकारी को एकीकृत करके, मॉडल का उपयोग कई डाउनस्ट्रीम कार्यों के लिए किया जा सकता है, जैसे कि प्राकृतिक भाषा प्रश्नों का उपयोग करके खोज, ज़ीरो-शॉट वर्गीकरण करना, और वीडियो सामग्री के आधार पर टेक्स्ट सारांश उत्पन्न करना।

भाषण और वीडियो मल्टीमॉडल AI को तेज़ करते हैं

मल्टीमॉडल AI एक शोध दिशा है जो अधिक व्यापक और सटीक AI मॉडल बनाने के लिए कई माध्यमों को समझने और उनका लाभ उठाने पर केंद्रित है। हाल के फाउंडेशन मॉडल में प्रगति, जैसे कि बड़े पूर्व-प्रशिक्षित भाषा मॉडल, शोधकर्ताओं को माध्यमों को मिलाकर अधिक जटिल और परिष्कृत समस्याओं को हल करने में सक्षम बनाती हैं। ये मॉडल छवि, टेक्स्ट, भाषण, और वीडियो सहित कई माध्यमों के लिए मल्टीमॉडल प्रतिनिधित्व सीखने में सक्षम हैं। परिणामस्वरूप, मल्टीमॉडल AI का उपयोग दृश्य प्रश्न-उत्तर और टेक्स्ट-टू-इमेज जनरेशन से लेकर वीडियो समझ और टेक्स्ट-टू-स्पीच अनुवाद तक के कार्यों की एक विस्तृत श्रृंखला को हल करने के लिए किया जा रहा है।

जब ElevenLabs और Twelve Labs की तकनीकों को मिलाया जाता है, तो वे मल्टीमॉडल AI को मुख्यधारा में ला सकते हैं, मानव संचार और इंटरैक्शन की अधिक व्यापक समझ प्रदान करते हैं। भाषण और वीडियो माध्यमों की शक्ति का उपयोग करके, डेवलपर्स ऐसे नवाचारी एप्लिकेशन बना सकते हैं जो AI में संभावनाओं की सीमाओं को आगे बढ़ाते हैं, अंततः तकनीक और डिजिटल दुनिया के साथ हमारे इंटरैक्शन के तरीके को बदलते हैं।

हैकथॉन के लिए AI एप्लिकेशन आइडियाज

23Labs हैकथॉन के दौरान, प्रतिभागियों को ElevenLabs और Twelve Labs दोनों के API का उपयोग करके नवाचारी AI एप्लिकेशन बनाने का अवसर मिलेगा। यहां कुछ रोमांचक आइडियाज हैं प्रेरणा के लिए:

वॉइसओवर के साथ वीडियो सारांशण: एक समाधान बनाएं जो लंबे वीडियो के संक्षिप्त सारांश स्वचालित रूप से उत्पन्न करता है (Twelve Labs के Generate API का उपयोग करके) और एक वॉइसओवर जोड़ता है (ElevenLabs के AI-पावर्ड वॉइस जनरेटर का उपयोग करके)। यह समाचार अपडेट, शैक्षिक वीडियो, और सम्मेलन प्रस्तुतियों के लिए उपयोगी हो सकता है - दर्शकों के लिए समय बचाता है और सुलभता को बढ़ाता है।
स्मार्ट वीडियो विज्ञापन: एक AI-आधारित विज्ञापन प्लेटफ़ॉर्म विकसित करें जो वीडियो विज्ञापनों की सामग्री का विश्लेषण करता है (Twelve Labs के Classify API का उपयोग करके), उच्च-ROI विज्ञापनों के सामान्य थीम प्राप्त करता है (Twelve Labs के Generate API का उपयोग करके), और लक्षित ऑडियो विज्ञापन उत्पन्न करता है (ElevenLabs की वॉइस सिंथेसिस तकनीक का लाभ उठाकर)। यह विज्ञापनदाताओं को अपने लक्षित दर्शकों तक अधिक प्रभावी ढंग से पहुंचने में मदद कर सकता है और समग्र उपयोगकर्ता अनुभव को सुधार सकता है।
बहुभाषी वीडियो अनुवाद: एक प्रणाली बनाएं जो वीडियो सामग्री का कई भाषाओं में अनुवाद करती है। Twelve Labs के Generate API को ElevenLabs के बहुभाषी ऑडियो समर्थन के साथ मिलाएं ताकि समकालिक अनुवादित उपशीर्षक और वॉइसओवर प्रदान किए जा सकें, जिससे उपयोगकर्ता अपनी पसंदीदा भाषा में वीडियो सामग्री का उपभोग कर सकें। यह अंतरराष्ट्रीय सम्मेलनों, ऑनलाइन पाठ्यक्रमों, और वैश्विक संचार के लिए लाभकारी हो सकता है।
ऑडियो चेतावनियों के साथ वीडियो सामग्री मॉडरेशन: एक AI-पावर्ड समाधान बनाएं जो स्वचालित रूप से वीडियो में अनुचित या संवेदनशील सामग्री का पता लगाता है और फ़िल्टर करता है। Twelve Labs के Classify API का उपयोग करके वीडियो में अनुचित या आपत्तिजनक सामग्री की पहचान करें। फिर ElevenLabs की वॉइस सिंथेसिस तकनीक का उपयोग करके ऐसी सामग्री के लिए ऑडियो चेतावनियां प्रदान करें। यह उपयोगकर्ताओं के लिए एक सुरक्षित और अधिक समावेशी देखने का अनुभव सुनिश्चित करने में मदद कर सकता है।
वीडियो भाषा सीखने का सहायक: एक इंटरैक्टिव भाषा सीखने का उपकरण विकसित करें जो उपयोगकर्ताओं को उनकी भाषा कौशल में सुधार करने में मदद करने के लिए वीडियो सामग्री का उपयोग करता है। Twelve Labs के Search API का उपयोग करके वीडियो से भाषण की पहचान करें और निकालें। फिर ElevenLabs के बहुभाषी ऑडियो समर्थन का उपयोग करके उच्चारण गाइड, शब्दावली पाठ, या सुनने के अभ्यास उत्पन्न करें। यह भाषा सीखने को अधिक आकर्षक और प्रभावी बना सकता है।

हैकथॉन प्रतिभागियों के लिए संसाधन

प्रतिभागी हैकथॉन की तैयारी के लिए नीचे दिए गए ElevenLabs और Twelve Labs के API दस्तावेज़, ट्यूटोरियल, और ब्लॉग पोस्ट का संदर्भ ले सकते हैं।

ElevenLabs से

Twelve Labs से

निष्कर्ष

23Labs हैकथॉन डेवलपर्स, निर्माताओं, और AI उत्साही लोगों के लिए मल्टीमॉडल AI की दुनिया में गोता लगाने और नवाचारी समाधान बनाने का एक अनूठा अवसर प्रदान करता है जो संभावनाओं की सीमाओं को आगे बढ़ाते हैं। ElevenLabs और Twelve Labs की विशेषज्ञता को मिलाकर, प्रतिभागियों को वॉइस और वीडियो AI में अत्याधुनिक तकनीकों तक पहुंच प्राप्त होगी, जिससे वे ऐसे एप्लिकेशन बना सकेंगे जो वास्तव में डिजिटल सामग्री के साथ हमारे इंटरैक्शन के तरीके को बदल सकते हैं।

इस अद्वितीय इवेंट का हिस्सा बनने का मौका न चूकें और मल्टीमॉडल AI के क्षेत्र में आगे आने वाले रोमांचक अवसरों का पता लगाएं। अभी रजिस्टर करें और 23Labs हैकथॉन में हमारे साथ जुड़ें ताकि आप अपने विचारों को वास्तविकता में बदल सकें!

ElevenLabs टीम के लेखों को देखें

Customer stories

Customer stories

Le Walk brings cities to life with ElevenLabs

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Agents Platform Stories

Voxpopme enhances AI Moderator with ElevenLabs Agents Platform

Supporting 10,000+ research conversations with natural, trustworthy voices

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें

ElevenLabs द्वारा संचालित एजेंट्स