
Eleven Music: new tools for exploring, editing and producing music with AI
रियलटाइम स्पीच टू टेक्स्ट
Scribe v2 Realtime सबसे सटीक रियल-टाइम ट्रांसक्रिप्शन मॉडल है, जिसमें 90+ भाषाओं में 150ms लेटेंसी है। API के माध्यम से उपलब्ध।
अल्ट्रा-फास्ट, अल्ट्रा-सटीक, और लाइव स्पीच के लिए निर्मित। Scribe v2 Realtime एजेंट्स, मीटिंग्स और कन्वर्सेशनल AI के लिए तुरंत ट्रांसक्रिप्शन प्रदान करता है।
विविध वैश्विक डेटा पर प्रशिक्षित और प्राकृतिक स्पीच के लिए फाइन-ट्यून किया गया, Scribe प्रमुख भाषाओं और उच्चारणों में उद्योग-श्रेष्ठ शब्द त्रुटि दर प्राप्त करता है।
ऑडियो स्ट्रीम करें और ~150 ms में ट्रांसक्रिप्शन प्राप्त करें, लाइव एजेंट्स, मीटिंग्स और कन्वर्सेशनल AI के लिए रियल-टाइम समझ को सक्षम करें।

Scribe v2 Realtime डेवलपर्स के लिए विशेष रूप से निर्मित है जो कन्वर्सेशनल एजेंट्स, मीटिंग असिस्टेंट्स और वॉइस एप्लिकेशन्स बना रहे हैं जहाँ गति और सटीकता महत्वपूर्ण हैं।
Scribe v2 Realtime हर जगह लगातार समझ सुनिश्चित करता है, 90 भाषाओं में असाधारण सटीकता प्रदान करता है, विविध उच्चारण, बोलियाँ और ध्वनिक परिस्थितियों को आसानी से संभालता है।
टेलीफोनी, ब्राउज़र और स्टूडियो सेटअप्स में संगतता के लिए PCM (8–48 kHz) और μ-law एन्कोडिंग का समर्थन करता है।
जब स्पीच शुरू और बंद होती है, तब पहचानता है, ऑडियो को सटीक रूप से सेगमेंट करता है ताकि रियल-टाइम ट्रांसक्रिप्शन सुचारू और कुशल हो।
डेवलपर्स को यह नियंत्रित करने की अनुमति देता है कि ट्रांसक्रिप्ट्स को कब अंतिम रूप दिया जाए – कस्टम स्ट्रीमिंग और सटीकता के लिए आदर्श।





Scribe v1 की नींव पर निर्मित, Scribe v2 Realtime लगभग 150 ms की लेटेंसी के साथ विभिन्न उच्चारण, टोन और वातावरण में अद्वितीय सटीकता प्रदान करता है।
Scribe v2 Realtime संभावित अगले शब्दों और विराम चिह्नों की भविष्यवाणी करने के लिए प्रेडिक्टिव ट्रांसक्रिप्शन का उपयोग करता है – रियल-टाइम सटीकता सक्षम करता है।
तकनीकी भाषा, दवाओं और सही नामों सहित जटिल शब्दावली के लिए बिल्ट-इन समर्थन।
ऑडियो को निरंतर टुकड़ों में भेजें और तुरंत लाइव ट्रांसक्रिप्शन प्राप्त करें – कोई बफरिंग नहीं, बस रियल-टाइम समझ।
Scribe v2 Realtime ट्रांसक्रिप्शन को निर्बाध रूप से जारी रखता है, भले ही कनेक्शन रीसेट हो।

Natural Speech
Filler words, pauses and emotional cues

Low-quality audio
Background noise or low-bandwidth audio

Accents
Diverse accents and pronunciations

Domain terms
Acronyms, brands, financial or medical terms
तुरंत, कम लेटेंसी ट्रांसक्रिप्शन के साथ रियल-टाइम वॉइस इंटरैक्शन और कन्वर्सेशनल AI को पावर दें। Scribe v2 Realtime एजेंट्स को पहले से कहीं तेज़ सुनने, समझने और प्रतिक्रिया देने में सक्षम बनाता है।

अपने प्रोडक्ट में अल्ट्रा-फास्ट स्पीच-टू-टेक्स्ट को सीधे एक साधारण WebSocket या REST API के साथ इंटीग्रेट करें। ऑडियो को जैसे ही होता है स्ट्रीम करें और 100 ms से कम समय में सटीक टेक्स्ट प्राप्त करें।

स्टार्टअप्स से एंटरप्राइज टीम्स तक स्केल करने के लिए डिज़ाइन की गई कीमतों के साथ सर्वश्रेष्ठ-इन-क्लास सटीकता और प्रतिक्रियाशीलता का अनुभव करें।
$0.28 प्रति घंटा और कम
वार्षिक बिजनेस प्लान्स पर

ElevenLabs द्वारा संचालित एजेंट्स