कॉन्टेंट पर जाएं

Scribe v2 का परिचय

आज हम Scribe v2 पेश कर रहे हैं: अब तक का सबसे सटीक ट्रांसक्रिप्शन मॉडल, जो 90 से अधिक भाषाओं का समर्थन करता है।

Introducing Scribe v2

Scribe v2 बैच ट्रांसक्रिप्शन, सबटाइटलिंग और कैप्शनिंग के लिए बनाया गया है। यह Scribe v1 की स्थिरता और सटीकता को बेहतर बनाता है, लंबे ऑडियो, विराम, टोन में बदलाव और विस्तारित मौन को बेहतर तरीके से संभालता है।

Introducing Scribe v2

जहां Scribe v2 Realtime अल्ट्रा लो लेटेंसी और एजेंट उपयोग मामलों के लिए अनुकूलित है, वहीं Scribe v2 लंबे और जटिल रिकॉर्डिंग के लिए अनुकूलित है, विभिन्न वक्ताओं, उच्चारणों और प्रस्तुति शैलियों में सटीकता बनाए रखता है। परिणामस्वरूप, वास्तविक दुनिया की ऑडियो स्थितियों में लगातार विश्वसनीय ट्रांसक्रिप्ट्स मिलते हैं।


Scribe v2 उद्योग-मानक बेंचमार्क पर दर्ज सबसे कम शब्द त्रुटि दर प्राप्त करता है।

Scribe v2 FLEURS benchmark

संदर्भ-सचेत ट्रांसक्रिप्शन के लिए कीटर्म प्रॉम्प्टिंग

कीटर्म प्रॉम्प्टिंग मानक कस्टम शब्दावली से आगे बढ़कर ट्रांसक्रिप्ट के संदर्भ का उपयोग करता है। 100 शब्द या वाक्यांश तक चुनें, और Scribe v2 सटीक रूप से तय करेगा कि कब उन शब्दों को ट्रांसक्राइब करना है। यह तकनीकी डोमेन, ब्रांड नाम और उद्योग-विशिष्ट भाषा के लिए उपयुक्त है।

Scribe v2 keyterm prompting

सटीक टाइमस्टैम्प के साथ बिल्ट-इन एंटिटी डिटेक्शन

Scribe v2 संरचित ऑडियो विश्लेषण के लिए नेटिव एंटिटी डिटेक्शन शामिल करता है।

आप व्यक्तिगत पहचान योग्य जानकारी, स्वास्थ्य डेटा या भुगतान विवरण के 56 श्रेणियों तक चुन सकते हैं। Scribe v2 इन उदाहरणों और उनके सटीक टाइमस्टैम्प को आपके ट्रांसक्रिप्ट में स्वचालित रूप से पहचान लेगा, जिससे संवेदनशील जानकारी की समीक्षा, संपादन या प्रसंस्करण करना आसान हो जाता है।

API दस्तावेज़ में और जानें: https://elevenlabs.io/docs/developers/guides/cookbooks/speech-to-text/batch/entity-detection

स्वचालित बहुभाषी ट्रांसक्रिप्शन

Scribe v2 स्मार्ट बहुभाषी वर्कफ़्लोज़ को बॉक्स से बाहर समर्थन करता है।

आप एक ही फ़ाइल में कई भाषाओं वाला ऑडियो भेज सकते हैं। मॉडल प्रत्येक भाषा का स्वतः पता लगाता है और इसे सही ढंग से ट्रांसक्राइब करता है बिना मैन्युअल विभाजन या कॉन्फ़िगरेशन के।

उत्पादन वर्कफ़्लोज़ के लिए अतिरिक्त सुविधाएँ

Scribe v2 में एंटरप्राइज़ और डेवलपर उपयोग मामलों के लिए डिज़ाइन की गई सुविधाओं का एक सेट शामिल है:

  • स्पष्ट, सहज वक्ता लेबलिंग के लिए स्मार्ट स्पीकर डायराइजेशन
  • सटीक सबटाइटल संरेखण और इंटरैक्टिव अनुभवों के लिए सटीक शब्द-स्तरीय टाइमस्टैम्प
  • डायनामिक ऑडियो टैगिंग जो हंसी या कदमों जैसी गैर-वाक् घटनाओं का पता लगाता है
  • SOC 2, ISO 27001, PCI DSS L1, HIPAA, और GDPR अनुपालन, EU और भारत डेटा रेजिडेंसी, और शून्य प्रतिधारण मोड समर्थन के साथ एंटरप्राइज़ तत्परता

Scribe v2, अब ElevenLabs Studio में

Scribe v2 अब ElevenLabs Studio में अधिक सटीक सबटाइटल, कैप्शन और ट्रांसक्रिप्शन के लिए उपयोग किया जाता है, उन टीमों का समर्थन करता है जो मार्केटिंग, मीडिया, अनुसंधान, प्रशिक्षण और अनुपालन उपयोग मामलों में ऑडियो और वीडियो की बड़ी लाइब्रेरी प्रबंधित करती हैं।

Scribe v2 in Studio

अभी आजमाएं: https://elevenlabs.io/app/studio

API के साथ निर्माण करें

Scribe v2 के साथ, डेवलपर्स और एंटरप्राइज जटिल ऑडियो पाइपलाइनों को स्वचालित कर सकते हैं, वैश्विक सामग्री वर्कफ़्लोज़ में सटीकता में सुधार कर सकते हैं, और पूर्ण अनुपालन और डेटा रेजिडेंसी नियंत्रणों के साथ सुरक्षित रूप से स्केल कर सकते हैं।

Scribe v2 Keyterm prompting code snippet

Scribe v2 आज हमारे API और क्रिएटिव प्लेटफ़ॉर्म के माध्यम से उपलब्ध है।

अभी आजमाएं: https://elevenlabs.io/app/speech-to-text

दस्तावेज़ पढ़ें: https://elevenlabs.io/docs/capabilities/speech-to-text

यहां साइन अप करें: https://elevenlabs.io/speech-to-text

ElevenLabs टीम के लेखों को देखें

रिसर्च
II Turbo v2.5 logo with gray flowing wave design on a dark background.

पेश है Eleven Turbo v2.5

32 भाषाओं में उच्च गुणवत्ता, कम विलंबता टेक्स्ट टू स्पीच

रिसर्च
II Multilingual V2 with instructions to transform your voice into another character and control its emotion and delivery.

ElevenLabs बीटा से बाहर आ गया है और Eleven Multilingual v2 जारी किया है - लगभग 30 भाषाओं के लिए एक आधारभूत AI स्पीच मॉडल

इस प्रगति से दुनिया भर की मीडिया कंपनियों, गेम डेवलपर्स, प्रकाशकों और स्वतंत्र रचनाकारों को अपनी विषय-वस्तु की पहुंच में नाटकीय रूप से सुधार करने में मदद मिलेगी।

रिसर्च
Multilingual II V1 text with instructions in multiple languages about transforming voice into another character and controlling emotions.

Eleven Multilingual v1: हमारा नया स्पीच सिंथेसिस मॉडल

हमारा वर्तमान डीप लर्निंग दृष्टिकोण अधिक डेटा, अधिक कंप्यूटेशनल पावर, और नई तकनीकों का उपयोग करता है ताकि हमारा सबसे उन्नत स्पीच सिंथेसिस मॉडल प्रदान किया जा सके

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं