Scribe की तुलना OpenAI के 4o स्पीच टू टेक्स्ट मॉडल से

लॉन्च के एक महीने बाद, Scribe ने साबित कर दिया है कि यह उद्योग का सबसे उन्नत स्पीच टू टेक्स्ट मॉडल है।

Introducing iScribe v1, the world's most accurate speech-to-text model.

सिर्फ एक महीने के बाद, हमारा स्पीच टू टेक्स्ट मॉडल Scribe ने अपनी इंडस्ट्री लीडिंग सटीकता के साथ हजारों कंपनियों को आकर्षित किया है। मीडिया कैप्शन से लेकर कॉल सेंटर और मेडिकल ट्रांसक्रिप्शन तक, Scribe डेवलपर्स के लिए पसंदीदा मॉडल बन गया है।

इंडस्ट्री लीडिंग प्रदर्शन

कई थर्ड पार्टी विश्लेषण ने हमारे अपने सटीकता बेंचमार्क की पुष्टि की है, जिसमें Scribe ने सभी मॉडलों को पीछे छोड़ दिया है, जिसमें OpenAI के नए 4o ट्रांसक्राइब मॉडल भी शामिल हैं। उदाहरण के लिए, कृत्रिम विश्लेषण के बेंचमार्क से पता चलता है कि Scribe ने औसतन वर्ड एरर रेट पर 4o और 4o मिनी ट्रांसक्रिप्ट दोनों को पीछे छोड़ दिया है:

  • 4o ट्रांसक्राइब Scribe से 16% अधिक गलतियाँ करता है
  • 4o मिनी ट्रांसक्राइब Scribe से 71% अधिक गलतियाँ करता है

चार्ट डालें

Scribe ने OpenAI के अपने लॉन्च बेंचमार्क में 4o और 4o मिनी ट्रांसक्रिप्शन मॉडल्स के साथ 15 में से 11 भाषाओं में बेहतर प्रदर्शन किया है। जापानी और हिंदी को देखें, Scribe दोनों OpenAI के 4o मॉडल्स से काफी बेहतर है, OpenAI के अपने बेंचमार्क में:

  • जापानी में OpenAI का 4o स्पीच टू टेक्स्ट मॉडल Scribe से 55% अधिक गलतियाँ करता है, और उनके 4o मिनी मॉडल के लिए 105% अधिक गलतियाँ
    • OpenAI का 4o स्पीच टू टेक्स्ट मॉडल Scribe से 55% अधिक गलतियाँ करता है
    • उनका 4o मिनी मॉडल Scribe से 105% अधिक गलतियाँ करता है
  • हिंदी:
    • OpenAI का 4o स्पीच टू टेक्स्ट मॉडल Scribe से 18% अधिक गलतियाँ करता है
    • उनका 4o मिनी मॉडल Scribe से 37% अधिक गलतियाँ करता है

हमने Scribe के साथ ऐसे निर्णय लिए हैं जो ग्राहकों के लिए अधिक उपयोगी हों, भले ही इससे इंडस्ट्री बेंचमार्क में असंगतियाँ उत्पन्न हों। उदाहरण के लिए:

  1. Scribe संख्याओं को “एक” “दो” “तीन” के रूप में कैप्चर करता है जो ट्रांसक्रिप्ट्स के लिए अधिक उपयोगी है, जबकि FLEURS बेंचमार्क वास्तविक संख्याओं “1”, “2”, “3” का उपयोग करता है, जिससे गलतियाँ उत्पन्न होती हैं
  2. Scribe “हम” “हा” “हे” जैसे शब्दों का पता लगाने में सक्षम है, जो ग्राहकों को अधिक संदर्भ प्राप्त करने के लिए एक उपयोगी विशेषता है, लेकिन ये शब्द बेंचमार्क का हिस्सा नहीं हैं, फिर से कृत्रिम गलतियाँ उत्पन्न होती हैं

यही कारण है कि प्रदर्शन के बारे में सोचते समय अंतिम परिणामों को देखना सहायक होता है। उदाहरण के लिए, अंग्रेजी में, OpenAI का 4o स्पीच टू टेक्स्ट मॉडल बेंचमार्क में Scribe के समान प्रदर्शन करता है। हालांकि, अंग्रेजी ट्रांसक्रिप्ट्स की तुलना वास्तव में Scribe की उन्नत क्षमताओं को उजागर करती है।House of Dragons ट्रेलर के विश्लेषण में, Scribe कोई गलती नहीं करता, साउंड इफेक्ट्स को पकड़ता है और उन्हें सही ढंग से लेबल करता है, एक इमर्सिव ट्रांसक्रिप्ट बनाता है।

पत्रकार मेसी के यादगार खेलों पर टिप्पणी करते हैं

 / 

एक

ElevenLabs का Scribe (ट्रांसक्रिप्ट बनाने में लिया गया समय: 4.66s)मेसी। मेसी! क्या? क्या तुम मजाक कर रहे हो? एक कला का काम। यह आदमी पूरी तरह से शुद्ध फुटबॉल जादू का मुख्य स्रोत है। अल्बा अंदर। यह मेसी! ओह, नहीं! फिर से, दवा वाला आदमी आता है और अपना जलता हुआ भाला डुबोता है

क्या मैं माननीय सज्जन से पूछ सकता हूँ

OpenAI का 4o (ट्रांसक्रिप्ट बनाने में लिया गया समय: 5.01s)मेसी! क्या तुम मजाक कर रहे हो?! यह आदमी पूरी तरह से पागल है, जैसे शुद्ध फुटबॉल जादू! अल्बा अंदर, यह मेसी! फिर से! दवा वाला आदमी आता है और

क्या मैं माननीय सज्जन से पूछ सकता हूँयूके संसदीय सुनवाईमुझे खेद है

स्टटरिंग ट्रांसक्रिप्शन के साथ सुलभता

AI में प्रत्येक प्रगति के साथ, एक अक्सर अनदेखा समूह अत्यधिक लाभान्वित होता है: हकलाने वाले लोग। हकलाना, एक आनुवंशिक भाषण विकार जो ~1% आबादी को प्रभावित करता है, स्वचालित भाषण पहचान (ASR) प्रणालियों के लिए अद्वितीय चुनौतियाँ प्रस्तुत करता है। एक अध्ययन में जहां परीक्षण नमूनों में लगभग हर चार शब्दों में हकलाना हुआ, Scribe का प्रदर्शन विशेष रूप से प्रभावशाली है, औसतन 98.7% सटीकता के साथ। यह फिर से साबित करता है कि Scribe उद्योग का नेतृत्व करता है, और सभी एंटरप्राइज आवश्यकताओं के लिए एक मॉडल प्रदान करता है। (ट्रांसक्रिप्ट बनाने में लिया गया समय: 4.66 सेकंड)सुनो, सुनो। (भीड़ की गड़गड़ाहट)मुझे खेद है, यह मेरे एंटिपोडियन पृष्ठभूमि से कुछ करना होगा। क्या वह कृपया प्रश्न को दोहरा सकते हैं, क्योंकि मैंने इसे नहीं समझा?(भीड़ हंस रही है) वाह। ओह, वाह। आज बहुत लोकप्रिय। उम, मैं- मैं कह रहा था कि- कि कई संसदीय सहयोगी जिनके पास विकलांगता है, उन्हें संपत्ति के कुछ हिस्सों के आसपास घूमने में काफी कठिनाई होती है। चूंकि हम यह नवीनीकरण कार्य कर रहे हैं, यह सुनिश्चित करने के लिए क्या किया जा सकता है कि जिनके पास विकलांगता है वे अधिक स्वतंत्र रूप से घूम सकें और स्थान सुलभ हो?श्री पॉल। (भीड़ हंस रही है) मुझे वास्तव में खेद है। कृपया क्या वह इसे बहुत धीरे-धीरे एंटिपोडियन अंग्रेजी में कर सकते हैं? धन्यवाद। कोई भी पुराना उत्तर दे दो। मुझे लगता है कि उत्तर... मुझे लगता है कि उत्तर मदद कर सकता है अगर आप लिखित में जवाब दे सकते हैंजब आप पढ़ेंगे, श्री स्पीकर। ठीक है, क्रिस एलमोर। (हंसते हुए)धन्यवाद, श्री डिप्टी स्पीकर, मैं इसे पहली बार में आजमाऊंगा।(भीड़ की गड़गड़ाहट) ओह, नहीं। तुम वेल्श हो। क्या मैं- क्या मैं- क्या मैं- क्योंकि मैं वेल्श हूँ, तो भगवान उसकी मदद करें।

एंटरप्राइज के लिए समाधान

Scribe का प्रदर्शन अपने फीचर सेट के साथ जीवंत होता है जो एंटरप्राइज ग्राहकों की आवश्यकताओं को हल करने के लिए तैयार किया गया है। (ट्रांसक्रिप्ट बनाने में लिया गया समय: 5.01 सेकंड)मुझे खेद है, यह मेरे एंटिपोडियन पृष्ठभूमि से कुछ करना होगा। क्या वह कृपया प्रश्न को दोहरा सकते हैं, क्योंकि मैंने इसे नहीं समझा?खैर, आज बहुत लोकप्रिय। मैं देख रहा हूँ कि कई संसदीय सहयोगी जिनके पास विकलांगता है, उन्हें संपत्ति के कुछ हिस्सों के आसपास घूमने में काफी कठिनाई होती है। चूंकि हम यह नवीनीकरण कार्य कर रहे हैं, यह सुनिश्चित करने के लिए क्या किया जा सकता है कि जिनके पास विकलांगता है वे अधिक स्वतंत्र रूप से घूम सकें और स्थान सुलभ हो?मुझे वास्तव में खेद है।कृपया, क्या आप इसे बहुत धीरे-धीरे एंटिपोडियन अंग्रेजी में कर सकते हैं?मुझे लगता है कि उत्तर मदद कर सकता है अगर आप लिखित में जवाब दे सकते हैंजब आप इसे पढ़ेंगे। धन्यवाद, मिस्टर डिप्टी स्पीकर। मैं इसे पहली बार में आजमाऊंगा। क्योंकि मैं वेल्श हूँ, तो भगवान उसकी मदद करें।

Scribe का प्रदर्शन अपने फीचर सेट के साथ जीवन में आता है जो एंटरप्राइज ग्राहकों की आवश्यकताओं को हल करने के लिए तैयार किया गया है।

आज ही शुरू करें

  • आज ही Scribe आजमाएं
  • स्मार्ट स्पीकर डायराइजेशन आपको मीटिंग्स, सेल्स पिच या ग्राहक समर्थन कॉल्स को सारांशित करने की अनुमति देता है ताकि आपकी टीम के बीच सबसे सटीक और क्रियाशील अंतर्दृष्टि प्राप्त हो सके और सहयोग और प्रशिक्षण बढ़ सके
  • हमारी सेल्स टीम से संपर्क करें
  • 99 भाषाओं के लिए समर्थन, एकल एकीकरण के साथ दुनिया तक आसानी से पहुंचें
  • ये सभी फीचर्स हमारे API में उपलब्ध हैं, जिससे डेवलपर्स बिना किसी समझौते के निर्माण कर सकते हैं
  • Scribe का एक रियल टाइम स्ट्रीमिंग संस्करण, साथ ही एक लो लेटेंसी संस्करण, आने वाले हफ्तों में भी योजना बनाई गई है। यह Scribe को अब तक का सबसे उन्नत स्पीच टू टेक्स्ट मॉडल बना देगा, जो आपके सभी व्यावसायिक उपयोग मामलों को कवर करेगा, और आपको गति, मूल्य और सटीकता के बीच अधिक विकल्प और लचीलापन देगा।

उद्यम के लिए समाधान

Scribe का प्रदर्शन अपने फीचर सेट के साथ जीवन में आता है जो उद्यम ग्राहकों की जरूरतों को हल करने के लिए तैयार किया गया है।हमारी सेल्स टीम से संपर्क करें, हम आपके व्यवसाय की मदद कैसे कर सकते हैं, यह दिखाने के लिए एक डेमो सेटअप करने में खुशी होगी।

ElevenLabs टीम के लेखों को देखें

Customer stories
burda-verlag

Burda - Strategic Partnership for Audio AI and Voice Agent Solutions

BurdaVerlag is partnering with ElevenLabs to integrate its advanced AI audio and voice agent technology into the AISSIST platform. This will provide powerful tools for text-to-speech, transcription, and more, streamlining workflows for media and publishing professionals.

Product
ElevenLabs Agent Testing

Introducing Tests for ElevenLabs Agents

Ensure reliability and compliance with ElevenLabs Agents Testing. Run structured simulations for tool calls, human transfers, workflows, and guardrails. Integrate into CI/CD and ship agents with confidence.

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

मुफ़्त में आज़माएं

क्या आपके पास पहले से अकाउंट है? लॉग इन करें