स्पीच टू टेक्स्ट API

ElevenLabs Scribe v2 के साथ स्पीच ट्रांसक्राइब करें

बड़ी मात्रा के लिए सबसे सटीक स्पीच टू टेक्स्ट। ज़ोर देने वाले शब्द और साउंड इफेक्ट्स पहचानें, और कीटर्म प्रॉम्प्टिंग से ट्रांसक्रिप्शन को गाइड करें।

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

बैच वर्कलोड्स के लिए सबसे सटीक स्पीच टू टेक्स्ट API

पॉडकास्ट, वीडियो, इंटरव्यू और दूसरी रिकॉर्डेड सामग्री के लिए कैप्शन, सबटाइटल्स और एडिटेबल ट्रांसक्रिप्ट्स बनाएं – ये सब API के ज़रिए इंडस्ट्री-लीडिंग सटीकता के साथ।

Scribe v2 इंडस्ट्री-लीडिंग ट्रांसक्रिप्शन सटीकता देता है, जो मुश्किल ऑडियो कंडीशन्स या अलग-अलग एक्सेंट्स में भी साफ, एडिटेबल टेक्स्ट देता है।

अभूतपूर्व ट्रांसक्रिप्शन सटीकता

Scribe v2 इंडस्ट्री-लीडिंग ट्रांसक्रिप्शन सटीकता देता है, जो मुश्किल ऑडियो कंडीशन्स या अलग-अलग एक्सेंट्स में भी साफ, एडिटेबल टेक्स्ट देता है।

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

हर स्थिति के लिए डिज़ाइन किया गया

शोर-शराबे, बैकग्राउंड म्यूजिक, भारी एक्सेंट्स और कम क्वालिटी ऑडियो में भी ट्रांसक्रिप्शन काम करता है।

टाइमिंग, स्पीकर्स और नॉन-स्पीच इवेंट्स पर बारीकी से कंट्रोल

ElevenLabs ट्रांसक्रिप्शन API हंसी, भावनाओं और साउंड इफेक्ट्स को पहचान सकती है। डोमेन-स्पेसिफिक शब्दों के लिए कीटर्म प्रॉम्प्टिंग का इस्तेमाल करें और ट्रांसक्रिप्शन को गाइड करें।

ऑडियो और वीडियो ट्रांसक्राइब करें

MP3, MP4, WAV, MOV और दूसरे आम फॉर्मेट्स अपलोड करें। Scribe 10 घंटे तक की फाइल्स को असिंक प्रोसेसिंग और बड़े बैच के लिए वेबहुक नोटिफिकेशन के साथ संभालता है।
Transcription Formats

साफ-सुथरे, एडिटेबल ट्रांसक्रिप्ट्स

सही पंक्चुएशन और पैराग्राफ स्ट्रक्चर के साथ टेक्स्ट पाएं, जो एडिटिंग, पब्लिशिंग या आगे की प्रोसेसिंग के लिए तैयार है। कोई सफाई की जरूरत नहीं।
Editable transcripts

कीटर्म प्रॉम्प्टिंग

100 तक डोमेन-स्पेसिफिक शब्दों की पहचान और सटीकता बढ़ाएं। प्रोडक्ट नाम, टेक्निकल शब्द और खास शब्दावली पहली बार में ही सही ट्रांसक्राइब होती है।
Keyterm Prompting

डायनामिक ऑडियो टैगिंग

हंसी, तालियां, म्यूजिक और बैकग्राउंड नॉइज़ जैसे नॉन-स्पीच इवेंट्स कैप्चर करें। ट्रांसक्रिप्ट्स में आपके ऑडियो का पूरा संदर्भ शामिल होता है, सिर्फ शब्द नहीं।

स्मार्ट स्पीकर डायराइजेशन

अपने आप 48 तक स्पीकर्स की पहचान और लेबलिंग करें। किसने क्या कहा, यह साफ-साफ दिखता है और ट्रांसक्रिप्ट्स पढ़ने में आसान होते हैं।

एंटिटी डिटेक्शन

अपने ट्रांसक्रिप्ट्स में नाम, तारीख, जगह और संगठन जैसी 56 एंटिटी टाइप्स की पहचान और टैगिंग अपने आप करें।

Black Mountain

स्क्राइब v2

सबसे ज्यादा सटीकता, बैच वर्कलोड्स के लिए डिज़ाइन किया गया।

  • >95% सटीकता
  • 90+ भाषाएं
  • नॉन-स्पीच इवेंट डिटेक्शन
  • एंटिटी डिटेक्शन
  • कीटर्म प्रॉम्प्टिंग
Mountains

Scribe v2 रियलटाइम

सबसे कम लेटेंसी, रियलटाइम वर्कलोड्स के लिए।

  • 150ms से कम लेटेंसी
  • 90+ भाषाएं
  • ट्रांसक्रिप्शन स्ट्रीमिंग
  • वॉइस एक्टिविटी डिटेक्शन
  • ऑटोमैटिक लैंग्वेज रिकग्निशन

90+ भाषाओं और अलग-अलग एक्सेंट्स में स्पीच ट्रांसक्राइब करें

एक्सेंट, डायलैक्ट और रिकॉर्डिंग कंडीशन्स में भी बेहतरीन सटीकता।

भाषा देखने के लिए languageCode बदलें

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // भाषा सेट करें diarize: true }); console.log(transcription);
Flag for en
अंग्रेज़ी
Flag for zh
चीनी
Flag for es
स्पेनिश
Flag for fr
फ्रेंच
Flag for pt
पुर्तगाली
Flag for de
जर्मन
Flag for ja
जापानी
Flag for it
इतालवी
Flag for hi
हिंदी
Flag for en
अंग्रेज़ीपूर्वावलोकन के लिए क्लिक करें

दुनिया की अग्रणी कंपनियों और ब्रांड्स को पावर दे रहे हैं

  • रील्स को लोकल भाषाओं में डब करने से लेकर Horizon में म्यूजिक और कैरेक्टर वॉइस जनरेट करने तक, ElevenLabs प्लेटफॉर्म ग्लोबल क्रिएटर्स, बिज़नेस और एंटरप्राइज़ को वॉइस, म्यूजिक और साउंड के साथ बड़े पैमाने पर काम करने की सुविधा देता है।
    Meta Color Logo
  • Scribe की इतनी सारी भाषाओं में बेजोड़ सटीकता से Fieldy हर रोज़ की बातचीत समझ सकता है और आसानी से अलग-अलग देशों में स्केल कर सकता है। ElevenLabs Scribe पर आने के बाद Fieldy ने यूज़र रिटेंशन 50% बढ़ा लिया है।
    Fieldy logo
  • ElevenLabs ने हमें अपने SDK में तेज़ी से पावरफुल टेक्स्ट टू स्पीच जोड़ना आसान बना दिया, जिससे एजेंट्स यूज़र के सवालों का या जो वो देख रहे हैं, उसका फीडबैक रियल टाइम में एक्सप्रेसिव वॉइस में दे सकते हैं।
    Stream Color Logo
  • Twilio ने ElevenLabs की जनरेटिव AI वॉइस टेक्नोलॉजी को अपने CPaaS में इंटीग्रेट किया है, जिससे ConversationRelay बेहतर हुआ है। इस इंटीग्रेशन से बिज़नेस और डेवलपर्स सीधे Twilio CPaaS प्लेटफॉर्म से इंसानों जैसी, एक्सप्रेसिव और रियल टाइम में जवाब देने वाली कन्वर्सेशनल AI वॉइस इंटरैक्शन बना सकते हैं। हम ElevenLabs में खुश हैं कि Twilio ने सबसे एक्सप्रेसिव, इंसानों जैसी वॉइस के लिए ElevenLabs को चुना।
    Twilio logo

प्रोडक्शन के लिए बनी APIs

Foreground

अक्सर पूछे जाने वाले प्रश्न

लेटेस्ट अपडेट्स

सबसे रियलिस्टिक ऑडियो AI प्लेटफॉर्म