
デモ
コード
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Natural Speech
Low-quality Audio
Accents
Domain Terms
- Lovable
- Veed model
- Synthesia
- Stripe
- Perplexity
- Twilio
100%
95%
90%
85%
Scribe v2
GPT 4o トランスクライブ
Gemini 2.5 Pro
Deepgram Nova 3
かつてない文字起こし精度
Scribe v2は業界最高水準の文字起こし精度を実現。難しい音声環境や多様なアクセントでも、きれいで編集しやすいテキストを出力します。
Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!
Natural Speech
Low-quality Audio
Accents
Domain Terms
あらゆるシーンに対応
ノイズ環境やBGM、強いアクセント、低音質でも正確に文字起こし。
タイミング、話者、非音声イベントを細かくコントロール
ElevenLabsのトランスクリプションAPIは、笑い声や感情、サウンドエフェクトを検出できます。キータームプロンプトを使って、専門用語を含む文字起こしをガイドできます。
音声・ビデオの文字起こし
MP3、MP4、WAV、MOVなど一般的な形式に対応。Scribeは最大10時間のファイルを非同期処理し、大量バッチにはWebhook通知も利用できます。
.webp&w=3840&q=95)
きれいで編集しやすい文字起こし
句読点や段落構成が整ったテキストをすぐに編集・公開・後処理に使えます。面倒な修正は不要です。
.webp&w=3840&q=95)
キータームプロンプト
最大100個の専門用語の認識精度を向上。製品名や技術用語、専門語彙も最初から正確に文字起こしします。

動的オーディオタグ付け
笑い声、拍手、音楽、バックグラウンドノイズなどの非音声イベントもキャプチャ。文字起こしには、単語だけでなく音声全体の文脈が含まれます。
スマート話者識別
最大48人まで自動で話者を識別・ラベル付け。誰が何を話したかを明確にし、読みやすい文字起こしにまとめます。
エンティティ検出
名前、日付、場所、組織など56種類のエンティティを自動で識別・タグ付けします。
90以上の言語と多様なアクセントに対応した文字起こし
アクセントや方言、録音環境を問わず高精度な文字起こしを実現。
languageCodeを変更して各言語をプレビュー
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
const elevenlabs = new ElevenLabsClient({
apiKey: "<your_api_key>"
});
const response = await fetch(
"https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });
const transcription = await elevenlabs
.speechToText.convert({
file: audioBlob,
modelId: "scribe_v2",
tagAudioEvents: true,
languageCode: , // 言語を設定
diarize: true
});
console.log(transcription);英語
中国語
スペイン語
フランス語
ポルトガル語
ドイツ語
日本語
イタリア語
ヒンディー語
英語プレビューをクリック
世界をリードする企業やブランドに導入
“Reelsの多言語吹き替えから、Horizonでの音楽やキャラクターボイス生成まで、ElevenLabsプラットフォームは世界中のクリエイターや企業が音声・音楽・サウンドを大規模に活用できる環境を提供しています。”
“Scribeの圧倒的な多言語精度のおかげで、Fieldyは日々の会話をすべて理解し、グローバル展開も簡単に。ElevenLabs Scribe導入後、ユーザー定着率が50%向上しました。”
“ElevenLabsのおかげで、強力なテキスト読み上げ機能をSDKにすぐ組み込めました。エージェントがユーザーの質問や状況にリアルタイムで表情豊かな声で応答できます。”

“TwilioはElevenLabsの生成AI音声技術をCPaaSに統合し、ConversationRelayを強化しました。この連携により、企業やデベロッパーはTwilio CPaaS上で、人間らしく表現力豊かでリアルタイムな会話型AI音声インタラクションを実現できます。ElevenLabsとしても、Twilioが最も表現力豊かな人間らしい音声でConversationRelayを強化するパートナーにElevenLabsを選んでくださったことを嬉しく思います。”
本番運用向けAPI

よくある質問
一括文字起こしAPIは、Scribeの一部で、大規模な音声・ビデオの文字起こしに特化したテキスト化システムです。デベロッパーや企業が99言語で長時間の録音を高精度に処理できます。
ScribeはMP4、MOV、MP3、WAVなど、すべての主要フォーマットに対応しています。
Scribe v2は99言語で最高クラスの精度を実現。難しい音声環境やアクセント、録音品質にも強く、従来モデルや他の主要APIよりも優れた結果を出します。
処理時間はファイルの長さや同時処理数によって異なります。Scribeはスループット重視で設計されており、大規模パイプラインも高い並列処理で、数秒〜数分でテキスト化できます。
はい。APIはスマート話者識別、単語・文字単位のタイムスタンプ、笑い声や音楽など非音声イベントのダイナミックタグ付けに対応しています。
はい。カスタム語彙を設定することで、製品名や技術用語、ブランド独自のフレーズもキータームプロンプトで正確に文字起こしできます。
ScribeはSOC2、GDPR、オプションでHIPAA準拠に対応。データは転送中・保存時ともに暗号化され、EUデータレジデンシーやゼロリテンションモードも有効化できます。
料金は利用量(音声入力1分ごと)に基づいて計算されます。大量処理向けのボリュームディスカウントやエンタープライズプランもご用意。ご要望は営業チームまでご相談ください。
APIキーを発行し、APIドキュメントを確認するだけですぐに文字起こしを始められます。


.webp&w=3840&q=80)




.webp&w=3840&q=80)

.webp&w=3840&q=80)