ElevenLabs一括文字起こしAPIとは？

一括文字起こしAPIは、Scribeの一部で、大規模な音声・ビデオの文字起こしに特化したテキスト化システムです。デベロッパーや企業が99言語で長時間の録音を高精度に処理できます。

どんな音声・ビデオファイルをアップロードできますか？

ScribeはMP4、MOV、MP3、WAVなど、すべての主要フォーマットに対応しています。

Scribeの一括文字起こし精度はどれくらいですか？

Scribe v2は99言語で最高クラスの精度を実現。難しい音声環境やアクセント、録音品質にも強く、従来モデルや他の主要APIよりも優れた結果を出します。

大きなファイルの文字起こしにかかる時間は？

処理時間はファイルの長さや同時処理数によって異なります。Scribeはスループット重視で設計されており、大規模パイプラインも高い並列処理で、数秒〜数分でテキスト化できます。

Scribeは話者分離やタイムスタンプに対応していますか？

はい。APIはスマート話者識別、単語・文字単位のタイムスタンプ、笑い声や音楽など非音声イベントのダイナミックタグ付けに対応しています。

専門用語に合わせてモデルをカスタマイズできますか？

はい。カスタム語彙を設定することで、製品名や技術用語、ブランド独自のフレーズもキータームプロンプトで正確に文字起こしできます。

一括文字起こしAPIは安全でコンプライアンス対応ですか？

ScribeはSOC2、GDPR、オプションでHIPAA準拠に対応。データは転送中・保存時ともに暗号化され、EUデータレジデンシーやゼロリテンションモードも有効化できます。

一括文字起こしAPIの料金体系は？

料金は利用量（音声入力1分ごと）に基づいて計算されます。大量処理向けのボリュームディスカウントやエンタープライズプランもご用意。ご要望は営業チームまでご相談ください。

どうやって始めればいいですか？

APIキーを発行し、APIドキュメントを確認するだけですぐに文字起こしを始められます。

音声認識API

ElevenLabs Scribe v2で音声を文字起こし

APIキーを取得ドキュメントを探す

大量処理向けの最高精度STT。強調やサウンドエフェクトを検出し、キーターム指定で文字起こしをガイドします。

デモ

コード

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

バッチ処理に最適な高精度テキスト化API

APIキーを取得ドキュメントを探す

ポッドキャスト、ビデオ、インタビューなどの録音コンテンツに、API経由で業界最高水準の精度で字幕や編集可能なテキストを作成できます。

かつてない文字起こし精度

Scribe v2は業界最高水準の文字起こし精度を実現。難しい音声環境や多様なアクセントでも、きれいで編集しやすいテキストを出力します。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

あらゆるシーンに対応

ノイズ環境やBGM、強いアクセント、低音質でも正確に文字起こし。

タイミング、話者、非音声イベントを細かくコントロール

ElevenLabsのトランスクリプションAPIは、笑い声や感情、サウンドエフェクトを検出できます。キータームプロンプトを使って、専門用語を含む文字起こしをガイドできます。

音声・ビデオの文字起こし

MP3、MP4、WAV、MOVなど一般的な形式に対応。Scribeは最大10時間のファイルを非同期処理し、大量バッチにはWebhook通知も利用できます。

きれいで編集しやすい文字起こし

句読点や段落構成が整ったテキストをすぐに編集・公開・後処理に使えます。面倒な修正は不要です。

キータームプロンプト

最大100個の専門用語の認識精度を向上。製品名や技術用語、専門語彙も最初から正確に文字起こしします。

動的オーディオタグ付け

笑い声、拍手、音楽、バックグラウンドノイズなどの非音声イベントもキャプチャ。文字起こしには、単語だけでなく音声全体の文脈が含まれます。

スマート話者識別

最大48人まで自動で話者を識別・ラベル付け。誰が何を話したかを明確にし、読みやすい文字起こしにまとめます。

エンティティ検出

名前、日付、場所、組織など56種類のエンティティを自動で識別・タグ付けします。

Scribe v2

バッチ処理向けに設計された最高精度。

正確率95％以上
90以上の言語対応
非音声イベント検出
エンティティ検出
キータームプロンプト

詳しく見る

Scribe v2 リアルタイム

リアルタイム処理向けの最小遅延。

150ms未満の遅延
90以上の言語対応
文字起こしストリーミング
音声アクティビティ検出
自動言語認識

詳しく見る

90以上の言語と多様なアクセントに対応した文字起こし

アクセントや方言、録音環境を問わず高精度な文字起こしを実現。

languageCodeを変更して各言語をプレビュー

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // 言語を設定
	  diarize: true
	});

console.log(transcription);

英語

中国語

スペイン語

フランス語

ポルトガル語

ドイツ語

日本語

イタリア語

ヒンディー語

英語プレビューをクリック

世界をリードする企業やブランドに導入

カスタマーストーリーを見る

“Reelsの多言語吹き替えから、Horizonでの音楽やキャラクターボイス生成まで、ElevenLabsプラットフォームは世界中のクリエイターや企業が音声・音楽・サウンドを大規模に活用できる環境を提供しています。”
“Scribeの圧倒的な多言語精度のおかげで、Fieldyは日々の会話をすべて理解し、グローバル展開も簡単に。ElevenLabs Scribe導入後、ユーザー定着率が50％向上しました。”
“ElevenLabsのおかげで、強力なテキスト読み上げ機能をSDKにすぐ組み込めました。エージェントがユーザーの質問や状況にリアルタイムで表情豊かな声で応答できます。”
“TwilioはElevenLabsの生成AI音声技術をCPaaSに統合し、ConversationRelayを強化しました。この連携により、企業やデベロッパーはTwilio CPaaS上で、人間らしく表現力豊かでリアルタイムな会話型AI音声インタラクションを実現できます。ElevenLabsとしても、Twilioが最も表現力豊かな人間らしい音声でConversationRelayを強化するパートナーにElevenLabsを選んでくださったことを嬉しく思います。”