音声認識API

ElevenLabs Scribe v2で音声を文字起こし

大量処理向けの最高精度テキスト化。強調やサウンドエフェクトも検出し、キータームプロンプトで文字起こしをガイドします。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

バッチ処理に最適な高精度テキスト化API

ポッドキャスト、ビデオ、インタビューなどの録音コンテンツに、API経由で業界最高水準の精度で字幕や編集可能なテキストを作成できます。

Scribe v2は業界最高水準の文字起こし精度を実現。難しい音声環境や多様なアクセントでも、きれいで編集しやすいテキストを出力します。

かつてない文字起こし精度

Scribe v2は業界最高水準の文字起こし精度を実現。難しい音声環境や多様なアクセントでも、きれいで編集しやすいテキストを出力します。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

あらゆるシーンに対応

ノイズ環境やBGM、強いアクセント、低音質でも正確に文字起こし。

タイミング、話者、非音声イベントを細かくコントロール

ElevenLabsのトランスクリプションAPIは、笑い声や感情、サウンドエフェクトを検出できます。キータームプロンプトを使って、専門用語を含む文字起こしをガイドできます。

音声・ビデオの文字起こし

MP3、MP4、WAV、MOVなど一般的な形式に対応。Scribeは最大10時間のファイルを非同期処理し、大量バッチにはWebhook通知も利用できます。
Transcription Formats

きれいで編集しやすい文字起こし

句読点や段落構成が整ったテキストをすぐに編集・公開・後処理に使えます。面倒な修正は不要です。
Editable transcripts

キータームプロンプト

最大100個の専門用語の認識精度を向上。製品名や技術用語、専門語彙も最初から正確に文字起こしします。
Keyterm Prompting

動的オーディオタグ付け

笑い声、拍手、音楽、バックグラウンドノイズなどの非音声イベントもキャプチャ。文字起こしには、単語だけでなく音声全体の文脈が含まれます。

スマート話者識別

最大48人まで自動で話者を識別・ラベル付け。誰が何を話したかを明確にし、読みやすい文字起こしにまとめます。

エンティティ検出

名前、日付、場所、組織など56種類のエンティティを自動で識別・タグ付けします。

Black Mountain

Scribe v2

バッチ処理向けに設計された最高精度。

  • 正確率95%以上
  • 90以上の言語対応
  • 非音声イベント検出
  • エンティティ検出
  • キータームプロンプト
Mountains

Scribe v2 リアルタイム

リアルタイム処理向けの最小遅延。

  • 150ms未満の遅延
  • 90以上の言語対応
  • 文字起こしストリーミング
  • 音声アクティビティ検出
  • 自動言語認識

90以上の言語と多様なアクセントに対応した文字起こし

アクセントや方言、録音環境を問わず高精度な文字起こしを実現。

languageCodeを変更して各言語をプレビュー

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // 言語を設定 diarize: true }); console.log(transcription);
Flag for en
英語
Flag for zh
中国語
Flag for es
スペイン語
Flag for fr
フランス語
Flag for pt
ポルトガル語
Flag for de
ドイツ語
Flag for ja
日本語
Flag for it
イタリア語
Flag for hi
ヒンディー語
Flag for en
英語プレビューをクリック

世界をリードする企業やブランドに導入

  • Reelsの多言語吹き替えから、Horizonでの音楽やキャラクターボイス生成まで、ElevenLabsプラットフォームは世界中のクリエイターや企業が音声・音楽・サウンドを大規模に活用できる環境を提供しています。
    Meta Color Logo
  • Scribeの圧倒的な多言語精度のおかげで、Fieldyは日々の会話をすべて理解し、グローバル展開も簡単に。ElevenLabs Scribe導入後、ユーザー定着率が50%向上しました。
    Fieldy logo
  • ElevenLabsのおかげで、強力なテキスト読み上げ機能をSDKにすぐ組み込めました。エージェントがユーザーの質問や状況にリアルタイムで表情豊かな声で応答できます。
    Stream Color Logo
  • TwilioはElevenLabsの生成AI音声技術をCPaaSに統合し、ConversationRelayを強化しました。この連携により、企業やデベロッパーはTwilio CPaaS上で、人間らしく表現力豊かでリアルタイムな会話型AI音声インタラクションを実現できます。ElevenLabsとしても、Twilioが最も表現力豊かな人間らしい音声でConversationRelayを強化するパートナーにElevenLabsを選んでくださったことを嬉しく思います。
    Twilio logo

本番運用向けAPI

Foreground

よくある質問

最新アップデート

最もリアルなオーディオAIプラットフォーム