Scribe v2 Realtimeとは？

Scribe v2 Realtimeは、ライブ文字起こし用に設計されたストリーミング型のSpeech to Textモデルです。30言語で150msの低遅延と93.5%の精度を実現し、FLEURSベンチマークでGemini Flash 2.5、GPT-4o Mini Transcribe、Deepgram Nova 3を上回ります。

Scribe v2 RealtimeとScribe v2の違いは？

Scribe v2 Realtimeはストリーミング用途に最適化され、150msの低遅延を実現しています。Scribe v2（バッチ）は録音音声向けで、話者識別や動的オーディオタグ付け、99言語対応などの追加機能があります。エージェントやライブ用途にはRealtime、後処理にはバッチをご利用ください。

Scribeのリアルタイム文字起こしの精度は？

Scribe v2 Realtimeは99言語で業界最高水準の精度を実現し、厳しい音声環境やアクセント、録音品質にも強いモデルです。従来モデルや他の主要APIよりも高いパフォーマンスを公的ベンチマークで示しています。

遅延はどれくらいですか？

アプリケーションやネットワーク遅延を除き、エンドツーエンドで約150msです。これはGPT-4o Mini Transcribe（500ms）の3倍高速です。

ネガティブレイテンシー／予測文字起こしとは？

Scribeは、次に話される単語や句読点を事前に予測します。無音を待たずに文字起こしを確定できるため、よりスムーズなリアルタイム出力が可能です。

90以上の言語に自動対応。会話中の言語切り替えも設定不要で処理します。

対応オーディオ形式は？

8kHz～48kHzのPCM音声とμ-lawエンコーディングに対応。電話、ブラウザ、スタジオ音源で利用できます。

Scribe v2 Realtimeは話者識別に対応していますか？

現在は未対応です。複数話者の識別には、最大48人まで対応するScribe v2（バッチ）をご利用ください。

同時処理の上限は？

ビジネスプランで30以上の同時ストリームに対応。エンタープライズプランではさらに上限が拡大します。大量利用の場合は営業までご相談ください。

Scribe v2 RealtimeはElevenAgentsで利用できますか？

はい。Scribe v2 Realtimeは標準でAgentsプラットフォームに統合されています。

取得済みのコンプライアンス認証は？

SOC2、ISO 27001、PCI DSSレベル1、HIPAA、GDPRに対応。エンタープライズ向けにゼロリテンションモードやEU/インドのデータレジデンシーも利用可能です。

リアルタイムスピーチtoテキストAPI

Scribe v2 Realtimeでライブ音声を文字起こし

APIキーを取得ドキュメントを探す

Scribe v2 Realtimeは、90以上の言語に対応し、150msの低遅延で最高精度のリアルタイムSTTです。API経由で利用できます。

デモ

コード

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

スピードと精度を両立

APIキーを取得ドキュメントを探す

超高速・高精度でライブ音声に最適。Scribe v2 Realtimeはリアルタイム用途に即時文字起こしを提供します。

最高精度のリアルタイム文字起こし

Scribe v2 Realtimeは、厳しい音声環境や多様なアクセントでも約150msの低遅延で業界最高水準の文字起こし精度を実現します。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

あらゆるシーンに対応

ノイズ環境やBGM、強いアクセント、低音質でも正確に文字起こし。

リアルタイム性能に特化した音声認識

Scribe v1を基盤にしたScribe v2 Realtimeは、アクセントや話し方、環境を問わず約150msの低遅延と高精度を実現。

Agentsや音声アプリ向けに最適化

Scribe v2 Realtimeは、会話型エージェントやミーティングアシスタント、音声アプリなど、スピードと精度が求められる開発者向けに設計されています。

返金してもらえますか？

もちろんです。注文番号を教えていただけますか？

注文番号はEL4543490です

ありがとうございます。注文の返金手続きを開始しました。

返金が完了しました

低遅延を実現する予測型文字起こし

Scribe v2 Realtimeは、予測型文字起こしで次に来る単語や句読点を先読みし、リアルタイムで高精度な文字起こしを可能にします。

Scribe

makes

uses

is

has

new

音声アクティビティ検出

音声の開始・終了を検出し、音声を正確に区切ることでスムーズかつ効率的なリアルタイム文字起こしを実現します。

手動コミットコントロール

デベロッパーが文字起こしの確定タイミングを自由にコントロール可能。カスタムストリーミングや精度調整に最適です。

複数のオーディオフォーマット対応

PCM（8～48kHz）やμ-lawエンコーディングに対応し、電話・ブラウザ・スタジオなど幅広い環境で利用できます。

あらゆる用途に最適化されたモデル

大量処理向けのScribe v2と、低遅延用途向けのScribe v2 Realtime

Scribe v2

バッチ処理向けに設計された最高精度モデル。

精度95％以上
90以上の言語対応
非音声イベント検出
エンティティ検出
キータームプロンプト

Scribe v2 リアルタイム

リアルタイム処理向けの最小遅延モデル。

150ms未満の遅延
90以上の言語対応
文字起こしストリーミング
音声アクティビティ検出
自動言語認識

90以上の言語と多様なアクセントの音声を文字起こし

アクセントや方言、録音環境を問わず高い精度を実現します。

languageCodeを変更して各言語をプレビュー

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // 言語を設定

  onSessionStarted: () =>
    console.log("Session started"),
  onPartialTranscript: (data) =>
    console.log("Partial:", data.text)
});

英語

中国語

スペイン語

フランス語

ポルトガル語

ドイツ語

日本語

イタリア語

ヒンディー語

英語プレビューをクリック

世界をリードする企業やブランドに導入

カスタマーストーリーを見る

“現地語でのReels吹き替えから、Horizonでの音楽やキャラクターボイス生成まで、ElevenLabsのプラットフォームは世界中のクリエイターや企業、エンタープライズが音声・音楽・サウンドを大規模に活用できる環境を提供します。”
“Scribeの圧倒的な多言語精度により、Fieldyは日々の会話をすべて理解し、世界中で簡単にスケールできるようになりました。ElevenLabs Scribe導入後、Fieldyのユーザー定着率は50％向上しています。”
“ElevenLabsのおかげで、強力なテキスト読み上げ機能をSDKに素早く組み込めました。Agentsはユーザーの質問や状況にリアルタイムで表情豊かな声で応答できます。”
“TwilioはElevenLabsの生成AI音声技術をCPaaSに統合し、ConversationRelayを強化しました。この連携により、企業やデベロッパーはTwilio CPaaSプラットフォーム上で、人間らしく表現力豊かな会話型AI音声インタラクションをリアルタイムで構築できます。ElevenLabsとしても、Twilioが最も表現力豊かで人間らしい音声でConversationRelayを強化するパートナーにElevenLabsを選んでくれたことを嬉しく思います。”

本番環境向けに構築されたAPI

ニーズに合わせた柔軟な料金プラン

スタートアップからエンタープライズチームまで拡張できる料金設計で、最高水準の精度と応答性を体験してください。

1時間あたり$0.28～

年間ビジネスプランの場合

ドキュメントを見る

リアルタイムスピーチtoテキストAPI

Scribe v2 Realtimeでライブ音声を文字起こし