リアルタイムスピーチtoテキストAPI

Scribe v2 Realtimeでライブ音声を文字起こし

Scribe v2 Realtimeは、90以上の言語で150msの低遅延を実現する最も高精度なリアルタイム文字起こしモデルです。API経由で利用可能。

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

スピードと精度を両立

超高速・高精度でライブ音声に最適。Scribe v2 Realtimeはリアルタイム用途に即時文字起こしを提供します。

Scribe v2 Realtimeは、厳しい音声環境や多様なアクセントでも約150msの低遅延で業界最高水準の文字起こし精度を実現します。

最高精度のリアルタイム文字起こし

Scribe v2 Realtimeは、厳しい音声環境や多様なアクセントでも約150msの低遅延で業界最高水準の文字起こし精度を実現します。

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

あらゆるシーンに対応

ノイズ環境やBGM、強いアクセント、低音質でも正確に文字起こし。

リアルタイム性能に特化した音声認識

Scribe v1を基盤にしたScribe v2 Realtimeは、アクセントや話し方、環境を問わず約150msの低遅延と高精度を実現。

返金してもらえますか?
もちろんです。注文番号を教えていただけますか?
注文番号はEL4543490です
ありがとうございます。 注文の返金手続きを開始しました。
返金が完了しました

Agentsや音声アプリ向けに最適化

Scribe v2 Realtimeは、会話型エージェントやミーティングアシスタント、音声アプリなど、スピードと精度が求められる開発者向けに設計されています。

Scribe
makes
uses
is
has
new

低遅延を実現する予測型文字起こし

Scribe v2 Realtimeは、予測型文字起こしで次に来る単語や句読点を先読みし、リアルタイムで高精度な文字起こしを可能にします。

音声アクティビティ検出

音声の開始・終了を検出し、音声を正確に区切ることでスムーズかつ効率的なリアルタイム文字起こしを実現します。

手動コミットコントロール

デベロッパーが文字起こしの確定タイミングを自由にコントロール可能。カスタムストリーミングや精度調整に最適です。

複数のオーディオフォーマット対応

PCM(8~48kHz)やμ-lawエンコーディングに対応し、電話・ブラウザ・スタジオなど幅広い環境で利用できます。

あらゆる用途に最適化されたモデル

大量処理向けのScribe v2と、低遅延用途向けのScribe v2 Realtime

Black Mountain

Scribe v2

バッチ処理向けに設計された最高精度モデル。

  • 精度95%以上
  • 90以上の言語対応
  • 非音声イベント検出
  • エンティティ検出
  • キータームプロンプト
Mountains

Scribe v2 リアルタイム

リアルタイム処理向けの最小遅延モデル。

  • 150ms未満の遅延
  • 90以上の言語対応
  • 文字起こしストリーミング
  • 音声アクティビティ検出
  • 自動言語認識

90以上の言語と多様なアクセントの音声を文字起こし

アクセントや方言、録音環境を問わず高い精度を実現します。

languageCodeを変更して各言語をプレビュー

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // 言語を設定 onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
英語
Flag for zh
中国語
Flag for es
スペイン語
Flag for fr
フランス語
Flag for pt
ポルトガル語
Flag for de
ドイツ語
Flag for ja
日本語
Flag for it
イタリア語
Flag for hi
ヒンディー語
Flag for en
英語プレビューをクリック

世界をリードする企業やブランドに導入

  • 現地語でのReels吹き替えから、Horizonでの音楽やキャラクターボイス生成まで、ElevenLabsのプラットフォームは世界中のクリエイターや企業、エンタープライズが音声・音楽・サウンドを大規模に活用できる環境を提供します。
    Meta Color Logo
  • Scribeの圧倒的な多言語精度により、Fieldyは日々の会話をすべて理解し、世界中で簡単にスケールできるようになりました。ElevenLabs Scribe導入後、Fieldyのユーザー定着率は50%向上しています。
    Fieldy logo
  • ElevenLabsのおかげで、強力なテキスト読み上げ機能をSDKに素早く組み込めました。Agentsはユーザーの質問や状況にリアルタイムで表情豊かな声で応答できます。
    Stream Color Logo
  • TwilioはElevenLabsの生成AI音声技術をCPaaSに統合し、ConversationRelayを強化しました。この連携により、企業やデベロッパーはTwilio CPaaSプラットフォーム上で、人間らしく表現力豊かな会話型AI音声インタラクションをリアルタイムで構築できます。ElevenLabsとしても、Twilioが最も表現力豊かで人間らしい音声でConversationRelayを強化するパートナーにElevenLabsを選んでくれたことを嬉しく思います。
    Twilio logo

本番環境向けに構築されたAPI

Foreground

ニーズに合わせた柔軟な料金プラン

スタートアップからエンタープライズチームまで拡張できる料金設計で、最高水準の精度と応答性を体験してください。

1時間あたり$0.28~

年間ビジネスプランの場合

UI Screenshot

よくある質問

最新アップデート

最もリアルなオーディオAIプラットフォーム