
Scribe v2 Realtimeのご紹介
本日、最も高精度かつ低遅延のスピーチtoテキストモデル「Scribe v2 Realtime」を発表します。150ms未満でライブ文字起こしを実現します。
Scribe v2 Realtime:ライブ文字起こしに最適な高精度モデル

Scribe v2 Realtimeは、低遅延の新たな基準を打ち立てます。スピーチtoテキスト.
ライブ利用を想定して設計—音声エージェント、会議アシスタント、リアルタイム字幕などに最適で、英語・フランス語・ドイツ語・イタリア語・スペイン語・ポルトガル語を含む90言語で150ms未満の文字起こしが可能です。

Scribe v2 Realtimeは、エージェント用途に特化して開発されています。バックグラウンドノイズや複雑な情報を含む500の難しいサンプルでも、他のすべてのモデルを大きく上回る性能を発揮します。
主な特長
- ネガティブレイテンシ: 次の単語や句読点の予測
- 自動言語検出: どの言語でも話せて、会話中に言語の切り替えも可能
- テキストコンディショニング:Scribe v2 Realtimeは前回のバッチ内容をもとに文字起こしを継続します。接続を再開する際などに便利です。
- 音声アクティビティ検出(VAD)
- 手動コミット:文字起こしの区切りを確定するタイミングを自由にコントロール可能
- 複数のオーディオフォーマット対応:PCM(48kHz)やμ-lawエンコーディングに対応
- エンタープライズ対応 SOC2、ISO 27001、PCI DSS L1、HIPAA、GDPR準拠。EUやインドでのデータレジデンシー選択や、機密性の高いワークロード向けゼロリテンションモードも利用可能
Scribe v2 Realtimeは、人間レベルの理解力をリアルタイムで提供し、自然な会話や即時応答をライブ環境で実現します。Scribe v2 Realtimeは、ヨーロッパおよびアジアの主要30言語で93.5%の精度を達成しています。
APIで開発
Scribe v2 Realtimeは本日よりElevenLabs APIでご利用いただけます。
ドキュメントを見る:https://elevenlabs.io/docs/cookbooks/speech-to-text/streaming

ElevenLabs AgentsでScribe v2 Realtimeを利用
Scribe v2 Realtime搭載の自然で人間らしいエージェントを展開できます。サポートや営業、プロダクト内体験向けの音声アシスタントをリアルタイムで理解・応答できる形で構築可能です。
詳しくはこちら:https://elevenlabs.io/agents

今すぐ開発を始める
API経由、またはElevenLabs Agents内からScribe v2 Realtimeをご利用いただけます。
ElevenLabsチームによる記事をもっと見る


Introducing Experiments in ElevenAgents
The most data-driven way to improve real-world agent performance.
