コンテンツにスキップ

Scribe v2 Realtimeのご紹介

公開日

聴くこの記事を聴く

Scribe v2 Realtime:ライブ文字起こしに最適な高精度モデル

Scribe v2 Realtime

Scribe v2 Realtimeは低遅延の新しい基準を打ち立てるスピーチtoテキストです。

ライブ利用を想定した設計—音声エージェント、ミーティングアシスタント、リアルタイム字幕などに最適で、英語・フランス語・ドイツ語・イタリア語・スペイン語・ポルトガル語を含む90言語で150ミリ秒未満の文字起こしが可能です。

Scribe v2 Realtime benchmark

Scribe v2 Realtimeはエージェント用途向けに特化して開発されています。バックグラウンドノイズや複雑な情報を含む500の難易度の高いサンプルでも、他のすべてのモデルを大きく上回る性能を発揮します。

主な特長

  • ネガティブレイテンシ: 次の単語や句読点も予測
  • 自動言語検出: どの言語でも話せて、会話中に言語の切り替えも可能
  • テキストコンディショニング:Scribe v2 Realtimeは前回のバッチ内容をもとに文字起こしを継続。接続を再開する際にも便利です
  • 音声アクティビティ検出(VAD)
  • 手動コミット:文字起こしの確定タイミングを自由にコントロール可能
  • 複数のオーディオフォーマット対応:PCM(48kHz)やμ-lawエンコーディングに対応
  • エンタープライズ対応 SOC2、ISO 27001、PCI DSS L1、HIPAA、GDPR準拠。EUやインドでのデータ保管オプション、機密用途向けゼロ保持モードも利用可能

Scribe v2 Realtimeはリアルタイムで人間レベルの理解力を発揮し、自然な会話や即時応答を実現します。ヨーロッパ・アジアの主要30言語で93.5%の精度を達成しています。

APIで開発する

Scribe v2 Realtimeは本日よりElevenLabs APIでご利用いただけます。

ドキュメントはこちら:https://elevenlabs.io/docs/cookbooks/speech-to-text/streaming

Scribe v2 Realtime API

ElevenLabs AgentsでScribe v2 Realtimeを活用

Scribe v2 Realtime搭載の自然で人間らしいエージェントを展開できます。サポートや営業、プロダクト内体験向けの音声アシスタントをリアルタイムで理解・応答できる形で構築可能です。

詳しくはこちら:https://elevenlabs.io/agents

Scribe v2 Realtime for Agents

今すぐ開発を始める

Scribe v2 RealtimeはAPI経由、またはElevenLabs Agents内で直接ご利用いただけます。

サインアップはこちら:https://elevenlabs.io/app/sign-up

関連記事

最高品質のAIオーディオで創造する