Scribe v2 Realtimeのご紹介

最終更新日 2026年3月6日 • 3 分で読めます

本日、最も高精度かつ低遅延のスピーチtoテキストモデル「Scribe v2 Realtime」を発表します。150ms未満でライブ文字起こしを実現します。

Scribe v2 Realtime：ライブ文字起こしに最適な高精度モデル

Scribe v2 Realtimeは、低遅延の新たな基準を打ち立てます。スピーチtoテキスト.

ライブ利用を想定して設計—音声エージェント、会議アシスタント、リアルタイム字幕などに最適で、英語・フランス語・ドイツ語・イタリア語・スペイン語・ポルトガル語を含む90言語で150ms未満の文字起こしが可能です。

Scribe v2 Realtimeは、エージェント用途に特化して開発されています。バックグラウンドノイズや複雑な情報を含む500の難しいサンプルでも、他のすべてのモデルを大きく上回る性能を発揮します。

ネガティブレイテンシ：次の単語や句読点の予測
自動言語検出：どの言語でも話せて、会話中に言語の切り替えも可能
テキストコンディショニング：Scribe v2 Realtimeは前回のバッチ内容をもとに文字起こしを継続します。接続を再開する際などに便利です。
音声アクティビティ検出（VAD）
手動コミット：文字起こしの区切りを確定するタイミングを自由にコントロール可能
複数のオーディオフォーマット対応：PCM（48kHz）やμ-lawエンコーディングに対応
エンタープライズ対応 SOC2、ISO 27001、PCI DSS L1、HIPAA、GDPR準拠。EUやインドでのデータレジデンシー選択や、機密性の高いワークロード向けゼロリテンションモードも利用可能

Scribe v2 Realtimeは、人間レベルの理解力をリアルタイムで提供し、自然な会話や即時応答をライブ環境で実現します。Scribe v2 Realtimeは、ヨーロッパおよびアジアの主要30言語で93.5％の精度を達成しています。