
リアルタイム音声認識
ライブ音声を瞬時に文字起こし
Scribe v2 Realtimeは、90以上の言語に対応し、150msの低遅延で最も正確なリアルタイム文字起こしモデルです。APIで利用可能。
スピードと正確さを追求したScribe v2 Realtimeの紹介
超高速、超正確、ライブ音声に対応。Scribe v2 Realtimeはエージェント、会議、会話型AIに瞬時の文字起こしを提供します。
高精度
多様なグローバルデータでトレーニングされ、自然な音声に最適化されたScribeは、主要な言語とアクセントで業界最高の単語誤り率を達成。
超低遅延
音声をストリーミングし、約150msで文字起こしを受け取り、ライブエージェント、会議、会話型AIのリアルタイム理解を実現。
エージェント、アプリ、すべての言語に対応したリアルタイム音声

エージェントと音声アプリ向けに特化
Scribe v2 Realtimeは、会話型エージェント、会議アシスタント、音声アプリケーションを開発するデベロッパー向けに特化され、スピードと正確さが重要です。
90言語で正確に音声をキャプチャ
Scribe v2 Realtimeは、90言語にわたる優れた正確さを提供し、多様なアクセント、方言、音響条件を容易に処理します。
複数のオーディオフォーマット
PCM(8–48 kHz)およびμ-lawエンコーディングをサポートし、電話、ブラウザ、スタジオ設定での互換性を確保。
音声活動検出
音声の開始と終了を検出し、音声を正確にセグメント化してスムーズで効率的なリアルタイム文字起こしを実現。
手動コミット制御
デベロッパーに文字起こしを確定するタイミングを制御する権限を与え、カスタムストリーミングと微調整された正確さに最適。
リアルタイム性能を追求した音声認識





新世代のモデルに基づく
Scribe v2を基に構築され、Scribe v2 Realtimeはアクセント、トーン、環境において画期的な正確さを持ち、約150msの低遅延を実現。
低遅延の予測文字起こし
Scribe v2 Realtimeは、最も可能性の高い次の単語と句読点を予測することで、リアルタイムの正確さを実現。
複雑な語彙
技術用語、薬品名、固有名詞を含む複雑な語彙をサポート。
ストリーミングサポート
音声を連続的に送信し、ライブ文字起こしを瞬時に受け取る – バッファリングなし、ただリアルタイムの理解。
テキストコンディショニング
Scribe v2 Realtimeは、接続がリセットされてもシームレスに文字起こしを続行。
エンタープライズグレードのセキュリティとインフラ
エンタープライズグレードのセキュリティとインフラ
複雑な環境でも比類なき正確さ

Natural Speech
Filler words, pauses and emotional cues

Low-quality audio
Background noise or low-bandwidth audio

Accents
Diverse accents and pronunciations

Domain terms
Acronyms, brands, financial or medical terms
エージェントからプロダクションまで、あらゆるワークフローに対応
ニーズに応じた柔軟な価格設定
スタートアップからエンタープライズチームまでスケールするように設計された価格で、最高クラスの正確さと応答性を体験してください。
1時間あたり$0.28以下
年間ビジネスプランで




