ElevenLabs raises $500M Series D at $11B valuation
Transforming how we interact with technology
エージェント向けに最適化された超低遅延ストリーミングのスピーチtoテキストモデルがAgentsプラットフォームで利用可能になりました。
今週、
Scribe v2 Realtime transcribes speech in under 150ms with state-of-the-art accuracy, enabling agents to respond as naturally as humans do in conversation.
ほとんどのスピーチtoテキストシステムは、クリーンなテスト環境では良好に動作しますが、現実のノイズの多い背景、多様なアクセント、名前やメール、IDなどの識別子に直面すると苦労します。
Scribe v2 Realtimeは、まさにこれらの課題に対応するように訓練されました。
音質が悪く、多様なアクセントやフィラーが含まれる数百の英語会話サンプルを用いた内部ベンチマークで、Scribe v2 Realtimeは他のリアルタイムASRモデルよりも正確にユーザーの意図を捉えました。
以下は、異なる環境でScribe v2 Realtimeの文字起こし精度をテストした実際の例です。
スペイン語、ポルトガル語、ヒンディー語など多くの言語でエージェントを展開しているグローバル企業として、Scribe v2 Realtimeが地域を超えて最先端のパフォーマンスを維持することが重要でした。
30言語にわたる精度を測定するFLEURS多言語ベンチマークで、Scribe v2 Realtimeは低遅延ASRモデルの中で最も低い単語誤り率(WER)を達成しました。
これにより、企業は速度や精度を犠牲にすることなく、即座に正確に応答する多言語エージェントを展開できます。
Scribe v2 RealtimeはElevenLabs Agentsに完全に統合されており、高度な設定セクションで有効にできます。

Transforming how we interact with technology

Scaling personal, multilingual outreach with privacy-first AI voice and chat agents