
Turbo v2.5の紹介
32言語で高品質・低遅延のテキスト読み上げ
ブラックフライデー
2024年10月18日更新
先月、会話型AIの世界で2つの主要なプロダクトが発表されました。私たちの会話型AIオーケストレーションプラットフォームとOpenAIのリアルタイムAPIです。この投稿では、両者の違いを理解し、どちらがあなたのユースケースに最適かを判断する手助けをします。
これらのプロダクトはどちらも、リアルタイムで会話型音声エージェントを作成するために設計されています。ElevenLabs 会話型AIは、スピーチ to テキストを使用して音声からトランスクリプトを作成し、そのトランスクリプトをカスタムナレッジベースと共に選択したLLMに送信し、
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
私たちの会話型AIが音声をテキストに変換する際、感情、トーン、発音などの情報が失われます。OpenAIのリアルタイムAPIは音声から音声へ直接変換するため、コンテキストが失われません。これにより、新しい言語を学ぶ際の発音の修正や、セラピーでの感情の識別と応答など、特定のユースケースに適しています。
リアルタイムAPIを使用する場合、OpenAIのインフラを使用して完全な会話体験を提供します。他社のLLMを統合したり、自分のLLMを持ち込むことはできません。リアルタイムAPIは音声を入力として受け取り、音声を出力として返すだけです。
私たちの会話型AIプラットフォームでは、モデルを動かすLLMをいつでも変更できます(OpenAIのモデルを含む)。Anthropic、OpenAI、Google、NVIDIAなどが最も高性能なLLMを目指して競争を続ける中、常に最新技術を使用できるようにいつでも更新できます。
また、パフォーマンスやプライバシーの理由で独自に調整したLLMを社内で構築した企業にとっては、ElevenLabsの会話型AIプラットフォームと統合することが可能ですが、OpenAIのリアルタイムAPIではできません。
レイテンシーを評価する際には、2つの重要な要素を考慮する必要があります
(1) 平均レイテンシーがシームレスなユーザー体験を提供するのに十分低いか?
(2) レイテンシーの変動がどの程度で、P90およびP99のレイテンシーでのユーザー体験はどうなるか?
OpenAIリアルタイムAPIの潜在的な利点の一つは、音声をテキストに変換する中間ステップを省くことで、全体的にレイテンシーが低くなる可能性があることです。
しかし、先ほど述べた柔軟性に関する欠点もあります。過去数週間のテストでは、40-miniが当初、私たちの会話型AIプラットフォームと組み合わせるのに最も低いレイテンシーを持っていましたが、今週そのレイテンシーが2倍以上になり、ユーザーはGemini Flash 1.5に切り替えました。リアルタイムAPIでは、より高速なLLMに切り替えることはできません。
また、会話型AIアプリケーションのエンドツーエンドのレイテンシーは、プロバイダーだけでなく、
OpenAIのリアルタイムAPIには現在6つの音声オプションがあります。私たちのボイスライブラリーには3,000以上の音声があります。また、プロフェッショナル ボイスクローンを使用して、独自のカスタム音声をプラットフォームで使用することもできます。これにより、リアルタイムAPIではブランドやコンテンツに特有の音声を選ぶことができません。
リアルタイムAPIでは、オーディオ入力は1Mトークンあたり$100、出力は1Mトークンあたり$200です。これは、オーディオ入力1分あたり約$0.06、オーディオ出力1分あたり約$0.24に相当します。
ElevenLabs
各通話の終了時に、リアルタイムAPIはテキストとオーディオチャンクを含むJSON形式のイベントを送信します。これには、通話のトランスクリプトや録音、行われた機能呼び出しが含まれます。これを読み取り、処理し、報告し、チームにとって有用な形で表示するのはあなた次第です。
私たちのプラットフォームには、通話の成功を評価し、構造データを抽出し、それをトランスクリプト、要約、録音と共にダッシュボードに表示してチームがレビューできるようにする機能が組み込まれています。

32言語で高品質・低遅延のテキスト読み上げ

Templates help you move from idea to finished content without setup, memorizing steps, or managing files. Each template is built to accelerate your workflow while maintaining full creative control.
Powered by ElevenLabs エージェント