
Turbo v2.5の紹介
32言語で高品質・低遅延のテキスト読み上げ
Eleven v3 アルファのご紹介
v3を試す2024年10月18日更新
先月、会話型AIの世界で2つの主要なプロダクトが発表されました。私たちの会話型AIオーケストレーションプラットフォームとOpenAIのリアルタイムAPIです。この投稿では、両者の違いを理解し、どちらがあなたのユースケースに最適かを判断する手助けをします。
これらのプロダクトはどちらも、リアルタイムで会話型の音声エージェントを作成するために設計されています。ElevenLabs 会話型AIは、スピーチ to テキストを使用して音声からトランスクリプトを作成し、そのトランスクリプトを選択したLLMとカスタムナレッジベースに送信し、LLMの応答を音声化するオーケストレーションプラットフォームを通じてそれを可能にします。Text to Speech。過去の通話のモニタリングと分析を含むエンドツーエンドのソリューションで、まもなくテストフレームワークと電話統合も提供されます。
Feature | ElevenLabs Conv AI | OpenAI Realtime |
---|---|---|
Total Number of Voices | 3k+ | 6 |
LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
API Access | Yes, all plans | Yes, all plans |
私たちの会話型AIが音声をテキストに変換する際、感情、トーン、発音などの情報が失われます。OpenAIのリアルタイムAPIは音声から音声へ直接変換するため、コンテキストが失われません。これにより、新しい言語を学ぶ際の発音の修正や、セラピーでの感情の識別と応答など、特定のユースケースに適しています。
リアルタイムAPIを使用する場合、OpenAIのインフラを使用して完全な会話体験を提供します。他社のLLMを統合したり、自分のLLMを持ち込むことはできません。リアルタイムAPIは音声を入力として受け取り、音声を出力として返すだけです。
私たちの会話型AIプラットフォームでは、モデルを動かすLLMをいつでも変更できます(OpenAIのモデルを含む)。Anthropic、OpenAI、Google、NVIDIAなどが最も高性能なLLMを目指して競争を続ける中、常に最新技術を使用できるようにいつでも更新できます。
また、パフォーマンスやプライバシーの理由で独自に調整したLLMを社内で構築した企業にとっては、ElevenLabsの会話型AIプラットフォームと統合することが可能ですが、OpenAIのリアルタイムAPIではできません。
レイテンシーを評価する際には、2つの重要な要素を考慮する必要があります
(1) 平均レイテンシーがシームレスなユーザー体験を提供するのに十分低いか?
(2) レイテンシーの変動がどの程度で、P90およびP99のレイテンシーでのユーザー体験はどうなるか?
OpenAIリアルタイムAPIの潜在的な利点の一つは、音声をテキストに変換する中間ステップを省くことで、全体的にレイテンシーが低くなる可能性があることです。
しかし、先ほど述べた柔軟性に関する欠点もあります。過去数週間のテストでは、40-miniが当初、私たちの会話型AIプラットフォームと組み合わせるのに最も低いレイテンシーを持っていましたが、今週そのレイテンシーが2倍以上になり、ユーザーはGemini Flash 1.5に切り替えました。リアルタイムAPIでは、より高速なLLMに切り替えることはできません。
また、会話型AIアプリケーションのエンドツーエンドのレイテンシーは、プロバイダーだけでなく、エージェントのナレッジベースのサイズやネットワーク条件にも依存します。
OpenAIのリアルタイムAPIには現在6つの音声オプションがあります。私たちのボイスライブラリーには3,000以上の音声があります。また、プロフェッショナル ボイスクローンを使用して、独自のカスタム音声をプラットフォームで使用することもできます。これにより、リアルタイムAPIではブランドやコンテンツに特有の音声を選ぶことができません。
リアルタイムAPIでは、オーディオ入力は1Mトークンあたり$100、出力は1Mトークンあたり$200です。これは、オーディオ入力1分あたり約$0.06、オーディオ出力1分あたり約$0.24に相当します。
ElevenLabs 会話型AIは、無料プランで15分の利用を提供しています。ビジネスプランでは13,750分の会話型AIを提供し(1分あたり$0.08)、追加の分は$0.08で請求され、より高いボリュームでは大幅に割引された価格が適用されます。
各通話の終了時に、リアルタイムAPIはテキストとオーディオチャンクを含むJSON形式のイベントを送信します。これには、通話のトランスクリプトや録音、行われた機能呼び出しが含まれます。これを読み取り、処理し、報告し、チームにとって有用な形で表示するのはあなた次第です。
私たちのプラットフォームには、通話の成功を評価し、構造データを抽出し、それをトランスクリプト、要約、録音と共にダッシュボードに表示してチームがレビューできるようにする機能が組み込まれています。
32言語で高品質・低遅延のテキスト読み上げ
当社の最速モデルでは数字の発音が改善されました