Eleven v3 アルファのご紹介

v3を試す

ElevenLabsの会話型AIとOpenAIのリアルタイムAPIの比較

最近の2つのプロダクトを比較し、あなたのユースケースに最適なプロダクトを見つけるお手伝いをします

2024年10月18日更新

先月、会話型AIの世界で2つの主要なプロダクトが発表されました。私たちの会話型AIオーケストレーションプラットフォームとOpenAIのリアルタイムAPIです。この投稿では、両者の違いを理解し、どちらがあなたのユースケースに最適かを判断する手助けをします。

概要

これらのプロダクトはどちらも、リアルタイムで会話型の音声エージェントを作成するために設計されています。ElevenLabs 会話型AIは、スピーチ to テキストを使用して音声からトランスクリプトを作成し、そのトランスクリプトを選択したLLMとカスタムナレッジベースに送信し、LLMの応答を音声化するオーケストレーションプラットフォームを通じてそれを可能にします。Text to Speech。過去の通話のモニタリングと分析を含むエンドツーエンドのソリューションで、まもなくテストフレームワークと電話統合も提供されます。

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

比較

感情と発音の理解

私たちの会話型AIが音声をテキストに変換する際、感情、トーン、発音などの情報が失われます。OpenAIのリアルタイムAPIは音声から音声へ直接変換するため、コンテキストが失われません。これにより、新しい言語を学ぶ際の発音の修正や、セラピーでの感情の識別と応答など、特定のユースケースに適しています。

柔軟性

リアルタイムAPIを使用する場合、OpenAIのインフラを使用して完全な会話体験を提供します。他社のLLMを統合したり、自分のLLMを持ち込むことはできません。リアルタイムAPIは音声を入力として受け取り、音声を出力として返すだけです。

私たちの会話型AIプラットフォームでは、モデルを動かすLLMをいつでも変更できます(OpenAIのモデルを含む)。Anthropic、OpenAI、Google、NVIDIAなどが最も高性能なLLMを目指して競争を続ける中、常に最新技術を使用できるようにいつでも更新できます。

また、パフォーマンスやプライバシーの理由で独自に調整したLLMを社内で構築した企業にとっては、ElevenLabsの会話型AIプラットフォームと統合することが可能ですが、OpenAIのリアルタイムAPIではできません。

レイテンシー

レイテンシーを評価する際には、2つの重要な要素を考慮する必要があります

(1) 平均レイテンシーがシームレスなユーザー体験を提供するのに十分低いか?

(2) レイテンシーの変動がどの程度で、P90およびP99のレイテンシーでのユーザー体験はどうなるか?

OpenAIリアルタイムAPIの潜在的な利点の一つは、音声をテキストに変換する中間ステップを省くことで、全体的にレイテンシーが低くなる可能性があることです。

しかし、先ほど述べた柔軟性に関する欠点もあります。過去数週間のテストでは、40-miniが当初、私たちの会話型AIプラットフォームと組み合わせるのに最も低いレイテンシーを持っていましたが、今週そのレイテンシーが2倍以上になり、ユーザーはGemini Flash 1.5に切り替えました。リアルタイムAPIでは、より高速なLLMに切り替えることはできません。

また、会話型AIアプリケーションのエンドツーエンドのレイテンシーは、プロバイダーだけでなく、エージェントのナレッジベースのサイズやネットワーク条件にも依存します。

音声オプション

OpenAIのリアルタイムAPIには現在6つの音声オプションがあります。私たちのボイスライブラリーには3,000以上の音声があります。また、プロフェッショナル ボイスクローンを使用して、独自のカスタム音声をプラットフォームで使用することもできます。これにより、リアルタイムAPIではブランドやコンテンツに特有の音声を選ぶことができません。

価格

リアルタイムAPIでは、オーディオ入力は1Mトークンあたり$100、出力は1Mトークンあたり$200です。これは、オーディオ入力1分あたり約$0.06、オーディオ出力1分あたり約$0.24に相当します。

ElevenLabs 会話型AIは、無料プランで15分の利用を提供しています。ビジネスプランでは13,750分の会話型AIを提供し(1分あたり$0.08)、追加の分は$0.08で請求され、より高いボリュームでは大幅に割引された価格が適用されます。

追加プラットフォーム機能

各通話の終了時に、リアルタイムAPIはテキストとオーディオチャンクを含むJSON形式のイベントを送信します。これには、通話のトランスクリプトや録音、行われた機能呼び出しが含まれます。これを読み取り、処理し、報告し、チームにとって有用な形で表示するのはあなた次第です。

私たちのプラットフォームには、通話の成功を評価し、構造データを抽出し、それをトランスクリプト、要約、録音と共にダッシュボードに表示してチームがレビューできるようにする機能が組み込まれています。

もっと見る

リサーチ
II Turbo v2.5 logo with gray flowing wave design on a dark background.

Turbo v2.5の紹介

32言語で高品質・低遅延のテキスト読み上げ

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン