コンテンツにスキップ

ElevenLabs会話型AIとOpenAI Realtime APIの比較

2つの最新プロダクトを比較し、用途に最適なものを見つけるお手伝いをします

2024年10月18日現在の情報です

先月、会話型AIの分野で2つの大きなプロダクトがリリースされました。それが、私たちの会話型AIオーケストレーションプラットフォームとOpenAIのRealtimeAPIです。この投稿では、2つの違いを分かりやすくまとめ、用途に合った最適な選択ができるようにご案内します。

概要

どちらのプロダクトも、リアルタイムで会話型音声エージェント. ElevenLabs会話型AIは、スピーチtoテキストで音声から文字起こしを作成し、そのテキストをお好みのLLMとカスタムナレッジベースに送信、さらにLLMの返答をテキスト読み上げで音声化するオーケストレーションプラットフォームを通じて実現します。通話履歴のモニタリングや分析も含むエンドツーエンドのソリューションで、今後はテストフレームワークや電話連携機能も追加予定です。

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

比較ポイント

感情と発音の理解

会話型AIが音声をテキストに変換する際、感情やトーン、発音など一部の情報が失われます。一方、OpenAIのRealtime APIは音声から音声へ直接変換するため、こうした文脈が失われません。そのため、新しい言語の発音矯正や、セラピーでの感情認識・対応など、特定の用途により適しています。

柔軟性

Realtime APIを使う場合、会話体験全体をOpenAIのインフラで提供します。他社のLLMを組み込んだり、自社のLLMを使うことはできません。Realtime APIは音声のみを入力・出力とするためです。

ElevenLabsの会話型AIプラットフォームなら、モデルに使うLLMをいつでも変更できます(OpenAIのモデルも利用可能)。Anthropic、OpenAI、Google、NVIDIAなどが高性能LLMを競い合う中、常に最新技術を使えるよう、いつでもアップデートできます。

また、自社で独自にチューニングしたLLMをお持ちの企業も、ElevenLabsの会話型AIプラットフォームなら連携可能ですが、OpenAIのRealtime APIではできません。

レイテンシー(遅延)

どのモデルでもレイテンシーを評価する際は、2つの重要なポイントがあります。

(1)平均レイテンシーが十分低く、シームレスなユーザー体験を実現できるか?

(2)レイテンシーのばらつきはどの程度か、P90やP99のレイテンシーでユーザー体験はどうなるか?

OpenAI Realtime APIのメリットの1つは、音声をテキストに変換する中間ステップがないため、全体のレイテンシーが低くなる可能性が高い点です。

一方で、先ほど触れた柔軟性の面でデメリットもあります。ここ数週間のテストでは、当初40-miniが会話型AIプラットフォームと組み合わせた際に最も低レイテンシーでしたが、今週はレイテンシーが2倍以上になり、ユーザーはGemini Flash 1.5に切り替えました。Realtime APIでは、より速いLLMに切り替えることができません。

また、会話型AIアプリ全体のエンドツーエンドのレイテンシーは、プロバイダーだけでなく、エージェントのナレッジベースの規模やネットワーク環境にも左右されます。

音声の選択肢

OpenAIのRealtime APIは現在6種類の音声が選べます。私たちのボイスライブラリには3,000以上の音声があり、プロフェッショナルボイスクローンを使えば独自のカスタム音声も利用可能です。つまり、Realtime APIではブランドやコンテンツに合わせた独自の音声は選べません。

価格

Realtime APIでは、音声入力が100ドル/100万トークン、出力が200ドル/100万トークンです。これは音声入力1分あたり約0.06ドル、出力1分あたり約0.24ドルに相当します。

ElevenLabs会話型AIは、無料プランで15分間お試しいただけます。ビジネスプランでは13,750分(1分あたり0.08ドル)が含まれ、追加分も0.08ドル/分で利用可能。大量利用時はさらに割引価格が適用されます。

追加プラットフォーム機能

各通話終了時、Realtime APIはテキストや音声チャンク(文字起こし・録音・機能呼び出しなど)を含むJSON形式のイベントを送信します。これらの情報を読み取り、処理し、レポートや表示を行うのはユーザー側の役割です。

私たちのプラットフォームには、通話の成功評価や構造化データの抽出、文字起こし・要約・録音とともにダッシュボードで表示する機能が標準搭載されており、チームで簡単に確認できます。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン