
Webinar Recap: How AI Is Revolutionizing Learning
How Voice AI Is Reshaping the Future of Learning
ElevenLabsとRetellはどちらも音声エージェントを構築できる会話型AIプラットフォームですが、アーキテクチャが根本的に異なります。ElevenLabsは音声スタック全体を自社で保有しており、TTSやSTTモデルを自社開発しています。実際、Retellの多くのユーザーがElevenLabsのTTSを音声プロバイダーとして利用しています。ElevenLabsのエージェント(ElevenAgents)は、ミドルウェア層がないため、エンドツーエンドで500ms未満の低遅延を実現できます。Retellは、サードパーティのSTT、LLM、TTSプロバイダー(ElevenLabs含む)を組み合わせてオーケストレーションするプラットフォームで、ビジュアルエージェントビルダーやマルチプロバイダー対応の柔軟性を提供します。最高の音声品質・低遅延・オムニチャネル展開・コスト効率を重視するならElevenLabs、マルチプロバイダーの柔軟性やノーコードのビジュアルビルダーが必要ならRetellを選んでください。
機能
ElevenLabs
Retell
アーキテクチャ
フルスタック:TTS、STT、エージェントロジックを一体化した垂直統合型プラットフォーム
ミドルウェア:サードパーティのSTT、LLM、TTSプロバイダーをオーケストレーション
音声品質
ブラインドリスニングテストでNo.1。多くのRetellユーザーが選ぶTTSを提供。Expressive Modeで会話の文脈に合わせてトーンを自動調整。
選択したTTSプロバイダーによる—最良の選択肢はElevenLabs
ストリーミング遅延
エンドツーエンドで500ms未満(Flash TTS約75ms、Scribe v2 Realtime 80ms未満、ミドルウェア層なし)
平均約600ms;サードパーティベンチマークで約800ms
エージェントビルダー
ビジュアルワークフロービルダー、Webhook、ツール連携、ナレッジベース、テストスイート内蔵
ノードベースのビジュアルフロービルダー(分岐、インテント、エンティティ、サブフロー対応)
展開チャネル
オムニチャネル:電話(SIP)、Web(ウィジェット/SDK)、モバイルアプリ、WhatsApp、チャット—すべて1つのエージェント設定から展開可能
主に電話中心。BYOCやSIPトランキングによる電話展開。Webやマルチチャネルのネイティブ対応は限定的。
電話機能
電話連携を標準搭載
Retellホスト番号、Twilio、Telnyx、Vonage、SIPトランク、BYOC
TTSプロバイダー
自社モデル(Eleven v3、v3 Conversational、Flash v2.5 75ms、11,000以上の音声、70以上の言語)
7社以上:ElevenLabs、OpenAI、Deepgram、Cartesiaなど
STTプロバイダー
Scribe v2 Realtime(80ms未満、30言語で6.5% WER)
サードパーティ:Deepgram、AssemblyAIなど
ボイスクローン
30秒からのプロフェッショナルクローン作成。テキストプロンプトからカスタム音声デザイン。月額$5から利用可能
ElevenLabs BYOK経由—ただしプライベート音声ピッカーでの使い勝手に課題ありとの報告
システムツール
通話終了、言語検出&自動切替、エージェント転送、人への転送、DTMF送信、ターンスキップ、留守電検出
通話終了、通話転送(ウォーム・コールド)、数字入力(DTMF)、SMS、エージェント転送、ロジックスプリット。言語自動検出や留守電検出のネイティブ対応なし。
その他ツール
4種類のツール:クライアントツール(ブラウザ/アプリ側)、サーバーツール(Webhook to API)、MCPツール(細かな承認制御付きModel Context Protocolサーバー)、システムツール(通話転送・留守電検出・言語検出・通話終了など)。電話・Web両方のエージェントで利用可能。
カスタムAPIコールやMCPノードを設定し、ZapierやCRM、他クラウド機能と会話フロー内で連携可能。ツールは電話ワークフロー向け設計。ブラウザやアプリ環境向けのクライアントサイドツールは非対応。
コンプライアンス
SOC2 Type II、ISO 27001、ISO 27017、ISO 27018、PCI DSS Level 1(外部認証)、HIPAA(BAA)、GDPR、CSA STAR、TX-RAMP、Cyber Essentials Plus、ゼロリテンションモード、データレジデンシー(米国・EU・インド)
SOC2 Type I・II、HIPAA(BAA)、GDPR(DPA)、PCI DSS(自動マスキング)
エージェント以外の機能
14プロダクト:TTS、STT、吹き替え、SFX、音楽、クローン作成など
音声エージェントのみ—TTS API、吹き替え、サウンドエフェクトなし
料金モデル
分単位課金($0.08/分);全コア機能込み(ナレッジベース、バッチコール、ブランド通話、PII削除、ワークフロー、テスト、分析、オムニチャネル展開)
コンポーネント課金:分単位$0.07/分+ナレッジベース$0.005/分+バッチコール$0.005/発信+ブランド通話$0.10/発信+PII削除$0.01/分
無料枠
10,000クレジット/月
$10分の無料クレジット、同時通話20件
スケール
カスタムSLA付きエンタープライズ展開
月間4,000万件以上の通話を処理。エンタープライズは同時通話無制限
レビュー評価
ユーザー数増加中、デベロッパーコミュニティも活発
G2 4.8/5(781件)、Trustpilot 5.0/5(814件)
これがElevenLabsとRetellの根本的な違いです。
ElevenAgentsはフルスタックを保有しています。TTSモデル(Eleven v3、Eleven v3 Conversational)を開発する会社が、STT(Scribe v2 Realtime)、エージェントロジック層、LLMのホスティング、電話連携まで一貫して提供。音声データは最適化された単一パイプラインを通るため、サードパーティの経由がありません。その結果、低遅延・低コスト・一貫した音声品質を実現。さらに、ElevenLabsはオープンソースLLMも自社インフラで運用し、特定ワークフロー向けにドメイン最適化可能—これによりさらに遅延を減らし精度も向上します。
Retellはミドルウェアです。サードパーティのコンポーネントをオーケストレーションし、TTSプロバイダー(ElevenLabs、OpenAI、Deepgram、Cartesiaなど)、STTプロバイダー、LLMを選択できます。Retellはビジュアルビルダー、通話管理、分析機能を追加します。プロバイダーを柔軟に切り替えられますが、そのたびに遅延とコストが増加します。皮肉なことに、多くのRetellユーザーがTTSにElevenLabsを選んでおり、結局Retell経由でElevenLabsにリクエストを流しているため、不要なミドルウェア層が追加されています。
まとめ:ElevenLabsはミドルウェア層を排除し、低遅延・低コストを実現。Retellはマルチプロバイダーの柔軟性を提供しますが、その分遅延とコストが積み重なります。
ElevenLabsは音声品質で業界トップ。独立したブラインドリスニングテストでNo.1、次点の競合19回に対し37回選ばれ、単語誤り率も2.83%と最小。TTSモデルは常に人間の好みで最高評価を獲得し、Poe.comユーザーの74%がElevenLabs音声モデルを選択しています。
Eleven v3 Conversationalは、感情知能と文脈認識に優れたTTSモデルで、リアルタイム対話に最適化。ElevenAgentsのExpressive Modeを支え、会話の文脈に応じてトーンや感情を自動調整—苛立ちを検知し共感で応答、ブランドらしい音声を維持します。音声表現力は、サードパーティTTSを差し替えるだけのオーケストレーションプラットフォームでは再現できません。ターンテイクや音声活動検出、TTSの最適化が垂直統合スタックでのみ可能だからです。
Retellは自社TTSを開発していません。音声品質は選択したプロバイダー次第。RetellでElevenLabsをTTSに選ぶとElevenLabsの音声品質が得られますが、ミドルウェア層による遅延が追加されます。安価なプロバイダーを選ぶと音声品質は低下。ユーザーからは「長い・複雑な会話ではロボットのように聞こえる」との報告も。Retellはネイティブなボイスクローン非対応ですが、ElevenLabsのクローン音声を持ち込むことは可能です。
まとめ:ElevenLabsは最高のTTSを提供し、Expressive Modeで感情適応型の音声品質を実現。ElevenLabsを直接使えば、Retell経由の最高品質と同じ音声を、ミドルウェアのオーバーヘッドなしで利用できます。
ElevenAgentsは自社モデルのコロケーションにより、エンドツーエンドで500ms未満の遅延を実現。Flash TTSは約75ms、Scribe v2 Realtimeは80ms未満のSTTで、プロバイダー間の余計なサーバー通信を排除。ElevenLabsホストのLLMも他コンポーネントと同じ場所で動作し、業界最速の推論遅延を実現。すべてのコンポーネント(TTS、STT、LLM、エージェントロジック)が同一プラットフォーム内で動作するため、ネットワーク経由の遅延がありません。これにより自然でレスポンスの良い会話が可能です。
Retellは自社ベンチマークで平均600ms、独立したサードパーティレビューでは約800msと報告されており、ElevenLabsの2~3倍遅いことが多いです。最適化されたベンチマークでは約280msもありますが、標準設定では550~800msが一般的。デフォルト設定のままだとさらに1.5秒遅延する場合も。Retellは追加料金で高優先度プールも提供しますが、最終的な遅延はTTSやLLMの選択に依存し、外部サービス依存のオーケストレーションプラットフォームの宿命です。
まとめ:ElevenLabsはコロケーションモデルによるフルパイプライン所有で、より低く安定した遅延を実現。Retellはプロバイダー選択により遅延が変動し、500ms未満の応答には高度な最適化が必要です。
Retellのノードベースビジュアルエージェントビルダーは大きな強みの一つ。分岐ロジック、インテント、エンティティ、再利用可能なサブフロー、関数呼び出しをドラッグ&ドロップで設計できます。会話フローをビジュアルで設計したいセミテクニカルなチームに直感的で使いやすく、一般的な音声エージェント用途の約90%をノーコードでカバー。自動QA監視は有料アドオンですが、シナリオごとのエージェント動作をシミュレーションするネイティブな事前テストフレームワークはありません。
ElevenAgentsは複雑な会話ロジック向けのビジュアルワークフロービルダーを提供し、専門サブエージェントへのルーティングや人への転送も可能。エージェントシミュレーション、成功基準の定義、ツールコールの検証ができるテストスイートを内蔵。クライアントツール(ブラウザ/アプリ側)、サーバーツール(Webhook to API)、MCPツール(細かな承認制御付きModel Context Protocolサーバー)、システムツール(通話転送・留守電検出・言語検出・DTMF・通話終了など)の4種類に対応。最近のアップデートでエージェントバージョン管理、リアルタイムコンプライアンス監視用ガードレール、Expressive Modeも追加。
まとめ:Retellはセミテクニカルユーザー向けのビジュアルノーコードフロービルダーが強み。ElevenLabsはテストスイート内蔵のビジュアルワークフロービルダー、より幅広いツール種別(クライアント/MCP含む)、リアルタイムガードレールを提供し、CXやエンジニアリングチームが大規模展開に自信を持てます。
これは両プラットフォームの大きな違いです。
ElevenLabsはオムニチャネル展開に対応:電話(SIP)、Web(ウィジェット/SDK)、モバイルアプリ、WhatsApp、チャット—すべて1つのエージェント設定から展開可能。1度設計すればどこでも展開できます。Web・モバイル・メッセージング・電話すべてで顧客にリーチしたいチームには、ElevenLabsが最初から幅広いカバレッジを提供します。
Retellは主に電話中心。BYOCやSIPトランキングによる電話展開、Web通話に対応。ただし、モバイルアプリやWhatsApp、チャットなどマルチチャネル展開のネイティブ対応は限定的です。
まとめ:ElevenLabsは1つのエージェント設定から真のオムニチャネル展開が可能。Retellは電話用途に特化した設計です。
両プラットフォームとも、着信・発信通話の電話連携に対応しています。
RetellはRetellホスト電話番号、Twilio、Telnyx、Vonage、SIPトランク、BYOC(Bring Your Own Carrier)との連携を追加料金なしで提供。米国番号向けブランド発信者IDは$0.10/分のアドオン。DTMF入力、バッチコール、ウィスパーメッセージ付きウォーム転送も対応。
ElevenAgentsはプロバイダー非依存で、標準オーディオフォーマット(PCM 8000Hz、u-law 8000Hz)経由でどの電話プロバイダーにも対応。Twilio、Telnyx、Vonage、カスタムSIPも利用可能。WhatsApp連携でテキスト・音声会話もサポート。DTMF送信(IVR操作)、留守電検出、自動言語検出&音声切替など、Retellにはないシステムツールも標準搭載。
まとめ:Retellはキャリア連携やブランド発信者ID、バッチコールなど電話特化機能が充実。ElevenLabsはプロバイダー非依存でベンダーロックインなし。留守電検出や自動言語切替など独自のシステムツールで電話体験を向上します。
ElevenLabsは幅広いコンプライアンス認証を取得:SOC2 Type II、SOC3、ISO/IEC 27001、ISO/IEC 27017(クラウドセキュリティ)、ISO/IEC 27018(クラウドプライバシー)、PCI DSSサービスプロバイダーLevel 1(QSAによる外部認証)、HIPAA(BAA対応)、GDPR(独立評価)、CSA STAR Level 1、TX-RAMP Level 2、Cyber Essentials Plus、NHS DSP Toolkit。ゼロリテンションモード、エンドツーエンド暗号化、米国・EU・インドでのデータレジデンシーも提供。カスタマイズ可能なガードレールで、ライブ会話中のリアルタイムコンプライアンス監視(コンテンツフィルタ、トピック制限、PIIマスキング)も可能です。
RetellはSOC2 Type I・II、HIPAA(セルフサービスBAA署名)、GDPR(DPA)、PCI DSS(クレジットカード番号自動マスキング)を取得。ストレージモードは「すべて保存」「PII以外保存」「基本属性のみ保存」から選択可能。Agent Guardrailsで脱獄・有害出力・規制コンテンツをブロックします。
まとめ:ElevenLabsはPCI DSS Level 1(外部QSA認証)、複数のISO認証、3地域でのデータレジデンシー、ゼロリテンションモード、エンドツーエンド暗号化など、Retellより大幅に広いコンプライアンス体制を持っています。規制業界ではこの違いが重要です。
ここでミドルウェアとフルスタックの違いがコスト面で大きく影響します。
Retellはコンポーネント課金制。表面上の料金は競争力がありますが、実際は音声エンジン($0.07-0.08/分)+LLM($0.006-0.08/分)+電話($0.015/分)で合計$0.13-0.31/分程度(プロバイダー次第)。ナレッジベース($0.005/分)、ブランド発信者ID($0.10/分)、自動QA監視などのアドオンでさらに増加。エンタープライズプランは月額$3,000以上、分単価は$0.05/分まで下がる場合も。
ElevenAgentsはTTS、STT、エージェントロジック込みの分単位課金で、コンポーネントの積み上げなし。テスト、ワークフロー、分析、ガードレール、オムニチャネル展開など全コア機能が含まれます。音声層を自社で保有しているため、サードパーティTTSの上乗せ料金がありません。Retell経由でElevenLabsをTTSに選ぶユーザーにとって、実質的な分単価はElevenLabsの方が安くなります。
まとめ:TTSにElevenLabsを選ぶユーザー(Retellユーザーの多く)は、ElevenAgentsを使う方がミドルウェアの上乗せ料金がなくコスト効率が高いです。Retellのコンポーネント課金は総コストの予測が難しく、QA監視などのコア機能もアドオン扱いです。
ElevenLabsは会話型AI以外にも14のプロダクトを提供:テキスト読み上げ、スピーチtoスピーチ、ボイスクローン、AI吹き替え、サウンドエフェクト、AI音楽、ボイスアイソレーター、ボイスチェンジャー、ボイスライブラリ、プロジェクト/スタジオ、オーディオネイティブ、発音辞書、ElevenReaderなど。エージェント以外にも吹き替えやSFX生成、TTS組み込みなど、音声機能を1つのプラットフォームで網羅できます。
Retellは音声エージェント専用。スタンドアロンTTS API、吹き替え、サウンドエフェクト、音楽生成、その他AIオーディオ機能は提供していません。エージェント以外の用途がある場合は追加プロバイダーが必要です。
まとめ:ElevenLabsは完全なオーディオAIプラットフォーム。Retellは音声エージェント専用。エージェント以外の機能が必要ならElevenLabsがより多くをカバーします。
ElevenLabsはこんな方におすすめ:
理想的なElevenLabsユーザー:音声品質・遅延・オムニチャネル展開を重視する開発・CXチーム。特にRetell経由でElevenLabs TTSを使っていて、ミドルウェア層を排除しコスト削減・テストやガードレール・マルチチャネル展開などフルプラットフォームを活用したいチーム。
Retellはこんな方におすすめ:
理想的なRetellユーザー:マルチプロバイダーの柔軟性やビジュアルビルダーのシンプルさを重視し、ミドルウェア層のコストが許容できる電話特化型音声エージェントを構築するチーム。
RetellユーザーでElevenAgentsへの切り替えを検討している場合:
エージェント全体の移行には1~2週間を想定。単一エージェントなら2~3日で移行可能。ElevenLabsの無料枠で事前に構築・テストできます。
ElevenLabsのエージェント(ElevenAgents)は、音声スタック全体を自社で保有しているため、Retellよりも高品質な音声と低遅延を実現します。ElevenAgentsはエンドツーエンドで500ms未満の遅延が可能で、Retellの独立ベンチマーク(通常600-800ms)よりも高速です。多くのRetellユーザーはすでにTTSにElevenLabsを利用しており、ElevenAgentsを使えばミドルウェアを排除し、同じ音声品質をより低遅延・低コストで利用できます。さらに、オムニチャネル展開(電話・Web・モバイル・WhatsApp・チャット)、感情適応型Expressive Mode、内蔵テストスイート、幅広いコンプライアンス体制も提供。Retellの強みはノーコードビジュアルフロービルダー、マルチプロバイダー柔軟性、ブランド発信者IDやバッチコールなど電話特化機能です。
はい。ElevenLabsはRetellプラットフォームで利用できる7つのTTSプロバイダーの1つで、音声品質の高さからRetellユーザーに人気です。つまり、RetellでElevenLabs TTSを選ぶと、Retellに手数料を支払いElevenLabsにリクエストを転送していることになり、ミドルウェア層による遅延とコストが追加されます。ElevenAgentsならこのミドルウェア層を完全に排除できます。
Retellの分単位料金は一見競争力がありますが、実際は音声エンジン($0.07-0.08/分)+LLM($0.006-0.08/分)+電話($0.015/分)などコンポーネントが積み重なり、構成によって$0.13-0.31/分程度になります。ナレッジベース、ブランド発信者ID、自動QA監視などのアドオンでさらにコスト増。Retell経由でElevenLabsをTTSに選ぶ場合、ElevenAgentsの方がミドルウェアの上乗せがなく、テスト・ワークフロー・分析などコア機能も基本料金に含まれるため、通常よりコスト効率が高いです。
はい。エージェントロジックの概念、ナレッジベースの内容、電話番号(移行可能な場合)はElevenAgentsに移行できます。RetellのビジュアルフローデザインはElevenLabsのビジュアルワークフロービルダーで再作成が必要で、CRM連携も再設定が必要です。すでにRetell経由でElevenLabs TTSを使っていた場合、音声品質はそのまま、遅延は低減しExpressive Modeも利用可能。移行には1~2週間を想定。まずは無料枠でテストしてください。
フル音声スタックを自社で保有し、ミドルウェア遅延を排除したいチームにはElevenLabsが最適です。ElevenLabsはエンドツーエンドで500ms未満の遅延、11,000以上の音声・70以上の言語、Expressive Mode、オムニチャネル展開、エージェント以外も網羅する完全なオーディオAIプラットフォームを提供。他の選択肢としては、最大限のプロバイダー柔軟性を持つVapi(デベロッパー向け)、エンタープライズ向けセルフホスト型のBland、個別にSTT・LLM・TTSを組み合わせて独自スタックを構築する方法などがあります。詳細は「Retellの主な代替サービスガイド」をご覧ください。
はい。ElevenAgentsはプロバイダー非依存で、標準オーディオフォーマット(PCM・u-law 8000Hz)経由でTwilio、Telnyx、Vonage、カスタムSIPなどあらゆる電話プロバイダーに対応。DTMF送信、留守電検出、自動言語検出&音声切替などのシステムツールも標準搭載。WhatsApp連携でテキスト・音声会話も可能。Retellはブランド発信者IDやバッチコールなど電話特化機能を提供しますが、ElevenLabsはフルスタックアーキテクチャによる低遅延と、留守電検出やシームレスな言語切替など独自機能が強みです。
ElevenLabsはオムニチャネル展開に対応:電話(SIP)、Web(ウィジェット/SDK)、モバイルアプリ、WhatsApp、チャット—すべて1つのエージェント設定から展開可能。Retellは主に電話用途向け設計です。Web・モバイル・メッセージング・電話すべてでエージェントを展開したいチームには、ElevenLabsが最初から幅広いカバレッジを提供します。
ElevenLabsは即時削除から無制限保存までカスタマイズ可能なデータ保持、HIPAA対応のゼロリテンションモード、ライブ会話中のリアルタイムガードレールによるコンプライアンス監視を提供。SOC2 Type II、ISO 27001、ISO 27017、ISO 27018、PCI DSS Level 1(外部認証)、HIPAA(BAA)、GDPR、CSA STAR、TX-RAMP、Cyber Essentials Plus、NHS DSP Toolkitを取得。米国・EU・インドでのデータレジデンシーも対応。Retellは3種類の保存モードと全プランでPIIマスキング、HIPAA、SOC2 Type 1・2、GDPR、PCI DSS認証(セルフサービスBAA署名)を取得。Agent Guardrailsで脱獄や有害コンテンツもブロックします。

How Voice AI Is Reshaping the Future of Learning

Titles will be available in a dozen languages, expanding access to these works across borders