自然な人間とAIのコミュニケーションのためのインタラクションモデル

最終更新日 2026年5月12日 • 1 分で読めます

リアルタイムでコミュニケーションするAIシステムの構築方法についてご紹介します。ターンテイキング、遅延、表現力豊かな話し方などの技術的な選択や、実際に提供しているモデルについて解説します。

私たちは何年もかけてこの分野に取り組んできました。本記事では、これまでに提供してきた内容や、その背後にある研究・プロダクトの意思決定についてご紹介します。

当社の主力プロダクト - ElevenAgents（v3 Conversational搭載）

フラッグシッププロダクト - ElevenAgents（v3会話型）

インタラクションモデルを機能させるために必要なこと

インタラクションシステムが自然で魅力的なやり取りを実現するには、次の3つが重要です。

1秒未満の応答。 ElevenAgentsは社内ベンチマークで100ms未満の応答速度に最適化されており、電話連携では200ms未満を目標としています。最速のテキスト読み上げモデルFlash v2.5は、推論時間が約75msです。*
割り込みに対応するターンテイキング。意図しない割り込みを防ぐには、無音だけでなく話している内容も考慮したターンテイキングシステムが必要です。
表現力豊かで自然な話し方。モデルは、その場に合ったトーンや話す速さ、感情で応答する必要があります。

これまでに提供した主な機能

Eleven v3 Conversational。 v3の会話型バージョンで、2026年2月にElevenAgents内でリリース。ターンテイキング機能を標準搭載。TTSモデルとしてv3 Conversationalを選択すると、ターンテイキングモデルが自動的に有効になります。

スペキュレーティブターンテイキング。 v3 Conversationalの独立した機能で、ユーザーが無言の間にLLMの応答生成を事前に開始し、体感的な遅延を減らします。

Flash v2.5。最速のテキスト読み上げモデルで、リアルタイム低遅延利用向けに設計。推論時間は約75msです。*

Scribe v2。業界トップクラスの精度を誇るスピーチtoテキストモデルです。

ElevenAgents エクスプレッシブモード。エージェントが[laughs]（笑う）、[whispers]（ささやく）、[sighs]（ため息）、[slow]（ゆっくり）などの表現タグを使い、状況に応じて話し方をコントロールできます。

今後の展望