
MasterClass brings AI instructors to life with ElevenLabs
75% of users prefer voice interactions with MasterClass On Call
ElevenLabsのテキスト読み上げを統合することで、音声を使った開発者のセットアップ時間を10倍短縮
StreamはVision Agentsを導入しました。これは、リアルタイムのビデオ、オーディオ、会話を組み合わせた低遅延のマルチモーダルAI体験を開発者が構築できるオープンソースフレームワークです。このフレームワークは ElevenLabsテキスト読み上げを統合し、ユーザーとAIシステム間のシームレスな対話を可能にする表現力豊かで応答性の高い音声を提供します。

Vision Agentsは、AIにリアルタイムで見る、聞く、応答する能力を与えます。StreamのビデオとオーディオSDKを基に構築されたこのフレームワークは、開発者がマルチモーダルエージェント体験をプロトタイプし、展開するための低遅延の基盤を提供します。
テキスト読み上げプロバイダーを評価する際、Streamは市場をリードする品質と統合のしやすさからElevenLabsを選びました。ElevenLabsは現在、Streamのユーザーにとって主要な音声オプションとして機能しています。
「ElevenLabsのおかげで、強力なテキスト読み上げ機能を迅速にSDKに導入でき、エージェントがユーザーの質問にリアルタイムで表現豊かに応答したり、見ているものに対するフィードバックを提供したりすることが可能になりました。」 - Neevash Ramdial, マーケティングディレクター, Stream
StreamはElevenLabsを数日でコードベース全体に統合し、開発者が最小限の設定でリアルな音声出力をビジョンエージェントに追加できるようにしました。この統合により、以下が実現されます:
StreamのVision Agentsは、ElevenLabsのモデルがマルチモーダルAIで可能性を広げていることを示しています。視覚的理解と テキスト読み上げを組み合わせることで、開発者は見るだけでなく、ほぼ人間の流暢さで話し、聞くことができるエージェントを作成できます。
テキスト読み上げで構築をお考えですか?お問い合わせは こちらからどうぞ。

75% of users prefer voice interactions with MasterClass On Call
%20(2).webp&w=3840&q=95)
Bringing ElevenLabs' AI voice agents to the customer service of Europe’s largest Telco (via app and phone).