
Deutsche TelekomとElevenLabs、パートナーシップを発表
- カテゴリ
- ElevenAgentsストーリー
- 日付
スピーチエンジンのご紹介
たった1つのプロンプトで、既存のチャットエージェントに人間らしい音声を追加できます。音声処理はElevenLabsにお任せ。エージェントのLLMやRAG、システム構成はそのままです。
Speech Engineは、既存のスタックにそのまま組み込めます。再設計は不要で、テキストベースのエージェントもそのまま使えます。

Speech Engineは、最先端の音声・文字起こし・音声オーケストレーションモデルを1つのパイプラインに統合。すべてが連携するようにカスタム設計されています。
音声は情報をやり取りする最速かつ最も豊かな方法であり、プロダクトやサービスをより多くのお客様に届けます。
ElevenLabsの音声モデルは会話向けに最適化されており、実環境でも超低遅延で動作します。
専用モデルが重なった発話や途中の話題変更にも対応。カスタムロジックは不要です。
幅広い言語に対応し、感情豊かな人間らしい音声を生成できます。
すべてのコンポーネントが最適化され、連携して最高のパフォーマンスを発揮します。
会話の正確さを重視した文字起こしモデル。90以上の言語に対応し、ユーザーの発話を超低遅延でテキスト化します。
70以上の言語で表現力豊かな人間らしい音声。11,000以上のボイスライブラリから選ぶか、ボイスクローンで自作も可能です。
ユーザーが話し終えたか一時停止かを判別し、トランスクリプトをLLMに送るタイミングを正確に制御します。
エージェントが話している間もユーザーの発話を監視。割り込みがあれば即座に再生を停止し、会話を再開します。
入力段階でバックグラウンドノイズを除去し、クリーンな音声だけを文字起こしモデルに渡します。
ユーザー音声の取得からエージェントの応答まで、音声の全ライフサイクルを管理します。
スキルを使ってコマンド一つでインストールできます。必要な設定はすべてスキルが行うので、チャットから音声への切り替えも簡単です。
Speech Engineをサーバーに接続。トランスクリプトを受け取り、LLMに渡して応答を返すまで、数行で実装できます。
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
name: "My Speech Engine",
speechEngine: {
// Note we use the wss protocol instead of https
wsUrl: "wss://abc123.ngrok.io/ws",
},
});
console.log("Speech Engine ID:", engine.engineId);
ブラウザやモバイルアプリから3行で会話セッションを開始。同じクライアント連携なので、後からElevenAgentsへアップグレードしても変更不要です。
import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";
app.get("/api/token", async (req, res) => {
const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
res.json({ token });
});
app.listen(3002, () => console.log("Token server listening on port 3002"));当プラットフォームは大規模展開を想定し、エンタープライズレベルのデータ保護(SOC2、HIPAA、GDPR対応)を実現。EUデータレジデンシーやゼロリテンションモードも利用可能です。

テキストを生成できるLLMなら何でも対応。SDKにはOpenAI(Responses APIやChat Completions API)、Anthropic Messages API、Google Gemini API用のストリーム抽出機能を搭載。他プロバイダーの場合は、プレーンな文字列や非同期イテラブルで渡せます。
ElevenAgentsはElevenLabsがLLMやナレッジベース、ツールを提供するフルホスト型プラットフォーム。Speech Engineは独自LLMや会話ロジックを自分のサーバーで管理したいデベロッパー向けです。
TypeScriptでは、Speech EngineをNode.jsのHTTPサーバー(Express、Fastify、またはhttp.createServer())に接続したり、単独のWebSocketサーバーとして実行できます。Pythonでは、engine.serve()で単独サーバーを立てたり、engine.create_session()でFastAPI、Starlette、ASGIフレームワークと連携可能です。



