対応しているLLMは？

テキストを生成できるLLMなら何でも対応。SDKにはOpenAI（Responses APIやChat Completions API）、Anthropic Messages API、Google Gemini API用のストリーム抽出機能を搭載。他プロバイダーの場合は、プレーンな文字列や非同期イテラブルで渡せます。

Speech EngineとElevenAgentsの違いは？

ElevenAgentsはElevenLabsがLLMやナレッジベース、ツールを提供するフルホスト型プラットフォーム。Speech Engineは独自LLMや会話ロジックを自分のサーバーで管理したいデベロッパー向けです。

対応しているサーバーフレームワークは？

TypeScriptでは、Speech EngineをNode.jsのHTTPサーバー（Express、Fastify、またはhttp.createServer()）に接続したり、単独のWebSocketサーバーとして実行できます。Pythonでは、engine.serve()で単独サーバーを立てたり、engine.create_session()でFastAPI、Starlette、ASGIフレームワークと連携可能です。

チャットエージェントを音声エージェントに変換

スピーチエンジンのご紹介

チャットエージェントをボイスエージェントに変換

はじめる営業へのお問い合わせ

たった1つのプロンプトで、既存のチャットエージェントに人間らしい音声を追加できます。音声処理はElevenLabsにお任せ。エージェントのLLMやRAG、システム構成はそのままです。

既存のシステムに音声レイヤーを追加

はじめる

Speech Engineは、既存のスタックにそのまま組み込めます。再設計は不要で、テキストベースのエージェントもそのまま使えます。

音声レイヤーを一括導入

Speech Engineは、最先端の音声・文字起こし・音声オーケストレーションモデルを1つのパイプラインに統合。すべてが連携するようにカスタム設計されています。

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

チャットボットを音声対応でアップグレード

音声は情報をやり取りする最速かつ最も豊かな方法であり、プロダクトやサービスをより多くのお客様に届けます。

スムーズな会話フロー

ElevenLabsの音声モデルは会話向けに最適化されており、実環境でも超低遅延で動作します。

ターンテイキングと割り込み対応

専用モデルが重なった発話や途中の話題変更にも対応。カスタムロジックは不要です。

70以上の言語に対応したグローバルカバレッジ

幅広い言語に対応し、感情豊かな人間らしい音声を生成できます。

何百万もの実際の会話で検証された音声スタック

すべてのコンポーネントが最適化され、連携して最高のパフォーマンスを発揮します。

スピーチtoテキスト

会話の正確さに特化した文字起こしモデルで、ユーザーの音声を超低遅延の80msで文字起こしします。

テキスト読み上げ

70以上の言語で表現力豊かな人間らしい音声。11,000以上のボイスライブラリから選ぶか、ボイスクローンで自作も可能です。

ターン検出

ユーザーが話し終えたか一時停止かを判別し、トランスクリプトをLLMに送るタイミングを正確に制御します。

割り込み対応

エージェントが話している間もユーザーの発話を監視。割り込みがあれば即座に再生を停止し、会話を再開します。

音声アクティビティ検出

入力段階でバックグラウンドノイズを除去し、クリーンな音声だけを文字起こしモデルに渡します。

オーディオオーケストレーション

ユーザー音声の取得からエージェントの応答まで、音声の全ライフサイクルを管理します。

ワンプロンプトでエージェントにSpeech Engineを追加

スキルを使ってコマンド一つでインストールできます。必要な設定はすべてスキルが行うので、チャットから音声への切り替えも簡単です。

サーバーSDK

Speech Engineをサーバーに接続。トランスクリプトを受け取り、LLMに渡して応答を返すまで、数行で実装できます。

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs UI

エージェントオーブや波形、チャットウィジェットなどのUIコンポーネントをそのまま使うことも、自作することも可能。同じSDK上で構築できます。

ElevenLabs UIを見る

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

クライアントSDK

ブラウザやモバイルアプリから3行で会話セッションを開始。同じクライアント連携なので、後からElevenAgentsへアップグレードしても変更不要です。

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

エンタープライズレベルのセキュリティ

当プラットフォームは大規模展開を想定し、エンタープライズレベルのデータ保護（SOC2、HIPAA、GDPR対応）を実現。EUデータレジデンシーやゼロリテンションモードも利用可能です。

詳しく見る

Illustration of a product lifecycle: creation, use, maintenance, and disposal.

あらゆるチャネルの体験を支える統合プラットフォーム

スピーチエンジン

最大限の柔軟性

独自のLLMとオーケストレーション
同じConversation SDK
カスタムRAGとビジネスロジック