コンテンツにスキップ
ElevenAPI

スピーチエンジンのご紹介

チャットエージェントをボイスエージェントに変換

たった1つのプロンプトで、既存のチャットエージェントに人間らしい音声を追加できます。音声処理はElevenLabsにお任せ。エージェントのLLMやRAG、システム構成はそのままです。

既存のシステムに音声レイヤーを追加

はじめる

Speech Engineは、既存のスタックにそのまま組み込めます。再設計は不要で、テキストベースのエージェントもそのまま使えます。

音声レイヤーを一括導入

Speech Engineは、最先端の音声・文字起こし・音声オーケストレーションモデルを1つのパイプラインに統合。すべてが連携するようにカスタム設計されています。

Speech Engine
Speech to Text
Turn Detection
Interrupt Detection
Text to Speech
Audio Orchestration

チャットボットを音声対応でアップグレード

音声は情報をやり取りする最速かつ最も豊かな方法であり、プロダクトやサービスをより多くのお客様に届けます。

スムーズな会話フロー

ElevenLabsの音声モデルは会話向けに最適化されており、実環境でも超低遅延で動作します。

ターンテイキングと割り込み対応

専用モデルが重なった発話や途中の話題変更にも対応。カスタムロジックは不要です。

70以上の言語に対応したグローバルカバレッジ

幅広い言語に対応し、感情豊かな人間らしい音声を生成できます。

何百万もの実際の会話で検証された音声スタック

すべてのコンポーネントが最適化され、連携して最高のパフォーマンスを発揮します。

スピーチtoテキスト

会話の正確さを重視した文字起こしモデル。90以上の言語に対応し、ユーザーの発話を超低遅延でテキスト化します。

テキスト読み上げ

70以上の言語で表現力豊かな人間らしい音声。11,000以上のボイスライブラリから選ぶか、ボイスクローンで自作も可能です。

ターン検出

ユーザーが話し終えたか一時停止かを判別し、トランスクリプトをLLMに送るタイミングを正確に制御します。

割り込み対応

エージェントが話している間もユーザーの発話を監視。割り込みがあれば即座に再生を停止し、会話を再開します。

音声アクティビティ検出

入力段階でバックグラウンドノイズを除去し、クリーンな音声だけを文字起こしモデルに渡します。

オーディオオーケストレーション

ユーザー音声の取得からエージェントの応答まで、音声の全ライフサイクルを管理します。

ワンプロンプトでエージェントにSpeech Engineを追加

スキルを使ってコマンド一つでインストールできます。必要な設定はすべてスキルが行うので、チャットから音声への切り替えも簡単です。

サーバーSDK

Speech Engineをサーバーに接続。トランスクリプトを受け取り、LLMに渡して応答を返すまで、数行で実装できます。

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs UI

エージェントオーブや波形、チャットウィジェットなどのUIコンポーネントをそのまま使うことも、自作することも可能。同じSDK上で構築できます。

ElevenLabs UIを見る
Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

クライアントSDK

ブラウザやモバイルアプリから3行で会話セッションを開始。同じクライアント連携なので、後からElevenAgentsへアップグレードしても変更不要です。

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

エンタープライズレベルのセキュリティ

当プラットフォームは大規模展開を想定し、エンタープライズレベルのデータ保護(SOC2、HIPAA、GDPR対応)を実現。EUデータレジデンシーやゼロリテンションモードも利用可能です。

Illustration of a product lifecycle: creation, use, maintenance, and disposal.

あらゆるチャネルの体験を支える統合プラットフォーム

Speech Engine Cover

スピーチエンジン

最大限の柔軟性

  • 独自のLLMとオーケストレーション
  • 同じConversation SDK
  • カスタムRAGとビジネスロジック
Agents Cover

ElevenAgents

最高のパフォーマンス

  • フルマネージドLLM
  • 組み込みツールとナレッジベース
  • 非開発者向けダッシュボード
  • 電話機能も標準搭載
  • 最小限の遅延

よくある質問

最新ストーリー

AIコミュニケーションプラットフォーム