
Tony Robbins, Steno.ai와 ElevenLabs와 함께 실시간 AI 코칭을 자신의 목소리로 선보이다
- 카테고리
- ElevenAgents 사례
- 날짜
Speech Engine이 기존 스택 위에 바로 통합됩니다. 아키텍처 변경 없이 텍스트 기반 에이전트는 그대로 유지됩니다.

Speech Engine은 업계 최고 수준의 음성, 트랜스크립션, 보이스 오케스트레이션 모델을 하나의 파이프라인으로 결합했습니다. 모두 함께 최적화되어 작동합니다.
음성은 정보를 가장 빠르고 풍부하게 전달하는 방식으로, 제품과 서비스를 고객이 더 쉽게 이용할 수 있게 합니다.
ElevenLabs 음성 모델은 대화에 최적화되어 실제 환경에서도 초저지연을 제공합니다.
전용 모델이 겹치는 음성이나 문장 중간의 변화도 별도의 커스텀 로직 없이 처리합니다.
다양한 언어에서 감정을 풍부하게 표현하는 사람 같은 음성을 제공합니다.
모든 구성요소가 함께 최적의 성능을 내도록 설계되었습니다.
대화 정확도에 최적화된 트랜스크립션 모델로, 사용자의 음성을 초저지연 80ms로 변환합니다.
70개 이상의 언어로 표현력 있고 사람 같은 음성 제공. 11,000개 이상의 보이스 라이브러리에서 선택하거나, 음성 복제로 직접 만들 수 있습니다.
사용자가 말을 끝냈는지, 잠시 멈췄는지 구분하여 정확한 시점에 트랜스크립트를 LLM에 전달합니다.
에이전트가 말하는 동안 사용자의 음성을 감지합니다. 사용자가 끼어들면 즉시 재생을 멈추고 다시 응답합니다.
입력 단계에서 배경 소음을 걸러내어 깨끗한 오디오만 트랜스크립션 모델로 전달합니다.
사용자 오디오 캡처부터 에이전트의 음성 응답 전달까지, 전체 보이스 라이프사이클을 관리합니다.
한 줄 명령어로 스킬을 설치하세요. 이 스킬이 필요한 모든 설정을 자동으로 완료해, 채팅에서 음성까지 한 번에 전환할 수 있습니다.
서버에 Speech Engine을 연결하세요. 트랜스크립트를 받아 LLM에 전달하고, 응답을 다시 보내는 모든 과정이 몇 줄로 끝납니다.
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
name: "My Speech Engine",
speechEngine: {
// Note we use the wss protocol instead of https
wsUrl: "wss://abc123.ngrok.io/ws",
},
});
console.log("Speech Engine ID:", engine.engineId);에이전트 오브, 웨이브폼, 챗 위젯 등 미리 만들어진 UI 컴포넌트를 바로 사용하거나, 동일한 SDK 위에 직접 UI를 구축할 수 있습니다.

브라우저나 모바일 앱에서 세 줄로 대화 세션을 시작하세요. ElevenAgents와 동일한 클라이언트 통합 방식이므로, 나중에 업그레이드해도 변경이 필요 없습니다.
import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";
app.get("/api/token", async (req, res) => {
const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
res.json({ token });
});
app.listen(3002, () => console.log("Token server listening on port 3002"));플랫폼은 대규모 배포를 위해 설계되었으며, 엔터프라이즈급 데이터 보호(SOC 2, HIPAA, GDPR 준수)를 지원합니다. 더 엄격한 데이터 관리를 위해 EU 데이터 레지던시와 제로 보관 모드도 제공합니다.

텍스트를 생성하는 모든 LLM을 지원합니다. SDK에는 OpenAI(Responses API, Chat Completions API), Anthropic Messages API, Google Gemini API용 스트림 추출 기능이 내장되어 있습니다. 그 외 공급자는 일반 문자열이나 비동기 이터러블 문자열 청크를 전달하면 됩니다.
ElevenAgents는 ElevenLabs가 LLM, 지식 베이스, 도구를 모두 제공하는 완전 호스팅 플랫폼입니다. Speech Engine은 직접 LLM을 연결하고 대화 로직을 서버에서 제어하고 싶은 개발자를 위한 제품입니다.
TypeScript에서는 Speech Engine을 Node.js HTTP 서버(Express, Fastify, 또는 http.createServer())에 연결하거나, 독립형 WebSocket 서버로 실행할 수 있습니다. Python에서는 SDK가 engine.serve()로 독립 서버를 제공하며, FastAPI, Starlette, 기타 ASGI 프레임워크와 engine.create_session()으로 통합할 수 있습니다.



