어떤 LLM을 지원하나요?

텍스트를 생성하는 모든 LLM을 지원합니다. SDK에는 OpenAI(Responses API, Chat Completions API), Anthropic Messages API, Google Gemini API용 스트림 추출 기능이 내장되어 있습니다. 그 외 공급자는 일반 문자열이나 비동기 이터러블 문자열 청크를 전달하면 됩니다.

Speech Engine과 ElevenAgents의 차이점은 무엇인가요?

ElevenAgents는 ElevenLabs가 LLM, 지식 베이스, 도구를 모두 제공하는 완전 호스팅 플랫폼입니다. Speech Engine은 직접 LLM을 연결하고 대화 로직을 서버에서 제어하고 싶은 개발자를 위한 제품입니다.

어떤 서버 프레임워크를 지원하나요?

TypeScript에서는 Speech Engine을 Node.js HTTP 서버(Express, Fastify, 또는 http.createServer())에 연결하거나, 독립형 WebSocket 서버로 실행할 수 있습니다. Python에서는 SDK가 engine.serve()로 독립 서버를 제공하며, FastAPI, Starlette, 기타 ASGI 프레임워크와 engine.create_session()으로 통합할 수 있습니다.

Speech Engine 소개

채팅 에이전트를 보이스 에이전트로 전환하세요

시작하기 영업팀 문의

한 번의 프롬프트로 기존 챗 에이전트에 사람 같은 음성을 추가하세요. 음성은 ElevenLabs가 처리합니다. 에이전트의 LLM, RAG, 아키텍처는 그대로 유지됩니다.

기존 스택에 보이스 레이어 추가

시작하기

Speech Engine이 기존 스택 위에 바로 통합됩니다. 아키텍처 변경 없이 텍스트 기반 에이전트는 그대로 유지됩니다.

모든 보이스 레이어, 한 번의 통합으로

Speech Engine은 업계 최고 수준의 음성, 트랜스크립션, 보이스 오케스트레이션 모델을 하나의 파이프라인으로 결합했습니다. 모두 함께 최적화되어 작동합니다.

Speech Engine

Speech to Text

Turn Detection

Interrupt Detection

Text to Speech

Audio Orchestration

챗봇에 보이스 기능 추가

음성은 정보를 가장 빠르고 풍부하게 전달하는 방식으로, 제품과 서비스를 고객이 더 쉽게 이용할 수 있게 합니다.

자연스러운 대화 흐름

ElevenLabs 음성 모델은 대화에 최적화되어 실제 환경에서도 초저지연을 제공합니다.

자연스러운 대화 흐름과 끼어들기 처리

전용 모델이 겹치는 음성이나 문장 중간의 변화도 별도의 커스텀 로직 없이 처리합니다.

70개 이상의 언어로 전 세계 지원

다양한 언어에서 감정을 풍부하게 표현하는 사람 같은 음성을 제공합니다.

수백만 건의 실제 대화에서 검증된 음성 스택

모든 구성요소가 함께 최적의 성능을 내도록 설계되었습니다.

음성 인식(Speech to Text)

대화 정확도에 최적화된 트랜스크립션 모델로, 사용자의 음성을 초저지연 80ms로 변환합니다.

텍스트 음성 변환(Text to Speech)

70개 이상의 언어로 표현력 있고 사람 같은 음성 제공. 11,000개 이상의 보이스 라이브러리에서 선택하거나, 음성 복제로 직접 만들 수 있습니다.

턴 감지

사용자가 말을 끝냈는지, 잠시 멈췄는지 구분하여 정확한 시점에 트랜스크립트를 LLM에 전달합니다.

끼어들기 처리

에이전트가 말하는 동안 사용자의 음성을 감지합니다. 사용자가 끼어들면 즉시 재생을 멈추고 다시 응답합니다.

음성 활동 감지

입력 단계에서 배경 소음을 걸러내어 깨끗한 오디오만 트랜스크립션 모델로 전달합니다.

오디오 오케스트레이션

사용자 오디오 캡처부터 에이전트의 음성 응답 전달까지, 전체 보이스 라이프사이클을 관리합니다.

한 번의 프롬프트로 에이전트에 Speech Engine 추가

한 줄 명령어로 스킬을 설치하세요. 이 스킬이 필요한 모든 설정을 자동으로 완료해, 채팅에서 음성까지 한 번에 전환할 수 있습니다.

서버 SDK

서버에 Speech Engine을 연결하세요. 트랜스크립트를 받아 LLM에 전달하고, 응답을 다시 보내는 모든 과정이 몇 줄로 끝납니다.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs UI

에이전트 오브, 웨이브폼, 챗 위젯 등 미리 만들어진 UI 컴포넌트를 바로 사용하거나, 동일한 SDK 위에 직접 UI를 구축할 수 있습니다.

ElevenLabs UI 보기

Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

클라이언트 SDK

브라우저나 모바일 앱에서 세 줄로 대화 세션을 시작하세요. ElevenAgents와 동일한 클라이언트 통합 방식이므로, 나중에 업그레이드해도 변경이 필요 없습니다.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));