본문 바로가기

Speech Engine 소개

채팅 에이전트를 보이스 에이전트로 전환하세요

한 번의 프롬프트로 기존 챗 에이전트에 사람 같은 음성을 추가하세요. 음성은 ElevenLabs가 처리합니다. 에이전트의 LLM, RAG, 아키텍처는 그대로 유지됩니다.

기존 스택에 보이스 레이어 추가

시작하기

Speech Engine이 기존 스택 위에 바로 통합됩니다. 아키텍처 변경 없이 텍스트 기반 에이전트는 그대로 유지됩니다.

모든 보이스 레이어, 한 번의 통합으로

Speech Engine은 업계 최고 수준의 음성, 트랜스크립션, 보이스 오케스트레이션 모델을 하나의 파이프라인으로 결합했습니다. 모두 함께 최적화되어 작동합니다.

Speech Engine
Speech to Text
Turn Detection
Interrupt Detection
Text to Speech
Audio Orchestration

챗봇에 보이스 기능 추가

음성은 정보를 가장 빠르고 풍부하게 전달하는 방식으로, 제품과 서비스를 고객이 더 쉽게 이용할 수 있게 합니다.

자연스러운 대화 흐름

ElevenLabs 음성 모델은 대화에 최적화되어 실제 환경에서도 초저지연을 제공합니다.

자연스러운 대화 흐름과 끼어들기 처리

전용 모델이 겹치는 음성이나 문장 중간의 변화도 별도의 커스텀 로직 없이 처리합니다.

70개 이상의 언어로 전 세계 지원

다양한 언어에서 감정을 풍부하게 표현하는 사람 같은 음성을 제공합니다.

수백만 건의 실제 대화에서 검증된 음성 스택

모든 구성요소가 함께 최적의 성능을 내도록 설계되었습니다.

음성 인식(Speech to Text)

대화 정확도에 최적화된 트랜스크립션 모델로, 사용자의 음성을 초저지연 80ms로 변환합니다.

텍스트 음성 변환(Text to Speech)

70개 이상의 언어로 표현력 있고 사람 같은 음성 제공. 11,000개 이상의 보이스 라이브러리에서 선택하거나, 음성 복제로 직접 만들 수 있습니다.

턴 감지

사용자가 말을 끝냈는지, 잠시 멈췄는지 구분하여 정확한 시점에 트랜스크립트를 LLM에 전달합니다.

끼어들기 처리

에이전트가 말하는 동안 사용자의 음성을 감지합니다. 사용자가 끼어들면 즉시 재생을 멈추고 다시 응답합니다.

음성 활동 감지

입력 단계에서 배경 소음을 걸러내어 깨끗한 오디오만 트랜스크립션 모델로 전달합니다.

오디오 오케스트레이션

사용자 오디오 캡처부터 에이전트의 음성 응답 전달까지, 전체 보이스 라이프사이클을 관리합니다.

한 번의 프롬프트로 에이전트에 Speech Engine 추가

한 줄 명령어로 스킬을 설치하세요. 이 스킬이 필요한 모든 설정을 자동으로 완료해, 채팅에서 음성까지 한 번에 전환할 수 있습니다.

서버 SDK

서버에 Speech Engine을 연결하세요. 트랜스크립트를 받아 LLM에 전달하고, 응답을 다시 보내는 모든 과정이 몇 줄로 끝납니다.

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";
const elevenlabs = new ElevenLabsClient({
  apiKey: process.env.ELEVENLABS_API_KEY,
});
const engine = await elevenlabs.speechEngine.create({
  name: "My Speech Engine",
  speechEngine: {
    // Note we use the wss protocol instead of https
    wsUrl: "wss://abc123.ngrok.io/ws",
  },
});
console.log("Speech Engine ID:", engine.engineId);

ElevenLabs UI

에이전트 오브, 웨이브폼, 챗 위젯 등 미리 만들어진 UI 컴포넌트를 바로 사용하거나, 동일한 SDK 위에 직접 UI를 구축할 수 있습니다.

ElevenLabs UI 보기
Chat interface with options for customer support and text input field. "Yes, for John Johnson please" visible.

클라이언트 SDK

브라우저나 모바일 앱에서 세 줄로 대화 세션을 시작하세요. ElevenAgents와 동일한 클라이언트 통합 방식이므로, 나중에 업그레이드해도 변경이 필요 없습니다.

import express from "express";
import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";
import "dotenv/config";

const app = express();
const elevenlabs = new ElevenLabsClient({ apiKey: process.env.ELEVENLABS_API_KEY });
const speechEngineId = "seng_8k3m9xr4hjnfg983brhmhkd98n6";

app.get("/api/token", async (req, res) => {
  const { token } = await elevenlabs.conversationalAi.conversations.getWebrtcToken({ agentId: speechEngineId });
  res.json({ token });
});

app.listen(3002, () => console.log("Token server listening on port 3002"));

엔터프라이즈급 보안

플랫폼은 대규모 배포를 위해 설계되었으며, 엔터프라이즈급 데이터 보호(SOC 2, HIPAA, GDPR 준수)를 지원합니다. 더 엄격한 데이터 관리를 위해 EU 데이터 레지던시와 제로 보관 모드도 제공합니다.

Illustration of a product lifecycle: creation, use, maintenance, and disposal.

채널을 아우르는 경험을 제공하는 통합 플랫폼

Speech Engine Cover

음성 엔진

최대의 유연성

  • 나만의 LLM과 오케스트레이션
  • 동일한 Conversation SDK
  • 맞춤형 RAG 및 비즈니스 로직
Agents Cover

ElevenAgents

최고의 성능

  • 완전 관리형 LLM
  • 내장 도구와 지식 베이스
  • 비개발자용 대시보드
  • 즉시 사용 가능한 전화 기능
  • 최저 지연 시간

자주 묻는 질문

최신 스토리

AI 커뮤니케이션 플랫폼