Question 1

어떤 텍스트 음성 변환 모델을 사용해야 하나요?

Accepted Answer

- Flash v2.5 - 실시간 음성 에이전트 등 초저지연(~75ms) 애플리케이션용
- Turbo v2.5 - 상호작용에 적합한 품질과 속도 균형(~250-300ms)
- Multilingual v2 - 최대 10,000자 장문 콘텐츠에 일관된 품질 제공
- Eleven v3 - 창의적 용도의 최대 감정 표현 및 폭넓은 감정 범위

Question 2

예상 지연 시간은 어느 정도인가요?

Accepted Answer

Flash v2.5는 약 75ms의 지연 시간을 제공합니다.
Turbo v2.5는 일반적으로 250-300ms 내에 응답합니다.
두 모델 모두 스트리밍 출력을 지원해, 생성이 끝나기 전에 재생을 시작할 수 있습니다.

Question 3

지원되는 언어는 몇 개인가요?

Accepted Answer

Eleven v3는 70개 이상의 언어를 지원합니다.
Flash v2.5와 Turbo v2.5는 32개 언어를 지원합니다.
Multilingual v2는 29개 언어를 지원합니다.

Question 4

요청당 문자 제한은 어떻게 되나요?

Accepted Answer

Flash v2.5 및 Turbo v2.5: 40,000자
Multilingual v2: 10,000자
Eleven v3: 3,000자

Question 5

감정과 전달 방식을 제어할 수 있나요?

Accepted Answer

오디오 태그([laughs], [whispers], [sighs], [door slam])를 사용해 전달 방식, 감정, 강조, 멈춤, 음향 효과 등을 제어할 수 있습니다. Eleven v3가 가장 풍부한 감정 제어를 제공합니다.

Question 6

이용 가능한 보이스는 몇 개인가요?

Accepted Answer

보이스 라이브러리에는 10,000개 이상의 보이스가 포함되어 있습니다. 텍스트 프롬프트로 보이스를 복제하거나 직접 디자인할 수도 있습니다.

Question 7

API에서 스트리밍을 지원하나요?

Accepted Answer

네. 스트리밍을 사용하면 전체 오디오가 생성되기 전에 재생을 시작할 수 있어, 실시간 애플리케이션에서 체감 지연이 줄어듭니다.

Question 8

커스텀 보이스를 사용할 수 있나요?

Accepted Answer

네. 보이스 ID로 라이브러리 내 모든 보이스를 참조할 수 있으며, 프로페셔널 음성 복제, 즉시 복제, 직접 디자인한 보이스도 포함됩니다.

Question 9

지원되는 오디오 포맷은 무엇인가요?

Accepted Answer

API는 기본적으로 MP3를 출력합니다. 추가 포맷으로 PCM과 μ-law도 지원합니다.

Question 10

지연 시간을 최적화하려면 어떻게 해야 하나요?

Accepted Answer

스트리밍이 활성화된 Flash v2.5를 사용하세요. 요청은 1,000자 미만으로 유지하고, 실시간 애플리케이션에는 WebSocket 연결을 사용하세요.

Question 11

발음 커스터마이징이 가능한가요?

Accepted Answer

네. 음성 철자 또는 발음 사전을 사용해 특정 단어의 발음을 제어할 수 있습니다.

Question 12

어떤 SDK가 제공되나요?

Accepted Answer

Python, JavaScript/TypeScript용 공식 SDK가 제공됩니다. HTTP API도 사용할 수 있습니다.

Question 13

코드 예제는 어디서 볼 수 있나요?

Accepted Answer

전체 API 레퍼런스, 코드 예제, 통합 가이드는 elevenlabs.io/docs/api-reference에서 확인할 수 있습니다.

Question 14

엔터프라이즈 지원이 제공되나요?

Accepted Answer

네. 엔터프라이즈 요금제에는 SOC 2 준수, HIPAA 지원, GDPR 준수, EU 데이터 레지던시, 제로 보관 모드, 전담 지원, 맞춤 SLA가 포함됩니다.

텍스트 음성 변환(TTS) API

초현실적이고 저지연의 음성 생성

가장 강력한 Voice AI 모델 기반

Flash v2.5

Turbo v2.5

다국어 v2

Eleven v3

실제 서비스에 바로 적용 가능한 음성 구축에 필요한 모든 것

감정과 전달 방식 제어

10,000개 이상의 보이스 이용

보이스 디자인 & 복제

다중 화자 대화

오디오 이벤트 및 연출

발음 사전

세계 최고의 기업과 브랜드가 선택한 기술

실제 서비스용으로 설계된 API

엔터프라이즈급 데이터 보호

Python 및 TypeScript SDK

고급 지원 및 맞춤형 배포

자주 묻는 질문

최신 업데이트