본문 바로가기

텍스트 음성 변환(TTS) API

초현실적이고 저지연의 음성 생성

실시간 및 대량 애플리케이션을 위한 고품질, 제어 가능한 텍스트 음성 변환(TTS) 구축. 지연 시간, 음질, 장문 일관성에 최적화된 모델 제공.

고대의 땅 엘도리아에서, 하늘은 반짝이고 숲은 바람에게 비밀을 속삭이던 곳에 제피로스라는 용이 살고 있었습니다. [sarcastically] ‘모두 불태워 버리는’ 그런 종류는 아니었죠... [giggles] 하지만 그는 부드럽고 현명했으며, 눈은 오래된 별처럼 빛났습니다. [whispers] 그가 지나갈 때면 새들도 조용해졌습니다.
  • Lovable
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

가장 강력한 Voice AI 모델 기반

초저지연 에이전트부터 감정 표현이 풍부한 장문 내레이션까지, 용도에 맞는 모델 선택 가능.

Scribe 1

Flash v2.5

가장 낮은 지연 시간의 음성 합성 모델

  • 초저지연(~75ms)
  • 32개 언어 지원
  • 40,000자 제한
  • 분당 약 $0.06
Blurred background

Turbo v2.5

품질과 지연 시간의 균형

  • 낮은 지연 시간(~250-300ms)
  • 고품질 음성 생성
  • 32개 언어 지원
  • 40,000자 제한
  • 분당 약 $0.06
Scribe background 4

다국어 v2

자연스럽고 일관된 품질의 음성 합성 모델

  • 자연스러운 음성 출력
  • 29개 언어 지원
  • 10,000자 제한
  • 장문 생성에 최적화
  • 분당 약 $0.12
Translate media step 5 background

Eleven v3

가장 감정 표현이 풍부한 모델

  • 드라마틱한 전달과 퍼포먼스
  • 70개 이상 언어 지원
  • 3,000자 제한
  • 다중 화자 대화
  • 분당 약 $0.12

실제 서비스에 바로 적용 가능한 음성 구축에 필요한 모든 것

실시간, 장문, 실제 서비스에 적합한 모델로 감정 표현과 제어가 가능한 음성 생성.

감정과 전달 방식 제어

감정, 오디오 이벤트, 몰입감 있는 사운드스케이프가 어우러진 제어 가능한 감정 표현 음성 생성.
Control emotion and delivery

10,000개 이상의 보이스 이용

다양한 용도에 맞는 생생하고 자연스러운 보이스를 계속해서 확장 중인 라이브러리에서 탐색하세요.
10,000+ voices

보이스 디자인 & 복제

30개 이상의 언어로 자연스러운 보이스, 다양한 억양, 현지화된 오디오를 청중에 맞게 제작.
Voice design and cloning

다중 화자 대화

70개 이상의 언어로 자연스러운 다중 화자 대화를 표현력 있고 조절 가능한 음성으로 생성하세요.
Multi-speaker dialogue

오디오 이벤트 및 연출

오디오 태그, 타이밍 신호, 내러티브 연출로 전달 방식을 세밀하게 제어.
Audio events and direction

발음 사전

이름이나 용어 등 특정 단어의 발음을 직접 정의해 일관되고 정확한 음성 제공.
Pronunciation dictionary

세계 최고의 기업과 브랜드가 선택한 기술

  • 현지 언어로 Reels 더빙부터 Horizon에서 음악 및 캐릭터 보이스 생성까지, ElevenLabs 플랫폼은 전 세계 크리에이터, 기업, 엔터프라이즈가 보이스, 음악, 사운드를 대규모로 활용할 수 있게 합니다.
    Meta Color Logo
  • 수백만 명이 YouTube와 Twitch에서 Hikaru, Levy, Magnus 같은 크리에이터에게 체스를 배우고 있습니다. 이제 Chess.com 안에서 이들과 함께 몰입감 있고, 개인적이며, 개성 넘치는 방식으로 배울 수 있습니다. 우리의 목표는 모든 실력의 플레이어를 환영하고, 체스를 쉽게 풀어주며, 재미와 개성을 유지하는 체스 코치를 만드는 것입니다. ElevenLabs와 이 놀라운 새로운 보이스 덕분에 그 비전을 현실로 한 걸음 더 다가갔습니다.
    Chess.com logo
  • ElevenLabs 덕분에 강력한 텍스트 음성 변환 기능을 SDK에 빠르게 적용할 수 있었고, 에이전트가 사용자 질문이나 인식한 내용에 대해 실시간으로 감정 표현이 풍부한 음성으로 응답할 수 있게 되었습니다.
    Stream Color Logo
  • Twilio는 ElevenLabs의 생성형 AI 음성 기술을 CPaaS에 통합해 ConversationRelay를 강화했습니다. 이 통합으로 기업과 개발자는 Twilio CPaaS 플랫폼에서 바로 사람처럼 자연스럽고 감정이 풍부하며 실시간으로 반응하는 대화형 AI 음성 상호작용을 만들 수 있습니다. ElevenLabs는 Twilio가 가장 인간적인 보이스로 ConversationRelay를 강화하기 위해 ElevenLabs를 선택한 것을 매우 기쁘게 생각합니다.
    Twilio logo

실제 서비스용으로 설계된 API

Foreground

자주 묻는 질문

최신 업데이트

가장 현실적인 오디오 AI 플랫폼