본문 바로가기

실시간 음성 텍스트 변환 API

Scribe v2 Realtime으로 라이브 음성 텍스트 변환

Scribe v2 Realtime은 90개 이상의 언어를 지원하며, 지연 시간 150ms로 가장 정확한 실시간 STT(음성 인식)입니다. API를 통해 이용할 수 있습니다.

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

속도와 정확성을 위한 설계

초고속, 초정확, 라이브 음성에 최적화. Scribe v2 Realtime은 실시간 환경에서 즉각적인 음성 텍스트 변환을 제공합니다.

Scribe v2 Realtime은 까다로운 오디오 환경이나 다양한 억양에서도 약 150ms의 지연과 업계 최고 수준의 음성 텍스트 변환 정확도를 제공합니다.

최고 정확도의 실시간 음성 텍스트 변환

Scribe v2 Realtime은 까다로운 오디오 환경이나 다양한 억양에서도 약 150ms의 지연과 업계 최고 수준의 음성 텍스트 변환 정확도를 제공합니다.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

모든 상황에 맞춘 설계

배경 소음, 음악, 강한 억양, 저품질 오디오 환경에서도 동작하는 음성 텍스트 변환.

실시간 성능을 위해 개발된 음성 인식

Scribe v1을 기반으로 한 Scribe v2 Realtime은 억양, 어조, 환경을 가리지 않고 약 150ms의 지연과 혁신적인 정확도를 자랑합니다.

환불 받을 수 있나요?
네, 주문번호를 알려주실 수 있나요?
주문번호는 EL4543490입니다
감사합니다. 주문 환불 절차를 시작했습니다.
환불 완료

Agents와 음성 앱을 위한 맞춤 설계

Scribe v2 Realtime은 개발자가 대화형 에이전트, 회의 어시스턴트, 음성 애플리케이션을 빠르고 정확하게 만들 수 있도록 설계되었습니다.

Scribe
makes
uses
is
has
new

저지연을 위한 예측 음성 변환

Scribe v2 Realtime은 예측 음성 변환을 통해 다음에 올 단어나 구두점을 미리 예측하여 실시간 정확도를 높입니다.

음성 활동 감지

음성의 시작과 끝을 감지해 오디오를 정확하게 구분, 부드럽고 효율적인 실시간 음성 텍스트 변환 제공.

수동 커밋 제어

개발자가 언제 텍스트 변환을 확정할지 직접 제어 가능 – 맞춤형 스트리밍 및 세밀한 정확도 조정에 적합.

다양한 오디오 포맷 지원

PCM(8–48 kHz) 및 μ-law 인코딩 지원으로 전화, 브라우저, 스튜디오 환경 모두 호환.

모든 용도에 최적화된 모델

대량 작업에는 Scribe v2, 저지연 작업에는 Scribe v2 Realtime 사용

Black Mountain

Scribe v2

최고 정확도, 대량 작업에 최적화.

  • 정확도 95% 이상
  • 90개 이상 언어
  • 비음성 이벤트 감지
  • 엔터티 감지
  • 핵심 용어 프롬프트
Mountains

Scribe v2 실시간

최저 지연, 실시간 작업에 적합.

  • 150ms 이하 지연
  • 90개 이상 언어
  • 음성 텍스트 변환 스트리밍
  • 음성 활동 감지
  • 자동 언어 인식

90개 이상의 언어와 다양한 억양의 음성 텍스트 변환

억양, 방언, 녹음 환경에 상관없이 뛰어난 정확도 제공.

languageCode를 변경해 다양한 언어 미리보기

import { useScribe } from "@elevenlabs/react";

const scribe = useScribe({
  modelId: "scribe_v2_realtime",

  languageCode: 
, // 언어 설정 onSessionStarted: () => console.log("Session started"), onPartialTranscript: (data) => console.log("Partial:", data.text) });
Flag for en
영어
Flag for zh
중국어
Flag for es
스페인어
Flag for fr
프랑스어
Flag for pt
포르투갈어
Flag for de
독일어
Flag for ja
일본어
Flag for it
이탈리아어
Flag for hi
힌디어
Flag for en
영어클릭하여 미리 듣기

세계 최고의 기업과 브랜드가 선택한 기술

  • 현지 언어로 Reels 더빙부터 Horizon에서 음악 및 캐릭터 음성 생성까지, ElevenLabs 플랫폼은 전 세계 크리에이터, 기업, 엔터프라이즈가 음성, 음악, 사운드로 다양한 창작을 할 수 있도록 지원합니다.
    Meta Color Logo
  • Scribe의 뛰어난 다국어 정확도 덕분에 Fieldy는 모든 일상 대화를 이해하고 손쉽게 글로벌 확장이 가능해졌습니다. ElevenLabs Scribe로 전환 후 사용자 유지율이 50% 증가했습니다.
    Fieldy logo
  • ElevenLabs 덕분에 강력한 텍스트 음성 변환 기능을 SDK에 빠르게 적용할 수 있었고, Agents가 사용자 질문이나 피드백에 실시간으로 풍부한 음성으로 응답할 수 있게 되었습니다.
    Stream Color Logo
  • Twilio는 ElevenLabs의 생성형 AI 음성 기술을 CPaaS에 통합해 ConversationRelay를 강화했습니다. 이 통합으로 기업과 개발자는 Twilio CPaaS 플랫폼에서 바로 사람처럼 자연스럽고 표현력 있는 실시간 대화형 AI 음성 상호작용을 만들 수 있습니다. ElevenLabs는 Twilio가 가장 자연스럽고 인간적인 음성으로 ConversationRelay를 강화하는 파트너로 ElevenLabs를 선택해 매우 기쁩니다.
    Twilio logo

프로덕션 환경을 위한 API

Foreground

필요에 맞춘 유연한 요금제

스타트업부터 엔터프라이즈 팀까지 확장 가능한 요금제로 최고의 정확도와 반응성을 경험하세요.

시간당 $0.28부터

연간 비즈니스 요금제 기준

UI Screenshot

자주 묻는 질문

최신 업데이트

가장 현실적인 오디오 AI 플랫폼