ElevenLabs 대량 음성 인식 API란?

대량 음성 인식 API는 Scribe의 일부로, 대규모 오디오 및 비디오 전사를 위해 설계된 음성 텍스트 변환 시스템입니다. 개발자와 기업이 99개 언어로 수 시간 분량의 녹음 콘텐츠를 업계 최고 정확도로 처리할 수 있습니다.

어떤 오디오 및 비디오 파일을 업로드할 수 있나요?

Scribe는 MP4, MOV, MP3, WAV 등 모든 주요 포맷을 지원합니다.

Scribe의 대량 전사 정확도는 어느 정도인가요?

Scribe v2는 99개 언어에서 최고 수준의 정확도를 제공하며, 까다로운 오디오 환경, 억양, 녹음 품질에도 강합니다. 공개 벤치마크에서 이전 세대 모델과 타사 API보다 뛰어난 성능을 보입니다.

대용량 파일 전사에는 시간이 얼마나 걸리나요?

처리 시간은 파일 길이와 동시 처리량에 따라 다릅니다. Scribe는 처리량에 최적화되어 있어 대규모 파이프라인도 빠르게 처리하며, 전사본을 수 초~수 분 내에 제공합니다.

Scribe는 화자 분리와 타임스탬프를 지원하나요?

네. API는 스마트 화자 분리, 단어 및 문자 단위 타임스탬프, 웃음이나 음악 등 비음성 이벤트에 대한 동적 오디오 태깅을 지원합니다.

전문 용어에 맞게 모델을 맞춤 설정할 수 있나요?

네. 주요 용어 프롬프트를 활용해 제품명, 기술 용어, 브랜드 고유 문구 등 맞춤형 단어의 정확한 전사가 가능합니다.

대량 음성 인식 API는 안전하고 준수 기준을 충족하나요?

Scribe는 SOC 2, GDPR, 선택적 HIPAA 준수를 지원합니다. 데이터는 전송 중과 저장 시 모두 암호화되며, 팀별로 EU 데이터 거주 또는 Zero Retention 모드를 활성화해 더욱 엄격하게 관리할 수 있습니다.

대량 음성 인식 API의 가격 정책은 어떻게 되나요?

가격은 입력 오디오 1분당 사용량 기준으로 산정됩니다. 대량 작업을 위한 볼륨 할인 및 엔터프라이즈 요금제가 제공됩니다. 자세한 상담은 영업팀에 문의해 주세요.

어떻게 시작할 수 있나요?

API 키를 생성하고 API 문서를 참고하면 바로 전사를 시작할 수 있습니다.

음성 텍스트 변환 API

ElevenLabs Scribe v2로 음성 전사

API 키 받기 문서 살펴보기

대량 작업에 최적화된 최고 정확도의 STT. 강조와 음향 효과를 감지하고, 주요 키워드 프롬프트로 전사 방향 설정 가능.

데모

코드

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

Lovable
Veed model
Synthesia
Stripe
Perplexity
Twilio

대량 작업에 최적화된 최고 정확도의 음성 텍스트 변환 API

API 키 받기 문서 살펴보기

팟캐스트, 비디오, 인터뷰 등 다양한 녹음 콘텐츠에 자막, 캡션, 편집 가능한 전사본을 API로 쉽고 정확하게 생성하세요.

압도적인 전사 정확도

Scribe v2는 업계 최고 수준의 전사 정확도를 자랑하며, 다양한 억양이나 어려운 오디오 환경에서도 깔끔하고 편집 가능한 텍스트를 제공합니다.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

Natural Speech

Low-quality Audio

Accents

Domain Terms

모든 상황에 맞춘 설계

배경 소음, 음악, 강한 억양, 저음질 오디오 등 까다로운 환경에서도 정확하게 전사합니다.

타이밍, 화자, 비음성 이벤트까지 세밀하게 제어

ElevenLabs 음성 인식 API는 웃음, 감정, 음향 효과까지 감지합니다. 주요 용어 프롬프트로 전문 용어도 정확하게 전사할 수 있습니다.

오디오 및 비디오 전사

MP3, MP4, WAV, MOV 등 다양한 포맷 업로드 가능. Scribe는 최대 10시간 파일도 비동기 처리하며, 대량 작업은 웹훅 알림 지원.

깔끔하고 편집 가능한 전사본

편집, 게시, 후처리에 바로 쓸 수 있는 문장 구조와 올바른 구두점의 텍스트 제공. 별도 정리 필요 없음.

주요 용어 프롬프트

최대 100개의 전문 용어 인식 정확도 향상. 제품명, 기술 용어, 특수 단어도 처음부터 정확하게 전사.

동적 오디오 태깅

웃음, 박수, 음악, 배경 소음 등 비음성 이벤트까지 모두 감지. 전사본에 오디오의 전체 맥락이 담깁니다.

스마트 화자 분리

최대 48명의 화자를 자동으로 식별 및 라벨링. 누가 무엇을 말했는지 명확하게 구분된 읽기 쉬운 전사본 제공.

엔터티(개체) 감지

이름, 날짜, 장소, 조직 등 56가지 엔터티 유형을 전사본에서 자동으로 감지 및 태깅.

Scribe v2

대량 작업에 최적화된 최고 정확도.

95% 이상 정확도
90개 이상 언어 지원
비음성 이벤트 감지
엔터티 감지
주요 용어 프롬프트

Scribe v2 실시간

실시간 작업을 위한 최저 지연 시간.

150ms 이하 지연
90개 이상 언어 지원
전사 스트리밍
음성 활동 감지
자동 언어 인식

90개 이상의 언어와 다양한 억양의 음성 전사 지원

다양한 억양, 방언, 녹음 환경에서도 뛰어난 정확도 제공.

languageCode를 변경해 다양한 언어 미리보기

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // 언어 설정
	  diarize: true
	});

console.log(transcription);

영어

중국어

스페인어

프랑스어

포르투갈어

독일어

일본어

이탈리아어

힌디어

영어클릭하여 미리 듣기

세계 최고의 기업과 브랜드가 선택한 기술력

고객 사례 보기

“현지 언어로 Reels 더빙부터 Horizon에서 음악 및 캐릭터 음성 생성까지, ElevenLabs 플랫폼은 전 세계 크리에이터, 기업, 엔터프라이즈가 음성, 음악, 사운드로 다양한 창작을 실현할 수 있게 합니다.”
“Scribe의 뛰어난 다국어 정확도 덕분에 Fieldy는 모든 일상 대화를 이해하고, 손쉽게 글로벌 확장이 가능해졌습니다. ElevenLabs Scribe 도입 후 사용자 유지율이 50% 증가했습니다.”
“ElevenLabs 덕분에 강력한 텍스트 음성 변환 기능을 SDK에 빠르게 적용할 수 있었고, Agents가 사용자 질문이나 시각 피드백에 실시간으로 감정이 담긴 음성으로 응답할 수 있게 되었습니다.”
“Twilio는 ElevenLabs의 생성형 AI 음성 기술을 CPaaS에 통합해 ConversationRelay를 강화했습니다. 이 통합으로 기업과 개발자는 Twilio CPaaS 플랫폼에서 바로 사람처럼 자연스럽고 감정이 풍부한 대화형 AI 음성 상호작용을 실시간으로 구현할 수 있습니다. ElevenLabs는 Twilio가 가장 자연스러운 AI 음성으로 ConversationRelay를 강화하는 파트너로 ElevenLabs를 선택해 매우 기쁩니다.”