본문 바로가기

음성 텍스트 변환 API

ElevenLabs Scribe v2로 음성 전사

대량 작업에 최적화된 최고 정확도의 STT. 강조와 음향 효과를 감지하고, 주요 키워드 프롬프트로 전사 방향 설정 가능.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

  • Lovable
  • Veed model
  • Synthesia
  • Stripe
  • Perplexity
  • Twilio

대량 작업에 최적화된 최고 정확도의 음성 텍스트 변환 API

팟캐스트, 비디오, 인터뷰 등 다양한 녹음 콘텐츠에 자막, 캡션, 편집 가능한 전사본을 API로 쉽고 정확하게 생성하세요.

Scribe v2는 업계 최고 수준의 전사 정확도를 제공하며, 다양한 억양이나 어려운 오디오 환경에서도 깔끔하고 편집 가능한 텍스트를 만듭니다.

압도적인 전사 정확도

Scribe v2는 업계 최고 수준의 전사 정확도를 자랑하며, 다양한 억양이나 어려운 오디오 환경에서도 깔끔하고 편집 가능한 텍스트를 제공합니다.

Uh, hi! So, um, I was wondering if you wanted to meet up for coffee? Maybe tomorrow morning? [nervous laugh] Totally fine if not!

모든 상황에 맞춘 설계

배경 소음, 음악, 강한 억양, 저음질 오디오 등 까다로운 환경에서도 정확하게 전사합니다.

타이밍, 화자, 비음성 이벤트까지 세밀하게 제어

ElevenLabs 음성 인식 API는 웃음, 감정, 음향 효과까지 감지합니다. 주요 용어 프롬프트로 전문 용어도 정확하게 전사할 수 있습니다.

오디오 및 비디오 전사

MP3, MP4, WAV, MOV 등 다양한 포맷 업로드 가능. Scribe는 최대 10시간 파일도 비동기 처리하며, 대량 작업은 웹훅 알림 지원.
Transcription Formats

깔끔하고 편집 가능한 전사본

편집, 게시, 후처리에 바로 쓸 수 있는 문장 구조와 올바른 구두점의 텍스트 제공. 별도 정리 필요 없음.
Editable transcripts

주요 용어 프롬프트

최대 100개의 전문 용어 인식 정확도 향상. 제품명, 기술 용어, 특수 단어도 처음부터 정확하게 전사.
Keyterm Prompting

동적 오디오 태깅

웃음, 박수, 음악, 배경 소음 등 비음성 이벤트까지 모두 감지. 전사본에 오디오의 전체 맥락이 담깁니다.

스마트 화자 분리

최대 48명의 화자를 자동으로 식별 및 라벨링. 누가 무엇을 말했는지 명확하게 구분된 읽기 쉬운 전사본 제공.

엔터티(개체) 감지

이름, 날짜, 장소, 조직 등 56가지 엔터티 유형을 전사본에서 자동으로 감지 및 태깅.

Black Mountain

Scribe v2

대량 작업에 최적화된 최고 정확도.

  • 95% 이상 정확도
  • 90개 이상 언어 지원
  • 비음성 이벤트 감지
  • 엔터티 감지
  • 주요 용어 프롬프트
Mountains

Scribe v2 실시간

실시간 작업을 위한 최저 지연 시간.

  • 150ms 이하 지연
  • 90개 이상 언어 지원
  • 전사 스트리밍
  • 음성 활동 감지
  • 자동 언어 인식

90개 이상의 언어와 다양한 억양의 음성 전사 지원

다양한 억양, 방언, 녹음 환경에서도 뛰어난 정확도 제공.

languageCode를 변경해 다양한 언어 미리보기

import { ElevenLabsClient } from "@elevenlabs/elevenlabs-js";

const elevenlabs = new ElevenLabsClient({
	apiKey: "<your_api_key>"
});
const response = await fetch(
  "https://storage.googleapis.com/eleven-public-cdn/audio/marketing/nicole.mp3"
);
const audioBlob = new Blob([await response.arrayBuffer()], { type: "audio/mp3" });

const transcription = await	elevenlabs
	.speechToText.convert({
	  file: audioBlob,
	  modelId: "scribe_v2",
	  tagAudioEvents: true,
	  languageCode: 
, // 언어 설정 diarize: true }); console.log(transcription);
Flag for en
영어
Flag for zh
중국어
Flag for es
스페인어
Flag for fr
프랑스어
Flag for pt
포르투갈어
Flag for de
독일어
Flag for ja
일본어
Flag for it
이탈리아어
Flag for hi
힌디어
Flag for en
영어클릭하여 미리 듣기

세계 최고의 기업과 브랜드가 선택한 기술력

  • 현지 언어로 Reels 더빙부터 Horizon에서 음악 및 캐릭터 음성 생성까지, ElevenLabs 플랫폼은 전 세계 크리에이터, 기업, 엔터프라이즈가 음성, 음악, 사운드로 다양한 창작을 실현할 수 있게 합니다.
    Meta Color Logo
  • Scribe의 뛰어난 다국어 정확도 덕분에 Fieldy는 모든 일상 대화를 이해하고, 손쉽게 글로벌 확장이 가능해졌습니다. ElevenLabs Scribe 도입 후 사용자 유지율이 50% 증가했습니다.
    Fieldy logo
  • ElevenLabs 덕분에 강력한 텍스트 음성 변환 기능을 SDK에 빠르게 적용할 수 있었고, Agents가 사용자 질문이나 시각 피드백에 실시간으로 감정이 담긴 음성으로 응답할 수 있게 되었습니다.
    Stream Color Logo
  • Twilio는 ElevenLabs의 생성형 AI 음성 기술을 CPaaS에 통합해 ConversationRelay를 강화했습니다. 이 통합으로 기업과 개발자는 Twilio CPaaS 플랫폼에서 바로 사람처럼 자연스럽고 감정이 풍부한 대화형 AI 음성 상호작용을 실시간으로 구현할 수 있습니다. ElevenLabs는 Twilio가 가장 자연스러운 AI 음성으로 ConversationRelay를 강화하는 파트너로 ElevenLabs를 선택해 매우 기쁩니다.
    Twilio logo

실제 운영 환경을 위한 API

Foreground

자주 묻는 질문

최신 업데이트

가장 현실적인 오디오 AI 플랫폼