본문 바로가기

실시간 음성 인식

실시간 음성 즉시 텍스트로 변환

Scribe v2 Realtime은 90개 이상의 언어를 150ms 지연으로 실시간 전사하는 가장 정확한 모델입니다. API로 제공됩니다.

속도와 정확성을 위해 개발된 Scribe v2 Realtime 소개

초고속, 초정확, 라이브 음성을 위해 설계. Scribe v2 Realtime은 에이전트, 회의, 대화형 AI에 즉각적인 전사를 제공합니다.

높은 정확도

다양한 글로벌 데이터를 학습하고 자연스러운 음성에 맞게 최적화되어, 주요 언어와 억양에서 업계 최고 수준의 단어 오류율을 달성합니다.

Scribe는 정확도 벤치마크에서 모든 경쟁 모델을 앞섭니다

초저지연

오디오를 스트리밍하면 약 150ms 내에 전사 결과를 받아볼 수 있어, 라이브 에이전트, 회의, 대화형 AI에 실시간 이해를 제공합니다.

에이전트, 앱, 모든 언어를 위한 실시간 음성

Scribe Card background
Live call
I’m
happy
to
help.
What’s
your
email
address?
It’s
john.doe@me.com
Thanks.
And
your
phone
number?
1-800-404

에이전트와 음성 앱을 위한 맞춤 설계

Scribe v2 Realtime은 속도와 정확도가 중요한 대화형 에이전트, 회의 어시스턴트, 음성 앱을 개발하는 개발자를 위해 맞춤 설계되었습니다.

Japanese
Hindi
Polish
Swedish
Mandarin
Vietnamese
French

90개 언어의 음성 정확하게 인식

Scribe v2 Realtime은 90개 언어에서 뛰어난 정확도를 제공하며, 다양한 억양, 방언, 음향 환경도 손쉽게 처리합니다.

다양한 오디오 포맷 지원

PCM(8–48 kHz) 및 μ-law 인코딩을 지원해 전화, 브라우저, 스튜디오 환경 모두에서 호환됩니다.

음성 활동 감지

음성 시작과 종료를 감지해 오디오를 정확하게 분할, 매끄럽고 효율적인 실시간 전사를 지원합니다.

수동 커밋 제어

개발자가 전사 완료 시점을 직접 제어할 수 있어, 맞춤형 스트리밍과 세밀한 정확도 조정에 적합합니다.

실시간 성능을 위해 설계된 음성 인식

V2
V1
V2

차세대 모델 기반

Scribe v1을 기반으로 한 Scribe v2 Realtime은 억양, 어조, 환경을 가리지 않고 약 150ms의 지연과 혁신적인 정확도를 제공합니다.

Scribe
makes
uses
is
has
new

저지연 예측 전사

Scribe v2 Realtime은 예측 전사를 통해 다음에 올 단어와 문장 부호를 미리 예측해 실시간 정확도를 높입니다.

복잡한 어휘 지원

기술 용어, 의약품, 고유명사 등 복잡한 어휘도 기본 지원합니다.

스트리밍 지원

오디오를 연속적으로 전송하면 실시간으로 전사 결과를 바로 받아볼 수 있습니다. 버퍼링 없이 즉각적인 이해가 가능합니다.

텍스트 컨디셔닝

Scribe v2 Realtime은 연결이 재설정되어도 전사를 끊김 없이 이어갑니다.

스케일에 맞춘 엔터프라이즈급 보안 및 인프라

Foreground

복잡한 환경에서도 뛰어난 정확도

Scribe Background 2

Natural Speech

Filler words, pauses and emotional cues

Scribe 1

Low-quality Audio

Background noise or low-bandwidth audio

Scribe background 4

Accents

Diverse accents and pronunciations

Scribe background 3

Domain Terms

Acronyms, brands, financial or medical terms

에이전트부터 프로덕션까지 모든 워크플로우에 최적화

ElevenLabs Agents

즉각적이고 저지연의 전사로 실시간 음성 상호작용과 대화형 AI를 구현하세요. Scribe v2 Realtime으로 에이전트가 더 빠르게 듣고, 이해하고, 응답할 수 있습니다.

Agents Graphic - scribe

Scribe Realtime API

초고속 음성 인식을 WebSocket 또는 REST API로 간편하게 제품에 통합하세요. 실시간 오디오 스트리밍과 100ms 이내의 정확한 텍스트를 받아볼 수 있습니다.

Scribe code snippet

필요에 맞춘 유연한 요금제

스타트업부터 엔터프라이즈 팀까지 확장 가능한 요금제로 최고의 정확도와 반응성을 경험하세요.

시간당 $0.28부터

연간 비즈니스 요금제 기준

UI Screenshot

자주 묻는 질문

최신 업데이트

최고 품질의 AI 오디오로 창작하세요