Dust, ElevenLabs를 활용해 AI 기반 엔터프라이즈 워크플로우에 다국어 음성 추가

작성자: Nicolò Scribani Rossi
게시일: 2025년 11월 28일

듣기이 기사 오디오로 듣기

0:00

0:000:00

먼지는 AI 네이티브 엔터프라이즈를 위한 운영체제로, 이제 ElevenLabs 기반의 다국어 음성 입력과 출력을 지원합니다. 일상 업무에 모델을 통합하도록 설계된 Dust는 다양한 언어, 기기, 상황에서 저지연·고현실감의 음성 기능이 필요했습니다.

이것은 단순한 실험이 아니었습니다. 반복적인 고객 요청으로 인해 음성이 제품의 핵심 우선순위가 되었습니다. 그 결과, 출퇴근 중에도 핸즈프리로 에이전트와 상호작용하고, 글로벌 팀 간 다국어 협업이 가능하며, 비동기 워크플로우에 사용할 수 있는 전문적인 오디오 출력 시스템이 완성되었습니다.

엔터프라이즈에서 음성이 중요한 이유

Dust는 업무 환경에서 음성에 필요한 네 가지 핵심 요건을 확인했습니다:

검증을 견디는 자연스러운 품질: 음성 출력은 전문적이고 사람처럼 들려야 하며, 클라이언트 이메일, 팟캐스트, 제품 데모 등에서 공유하기에 적합해야 합니다.
기본적으로 다국어 지원: 팀은 전 세계 오피스와 다양한 언어로 일합니다. 한 세션 내에서 프랑스어, 영어, 독일어를 자유롭게 전환하는 것이 예외가 되어서는 안 됩니다.
저지연: 입력과 출력 모두 응답 속도가 생각과 대화의 흐름을 따라가야 합니다.
엔터프라이즈급 데이터 처리: 데이터 미보관, 지역 기반 라우팅, SOC2 및 GDPR 준수는 필수 조건이었습니다.

Dust가 ElevenLabs를 선택한 이유

OpenAI, Google, Deepgram, AssemblyAI 등 다양한 제공업체를 평가한 끝에, Dust는 뛰어난 품질과 배포 준비도를 갖춘 ElevenLabs를 선택했습니다:

텍스트 음성 변환 음성은 항상 높은 현실감과 폭넓은 감정 표현을 제공해 Dust의 음성 생성기와 사운드 스튜디오 도구에 필수적이었습니다.
음성 인식은 99개 언어의 전사(트랜스크립션)를 지원하며, 언어 간 일관성도 뛰어났습니다.
데이터 미보관과 다중 지역 라우팅으로 엔터프라이즈 규정 준수를 기본적으로 보장했습니다.
프로덕션급 SDK 및 API로 빠른 통합과 플랫폼 간 일관된 성능을 실현했습니다.

Dust의 음성 통합 방식

Dust는 두 가지 핵심 워크플로우에 음성 지원을 구축했습니다:

1. 음성 입력: 에이전트에게 말하기

ElevenLabs의 scribe_v1 모델을 사용하면 이제 사용자가 마이크로

음성 입력은 모바일에서도 제공되어, 타이핑이 불편한 순간에도 사용할 수 있습니다.

2. 음성 출력: 에이전트가 생성하는 오디오

음성 생성기를 통해 Dust 에이전트는 ElevenLabs의 eleven_multilingual_v2 및 eleven_v3 모델을 활용해 오디오 콘텐츠를 제작할 수 있습니다. 출력물에는 팟캐스트, 브리핑, 내러티브 오디오 자료 등이 포함되며, 내부 활용과 외부 공유 모두에 사용됩니다.

사운드 스튜디오는 음향 효과 생성을 기반으로, 교육 및 콘텐츠 활용 사례에 비언어적 오디오 레이어를 추가합니다.

Dust가 얻은 인사이트

지역별 라우팅의 중요성: EU/US 지역 선택 기능을 통해 지연 시간이 줄고, 규정 준수 논의도 쉬워졌습니다.
선별이 풍요로움을 이긴다: 엄선된 12개의 음성만으로도 모든 핵심 니즈를 충족하며, 선택 피로를 줄였습니다.
품질 > 속도: 더 빠른 모델이 있음에도, 사용자는 항상 고음질 음성을 프로덕션 콘텐츠에 선택했습니다.

이로 인해 가능한 것들

모바일 중심 생산성: 이동 중에도 생각을 기록하고 협업할 수 있습니다.
다국어 협업: 각자 자연스럽게 자신의 언어로 말하면, 에이전트가 나머지를 처리합니다.
접근성 높은 비동기 워크플로우: 리서치를 오디오로 전환하고, 입력 장벽을 낮추며, 다양한 업무 스타일을 지원합니다.