Dust、ElevenLabsを活用してAI駆動の企業ワークフローに多言語音声を追加

執筆者: Nicolò Scribani Rossi
公開日: 2025年11月28日

聴くこの記事を聴く

0:00

0:000:00

Dust, the operating system for AI-native enterprises, now includes multilingual voice input and output - powered by ElevenLabs. Designed to integrate models into everyday work, Dust needed voice capabilities that could operate across languages, devices, and contexts with low latency and high realism.

これは探索的なものではありませんでした。顧客からの繰り返しの要望により、音声が製品の優先事項となりました。その結果、通勤中のハンズフリーエージェントとの対話、グローバルチーム間の多言語コラボレーション、非同期ワークフローのためのプロフェッショナルなオーディオ出力をサポートするシステムが生まれました。

企業における音声の重要性

Dustは、作業コンテキストでの音声に関する4つの重要な要件を特定しました：

精査に耐える自然な品質：音声出力はプロフェッショナルで人間らしく、クライアントのメール、ポッドキャスト、製品デモで共有するのに適している必要があります。
デフォルトで多言語対応：チームはグローバルなオフィスと言語で活動しています。1つのセッション内でフランス語、英語、ドイツ語を切り替えることが特別なケースであってはなりません。
低遅延：入力と出力の両方で、応答速度は思考や会話のペースに合致する必要があります。
企業グレードのデータ処理：データ保持なし、地域ベースのルーティング、SOC2およびGDPRへの準拠は譲れない要件でした。

DustがElevenLabsを選んだ理由

OpenAI、Google、Deepgram、AssemblyAIを含むプロバイダーを評価した後、DustはElevenLabsをその優れた品質と展開準備のために選びました：

テキスト読み上げの音声は、広範な感情の幅で一貫して高いリアリズムを提供し、Dustのスピーチジェネレーターとサウンドスタジオツールにとって重要です。
スピーチtoテキストは99の転写言語をサポートし、強力なクロスランゲージの忠実性を持っています。
ゼロデータ保持とマルチリージョンルーティングにより、企業のコンプライアンスがすぐに確保されました。
プロダクショングレードのSDKとAPIにより、プラットフォーム全体で迅速な統合と一貫したパフォーマンスが可能になりました。

Dustが音声を統合した方法

Dustは2つのコアワークフローに音声サポートを構築しました：

1. 音声入力：エージェントへの話しかけ

ElevenLabsのscribe_v1モデルを使うことで、ユーザーはマイクを通じて

音声入力はモバイルで利用可能で、タイピングが最も不便な瞬間に対応します。

2. 音声出力：エージェントによって生成されたオーディオ

スピーチジェネレーターを通じて、DustエージェントはElevenLabsのeleven_multilingual_v2およびeleven_v3モデルを使用してオーディオコンテンツを作成できます。出力にはポッドキャスト、ブリーフィング、ナラティブオーディオアーティファクトが含まれ、内部消費と外部共有の両方に使用されます。

サウンドスタジオ、SFX生成によって強化され、トレーニングやコンテンツのユースケースに非言語的なオーディオレイヤーを追加します。