Dust、ElevenLabsを活用してAI駆動の企業ワークフローに多言語音声を追加
- 公開日
聴くこの記事を聴く
Dust, the operating system for AI-native enterprises, now includes multilingual voice input and output - powered by ElevenLabs. Designed to integrate models into everyday work, Dust needed voice capabilities that could operate across languages, devices, and contexts with low latency and high realism.
これは探索的なものではありませんでした。顧客からの繰り返しの要望により、音声が製品の優先事項となりました。その結果、通勤中のハンズフリーエージェントとの対話、グローバルチーム間の多言語コラボレーション、非同期ワークフローのためのプロフェッショナルなオーディオ出力をサポートするシステムが生まれました。
企業における音声の重要性
Dustは、作業コンテキストでの音声に関する4つの重要な要件を特定しました:
- 精査に耐える自然な品質:音声出力はプロフェッショナルで人間らしく、クライアントのメール、ポッドキャスト、製品デモで共有するのに適している必要があります。
- デフォルトで多言語対応:チームはグローバルなオフィスと言語で活動しています。1つのセッション内でフランス語、英語、ドイツ語を切り替えることが特別なケースであってはなりません。
- 低遅延:入力と出力の両方で、応答速度は思考や会話のペースに合致する必要があります。
- 企業グレードのデータ処理:データ保持なし、地域ベースのルーティング、SOC2およびGDPRへの準拠は譲れない要件でした。
DustがElevenLabsを選んだ理由
OpenAI、Google、Deepgram、AssemblyAIを含むプロバイダーを評価した後、DustはElevenLabsをその優れた品質と展開準備のために選びました:
- テキスト読み上げの音声は、広範な感情の幅で一貫して高いリアリズムを提供し、Dustのスピーチジェネレーターとサウンドスタジオツールにとって重要です。
- スピーチtoテキストは99の転写言語をサポートし、強力なクロスランゲージの忠実性を持っています。
- ゼロデータ保持とマルチリージョンルーティングにより、企業のコンプライアンスがすぐに確保されました。
- プロダクショングレードのSDKとAPIにより、プラットフォーム全体で迅速な統合と一貫したパフォーマンスが可能になりました。
Dustが音声を統合した方法
Dustは2つのコアワークフローに音声サポートを構築しました:
1. 音声入力:エージェントへの話しかけ
ElevenLabsのscribe_v1モデルを使うことで、ユーザーはマイクを通じて
音声入力はモバイルで利用可能で、タイピングが最も不便な瞬間に対応します。
2. 音声出力:エージェントによって生成されたオーディオ
スピーチジェネレーターを通じて、DustエージェントはElevenLabsのeleven_multilingual_v2およびeleven_v3モデルを使用してオーディオコンテンツを作成できます。出力にはポッドキャスト、ブリーフィング、ナラティブオーディオアーティファクトが含まれ、内部消費と外部共有の両方に使用されます。
サウンドスタジオ、SFX生成によって強化され、トレーニングやコンテンツのユースケースに非言語的なオーディオレイヤーを追加します。
Dustが学んだこと
- 地域ルーティングの重要性:EU/US地域選択を可能にすることで、遅延が減少し、コンプライアンスの会話が容易になりました。
- キュレーションが豊富さに勝る:12の声を厳選することで、意思決定の疲労を軽減し、すべてのコアニーズをカバーします。
- 品質 > 速度:より高速なモデルが利用可能であるにもかかわらず、ユーザーは一貫して高忠実度の音声を制作コンテンツに選びました。
これが可能にすること
- モバイルファーストの生産性:移動中に考えをキャプチャし、コラボレーション。
- 多言語コラボレーション:自分の言語で自然に話す—エージェントが残りを処理します。
アクセス可能な非同期ワークフロー:研究をオーディオに変え、入力障壁を下げ、多様な働き方をサポート。
次に進むこと
Dustはリアルタイムの会話型音声エージェント、転写を超えた深いオーディオ理解、会議やプレゼンテーションのような長文入力のサポートを探求しています。ElevenLabsを統合することで、Dustは音声を企業AIのシームレスな一部にします。




