
ボイスデザイン - 初のオーディオ向け生成AI
- カテゴリ
- プロダクト
- 日付
銅像を撮影し、そこに描かれている人物を特定。その後、各キャラクターが時代に合った個性的な声でリアルタイムに会話できます。
これが、ElevenLabsのボイスデザインとエージェントAPIを使って実現できることです。この記事では、コンピュータビジョンと音声生成を組み合わせて、公共のモニュメントをインタラクティブな体験に変えるモバイルウェブアプリのアーキテクチャを紹介します。ここで紹介する内容は、下記のAPIやコードサンプルを使って再現できます。
下記のアプリ全体は、たった1つのプロンプトから作成され、 カーソル の空のNextJSプロジェクトでClaude Opus 4.5(high)を使って一発生成に成功しました。すぐに自分で作りたい場合は、これをエディタに貼り付けてください:
また、ElevenLabsエージェントスキル を使うこともできます。これらはドキュメントをもとにしており、さらに良い結果が得られる場合もあります。
この記事の残りでは、このプロンプトがどのようなものを生み出すかを詳しく解説します。
このパイプラインは5つのステージがあります:
ユーザーが銅像を撮影すると、その画像はOpenAIのビジョン対応モデルに送信されます。システムプロンプトで、アートワーク名、場所、アーティスト、日付、そして各キャラクターの詳細な声の説明を抽出します。システムプロンプトには、期待されるJSON出力形式も含まれています:
ロンドンのウェストミンスター橋にあるブーディカ像の写真の場合、レスポンスはこのようになります:
声の説明の質が、そのまま生成される声の質に直結します。 ボイスデザインのプロンプトガイド で詳しく解説していますが、重要なポイントは:音質の指標(「完璧な音質。」)、年齢や性別、トーンや音色(深い、響きのある、しゃがれたなど)、正確なアクセント(「厚いケルト系イギリス訛り」など)、話す速さです。より具体的なプロンプトほど正確な結果が得られます。「60代で乾いたユーモアを持つ疲れたニューヨーカー」の方が、「年配の女性の声」よりもずっと良い結果になります。
ガイドからのポイント:アクセントの強さを表現する際は「strong」より「thick」を使う、曖昧な「foreign」などは避ける、架空や歴史上のキャラクターには実在のアクセントを参考に提案できる(例:「厚いイギリス訛りで威厳のある古代ケルトの女王」など)。
ボイスデザインAPI は、テキストの説明から新しい合成音声を生成します。声のサンプルやクローンは不要なので、音声資料が存在しない歴史上の人物にも最適です。
手順は2ステップです。
テキストパラメータが重要です。50語以上のキャラクターに合った長めのサンプルテキストを使うと、より安定した結果になります。セリフはキャラクターに合わせて用意しましょう。 ボイスデザインのプロンプトガイド でさらに詳しく解説しています。
プレビューが生成されたら、1つ選んで本番用の声を作成します:
複数キャラクターの銅像の場合、声の生成は並行して行われます。5人分の声も1人分とほぼ同じ時間で作成できます:
声ができたら、次は ElevenLabsエージェント を設定し、リアルタイムでキャラクターごとに声を切り替えられるようにします。
supportedVoices配列で、エージェントが利用できる声を指定します。Agentsプラットフォームは声の切り替えを自動で処理します。LLMの応答で話者が変わった場合、TTSエンジンがその部分を正しい声に割り当てます。
複数キャラクターが本当のグループのように感じられるには、単なる順番のQ&Aではなく、意図的なプロンプト設計が必要です:
最後はクライアント側の接続です。ElevenLabs AgentsはWebRTCに対応しており、低遅延の音声会話が可能です。WebSocketベースの接続よりも明らかに速く、自然な会話のやりとりに重要です。
useConversationフックが音声のキャプチャ、ストリーミング、音声アクティビティ検出、再生を処理します。
会話を始める前にもっと歴史的な背景を知りたいユーザー向けに、OpenAIのウェブ検索ツールを使った強化リサーチモードを追加できます:
このプロジェクトは、テキスト・リサーチ・ビジョン・オーディオなど異なるAIモダリティを組み合わせることで、デジタルと現実世界をつなぐ体験が作れることを示しています。マルチモーダルエージェントには、教育・仕事・エンタメなど、まだまだ未開拓の可能性がたくさんあります。もっと多くの方に挑戦してほしいです。
このプロジェクトで使ったAPI( ボイスデザイン、 ElevenAgents、OpenAI)はすべて今すぐ利用できます。



