Eleven v3オーディオタグとは?その重要性について

ElevenLabsのオーディオタグでAI音声の感情、話し方、サウンドエフェクトをコントロールできます。

Audio tags

リリースされたEleven v3によって、オーディオプロンプトが必須スキルになりました。AI音声に話してほしい言葉を入力するだけでなく、新たな機能であるオーディオタグを使って、感情から話し方まで自在にコントロールできます。

Eleven v3はアルファ版のリサーチプレビューとなる新モデルです。従来モデルよりもプロンプトエンジニアリングが必要ですが、その生成結果は圧倒的です。

ElevenLabsオーディオタグは、角括弧で囲んだ単語で、新しいEleven v3モデルが解釈し、音声表現を指示できます。[excited]、[whispers]、[sighs]から、[gunshot]、[clapping]、[explosion]まで、さまざまなタグが使えます。

オーディオタグを使えば、AI音声のトーンや間、話し方など、非言語的なニュアンスまで調整できます。オーディオブックやインタラクティブなキャラクター、会話型メディアなど、感情や表現を細かくコントロールしたい場面で役立つシンプルなスクリプト用ツールです。

オーディオタグでパフォーマンスを指示

オーディオタグはスクリプトのどこにでも挿入でき、リアルタイムで話し方を調整できます。タグを組み合わせて使うことも、1文の中で複数使うことも可能です。タグは主に以下のカテゴリに分かれます:

感情

これらのタグで声の感情的なトーンを設定できます。たとえば、[sad]、[angry]、[happily]、[sorrowful]などを単独または組み合わせて使えます。

Background
Background

話し方の指示

こちらはトーンやパフォーマンスの調整に使います。ボリュームやエネルギーを変えて、抑えたい場面や強調したい場面に合わせられます。例:[whispers]、[shouts]、[x accent]など。

Background
Background

人間らしい反応

自然な会話にはリアクションが欠かせません。たとえば、[laughs]、[clears throat]、[sighs]などを挿入して、リアルな自然な瞬間を演出できます。

Background
Background

より表現力豊かなモデルをベースに

これらの機能の背景には、v3の新しいアーキテクチャがあります。モデルがテキストの文脈をより深く理解できるため、感情の変化やトーンの切り替え、話者の交代も自然に表現できます。オーディオタグと組み合わせることで、従来のTTSでは難しかった表現力が実現します。

さらに、複数話者のダイアログも自然に作成可能です。割り込みやムードの変化、会話のニュアンスも最小限のプロンプトで表現できます。

現在利用可能

プロフェッショナルボイスクローン(PVC)は現時点ではEleven v3に最適化されていないため、従来モデルよりクローン品質が下がる場合があります。v3の機能を使いたい場合は、リサーチプレビュー期間中はインスタントボイスクローン(IVC)やデザインボイスの利用をおすすめします。PVCのv3最適化は今後予定されています。

Eleven v3はElevenLabsのUIで利用でき、6月末まで80%オフでご提供中です。Eleven v3(アルファ)のパブリックAPIも利用可能です。試してみたい方も、大規模導入を検討中の方も、今が新しい可能性を探るチャンスです。

オーディオタグの作り方

AI音声を「読む」だけでなく「演じる」ためには、オーディオタグの使いこなしがカギです。タグの使い方をわかりやすく解説した7つのガイドを用意しました。たとえば、【ささやき】, 【小さく笑う】や、【フランス語なまり】などのタグで、文脈や感情、話し方、複数キャラクターの会話まで、1つのモデルで自在に表現できます。

シリーズをチェック

  • 状況認識 – たとえば、【ささやき】, 【叫ぶ】【ため息】などのタグで、その場の雰囲気に合わせて緊張感を高めたり、警告を和らげたり、サスペンスのために間を取ったりできます。
  • キャラクターパフォーマンス【海賊風】から、【フランス語なまり】まで、タグを使えばナレーションがロールプレイに変わります。途中でキャラクターを切り替えたり、モデルを変えずに本格的な演技も可能です。
  • 感情の文脈 【ため息】, 【興奮気味】や、【疲れた様子】などのキューで、その瞬間ごとの感情を表現し、緊張や安心、ユーモアを重ねられます。録り直しは不要です。
  • ナラティブインテリジェンス – 物語はタイミングが大切。たとえば、【間】, 【感嘆】や、【ドラマチックな口調】などのタグでリズムや強調を調整し、AI音声がリスナーを物語の流れに導きます。
  • 複数キャラクターの会話【話を遮る】, 【重なって話す】やトーンの切り替えで、重なり合うセリフやテンポの良い掛け合いも表現できます。1つのモデルで多彩な声を使い分け、自然な会話を実現します。
  • 話し方のコントロール – 間や強調を細かく調整。たとえば、【間】, 【急ぎ気味】や、【引き延ばす】などのタグでテンポを自在に操り、テキストをパフォーマンスに変えます。
  • アクセントの再現 – 地域ごとのアクセントも即座に切り替え可能—【アメリカ英語なまり】, 【イギリス英語なまり】, 【アメリカ南部なまり】など、多様な文化的ニュアンスをモデルを変えずに表現できます。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン