Eleven v3 オーディオタグ: AIオーディオに状況認識を

Eleven v3 オーディオタグでAI音声を強化。トーン、感情、テンポをコントロールし、自然な会話を実現。テキスト読み上げに状況認識を追加。

v3

オーディオタグは新しい

最もシンプルな形では、オーディオタグは角括弧内の単語です。モデルはこれをパフォーマンスの指示として解釈します。つまり、感情の変化や状況の変化を反映するために、文中での表現を調整できます。AIに状況認識の度合いを持たせることが可能です。

AI音声における状況認識とは?

Background
We're off under the lights here for this semi-final clash, the stadium buzzing with anticipation. ElevenLabs United in their iconic black and white shirts, pushing forward with intent straight from the opening whistle. excited The ball is zipped out wide, early attack here. Driving down the wing, pace to Bernie, shouting skips past one, skips past two! Oh, this is beautiful. One-on-one with the full-back, cuts inside—oh, that's a lovely bit of footwork!!! PURE MAGIC on the pitch! ElevenLabs on top form tonight!
Background
sorrowful I couldn't sleep that night. The air was too still, and the moonlight kept sliding through the blinds like it was trying to tell me something. quietly And suddenly, that's when I saw it.

状況認識とは、AIがその瞬間に合わせて表現を適応させることです。オーディオタグを使うことで、モデルが何を言うかだけでなく、どのように応答するかもコントロールできます。

[SHOUTING]タグで緊迫感を加えたり、[WHISPER]で警告を和らげたり、[SIGH]でためらいを示したり、タグはナレーションをパフォーマンスに変えます。特に高コンテクストや動的なシーンで価値があります。

ただ読むだけでなく、演じる

11 Unitedと12 Unitedのサッカー試合のVeo 3ハイライトビデオをスクリプト化すると想像してください。アクションに合わせて緊張感を高めたい場合:「彼がディフェンダーをかわして—[EXCITED]クロスが来た—[SHOUTING]ゴール!」

または、オーディオブックの緊迫した瞬間を声に出す場合:「[WHISPERING]誰かが家にいると思う。[PAUSE]静かにして。」

これらは単なるスタイルの追加ではありません。その瞬間を定義し、感じ方を導きます。モデルは読むのではなく、演じます。

状況に応じた一般的なタグ

オーディオタグを使って、さまざまな感情や身体的な指示をシミュレートできます:

  • 感情のトーン: [EXCITED], [NERVOUS], [FRUSTRATED], [TIRED]
  • 反応: [GASP], [SIGH], [LAUGHS], [GULPS]
  • 音量とエネルギー: [WHISPERING], [SHOUTING], [QUIETLY], [LOUDLY]
  • ペースとリズム: [PAUSES], [STAMMERS], [RUSHED]

タグを重ねてニュアンスを加えることができます:「[NERVOUSLY]私...これがうまくいくかどうか分からない。[GULPS]でも、とにかくやってみよう。」

操縦できるパフォーマンス

Eleven v3は、より深いコンテクストモデルでこれらのタグをサポートします。トーンを途中で変えたり、中断を処理したり、流れを維持したりできます。スクリプトを書き直さずに、より自然な表現を提供します。

ボイスデザイナー、ゲームデベロッパー、ストーリーテラーにとって、新しいクリエイティブな層を解放します。単にセリフを書くのではなく、演出するのです。

適切な声の選択

プロフェッショナル ボイスクローン(PVC)は現在、Eleven v3に完全に最適化されておらず、以前のモデルに比べてクローンの品質が低下する可能性があります。このリサーチプレビュー段階では、v3の機能を使用する必要がある場合、インスタント ボイスクローン(IVC)やデザインされた声をプロジェクトに選ぶのが最善です。PVCのv3への最適化は近い将来に予定されています。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン

ElevenLabs オーディオタグ: Eleven v3での状況認識 | ElevenLabs