Eleven v3 オーディオタグ: AIオーディオに状況認識を

聴くこの記事を聴く

0:00

0:000:00

オーディオタグは新しい

最もシンプルな形では、オーディオタグは角括弧内の単語です。モデルはこれをパフォーマンスの指示として解釈します。つまり、感情の変化や状況の変化を反映するために、文中での表現を調整できます。AIに状況認識の度合いを持たせることが可能です。

状況認識とは、AIがその瞬間に合わせて表現を適応させることです。オーディオタグを使うことで、モデルが何を言うかだけでなく、どのように応答するかもコントロールできます。

[SHOUTING]タグで緊迫感を加えたり、[WHISPER]で警告を和らげたり、[SIGH]でためらいを示したり、タグはナレーションをパフォーマンスに変えます。特に高コンテクストや動的なシーンで価値があります。

11 Unitedと12 Unitedのサッカー試合のVeo 3ハイライトビデオをスクリプト化すると想像してください。アクションに合わせて緊張感を高めたい場合：「彼がディフェンダーをかわして—[EXCITED]クロスが来た—[SHOUTING]ゴール！」

または、サスペンスシーンの

これらは単なるスタイルの追加ではありません。その瞬間を定義し、感じ方を導きます。モデルは読むのではなく、演じます。

オーディオタグを使って、さまざまな感情や身体的な指示をシミュレートできます：

タグを重ねてニュアンスを加えることができます：「[NERVOUSLY]私...これがうまくいくかどうか分からない。[GULPS]でも、とにかくやってみよう。」

Eleven v3は、より深いコンテクストモデルでこれらのタグをサポートします。トーンを途中で変えたり、中断を処理したり、流れを維持したりできます。スクリプトを書き直さずに、より自然な表現を提供します。

適切な声の選択

プロフェッショナルボイスクローン（PVC）は現在Eleven v3に最適化されていないため、以前のモデルよりもクローン品質が下がる場合があります。このリサーチプレビュー期間中は、v3の機能を使いたい場合はインスタント

最高品質のAIオーディオで創造する