
Eleven v3(アルファ版)、ついに登場 — 感情まで伝える革新的TTSモデル
Eleven v3は、これまでで最も表現力豊かなテキスト読み上げモデルです
Eleven v3 オーディオタグでAI音声を強化。トーン、感情、テンポをコントロールし、自然な会話を実現。テキスト読み上げに状況認識を追加。
オーディオタグは新しい
最もシンプルな形では、オーディオタグは角括弧内の単語です。モデルはこれをパフォーマンスの指示として解釈します。つまり、感情の変化や状況の変化を反映するために、文中での表現を調整できます。AIに状況認識の度合いを持たせることが可能です。
状況認識とは、AIがその瞬間に合わせて表現を適応させることです。オーディオタグを使うことで、モデルが何を言うかだけでなく、どのように応答するかもコントロールできます。
[SHOUTING]タグで緊迫感を加えたり、[WHISPER]で警告を和らげたり、[SIGH]でためらいを示したり、タグはナレーションをパフォーマンスに変えます。特に高コンテクストや動的なシーンで価値があります。
11 Unitedと12 Unitedのサッカー試合のVeo 3ハイライトビデオをスクリプト化すると想像してください。アクションに合わせて緊張感を高めたい場合:「彼がディフェンダーをかわして—[EXCITED]クロスが来た—[SHOUTING]ゴール!」
または、オーディオブックの緊迫した瞬間を声に出す場合:「[WHISPERING]誰かが家にいると思う。[PAUSE]静かにして。」
これらは単なるスタイルの追加ではありません。その瞬間を定義し、感じ方を導きます。モデルは読むのではなく、演じます。
オーディオタグを使って、さまざまな感情や身体的な指示をシミュレートできます:
タグを重ねてニュアンスを加えることができます:「[NERVOUSLY]私...これがうまくいくかどうか分からない。[GULPS]でも、とにかくやってみよう。」
Eleven v3は、より深いコンテクストモデルでこれらのタグをサポートします。トーンを途中で変えたり、中断を処理したり、流れを維持したりできます。スクリプトを書き直さずに、より自然な表現を提供します。
ボイスデザイナー、ゲームデベロッパー、ストーリーテラーにとって、新しいクリエイティブな層を解放します。単にセリフを書くのではなく、演出するのです。
プロフェッショナル ボイスクローン(PVC)は現在、Eleven v3に完全に最適化されておらず、以前のモデルに比べてクローンの品質が低下する可能性があります。このリサーチプレビュー段階では、v3の機能を使用する必要がある場合、インスタント ボイスクローン(IVC)やデザインされた声をプロジェクトに選ぶのが最善です。PVCのv3への最適化は近い将来に予定されています。
Eleven v3は、これまでで最も表現力豊かなテキスト読み上げモデルです
ElevenLabsのオーディオタグは、AI音声の感情、ペース、サウンドエフェクトを制御します。
Powered by ElevenLabs 会話型AI