
Eleven v3 オーディオタグ: AIオーディオに状況認識を
Eleven v3 オーディオタグでAI音声を強化。トーン、感情、テンポをコントロールし、自然な会話を実現。テキスト読み上げに状況認識を追加。
Eleven v3 アルファのご紹介
v3を試すElevenLabsのオーディオタグは、AI音声の感情、ペース、サウンドエフェクトを制御します。
リリースに伴い、Eleven v3、オーディオプロンプトが重要なスキルになりました。AI音声に言わせたい言葉を入力したり貼り付けたりする代わりに、新しい機能を使うことができます — オーディオタグ — 感情から表現までをコントロール。
Eleven v3 はアルファ版のリサーチプレビュー新しいモデルの。これにはより多くのプロンプトエンジニアリングが必要ですが、生成されるものは驚くべきものです。
ElevenLabsのオーディオタグは、角括弧で囲まれた単語で、新しいEleven v3モデルが解釈し、音声アクションを指示するために使用します。[excited]、[whispers]、[sighs]から[gunshot]、[clapping]、[explosion]まで、さまざまなものがあります。
オーディオタグを使えば、AI音声の音を形作ることができ、トーンや間、ペースなどの非言語的な要素も含まれます。没入型のオーディオブックやインタラクティブなキャラクター、対話型メディアを構築する際に、これらのシンプルなスクリプトレベルのツールで感情と表現を正確にコントロールできます。
スクリプトのどこにでもオーディオタグを配置して、リアルタイムで表現を形作ることができます。スクリプトや文の中でタグを組み合わせて使用することも可能です。タグは主に以下のカテゴリーに分かれます。
これらのタグは、声の感情的なトーンを設定するのに役立ちます。例えば、[sad]、[angry]、[happily]、[sorrowful]の一つまたは組み合わせを使用できます。
これらはトーンやパフォーマンスに関するものです。シーンに応じて音量やエネルギーを調整するために使用できます。例としては、[whispers]、[shouts]、さらには[x accent]などがあります。
自然なスピーチには反応が含まれます。例えば、自然で即興的な瞬間をスピーチに組み込むことでリアリズムを追加できます。例としては、[laughs]、[clears throat]、[sighs]があります。
これらの機能の基盤となるのは、v3の新しいアーキテクチャです。このモデルはテキストの文脈をより深く理解し、感情の手がかりやトーンの変化、話者の移行をより自然に追従します。オーディオタグと組み合わせることで、以前のTTSでは不可能だった表現力を解放します。
今では、マルチスピーカーダイアログを作成でき、即興的に感じられる会話を実現します。中断やムードの変化、会話のニュアンスを最小限のプロンプトで処理します。
プロフェッショナル ボイスクローン (PVC) は現在、Eleven v3 に完全には最適化されておらず、以前のモデルと比べてクローンの品質が低下する可能性があります。このリサーチプレビュー段階では、v3 の機能を使用する必要がある場合、インスタント ボイスクローン (IVC) やデザインされたボイスをプロジェクトに使用するのが最善です。PVC の v3 への最適化は近いうちに行われます。80% off until the end of June. Public API for Eleven v3 (alpha) is coming soon. For early access, please contact sales. Whether you’re experimenting or deploying at scale, now’s the time to explore what’s possible.
Eleven v3 オーディオタグでAI音声を強化。トーン、感情、テンポをコントロールし、自然な会話を実現。テキスト読み上げに状況認識を追加。
Automating 1,000+ outbound calls with custom multilingual voice agents.