
How CARS24 uses voice AI to transform India’s used car experience
Turning 20,000 hours of multilingual customer conversations each month into actionable insights
最も表現力豊かなテキスト読み上げモデル
私たちは発表できることを嬉しく思います。Eleven v3 (アルファ版) — 最も表現力豊かなテキスト読み上げモデルです。
この研究プレビューは、音声生成に前例のないコントロールとリアリズムをもたらします:
Eleven v3 (アルファ版) は以前のモデルよりもプロンプトエンジニアリングが必要ですが、生成される音声は驚くべきものです。
ビデオ、オーディオブック、メディアツールで作業している場合、これにより新たな表現力が解放されます。リアルタイムや会話型の使用ケースには、現在はv2.5 TurboまたはFlashをお勧めします。v3のリアルタイムバージョンは開発中です。
Eleven v3は本日から当社のウェブサイトで利用可能です。パブリックAPIアクセスは近日公開予定です。早期アクセスをご希望の場合は、営業にお問い合わせください。
新しいモデルのElevenLabsアプリでの使用は6月末まで80%オフです。登録はこちら。
Multilingual v2をリリースして以来、音声AIはプロの映画制作、ゲーム開発、教育、アクセシビリティの分野で広く採用されてきました。しかし、一貫した課題は音質ではなく『表現力』でした。より豊かな感情表現や会話の途中での割り込み、リアルで自然なやり取りを実現することが難しかったのです。
Eleven v3はこのギャップを埋めるために開発されました。最初から、ため息をついたり、ささやいたり、笑ったり、反応したりする声を実現するよう設計されており、本当に生き生きとした、応答性の高い音声を生み出します。
機能 | それによって可能になること |
---|---|
オーディオタグ | トーンや感情、非言語的な反応をスクリプト内で直接制御 |
ダイアログモード | 複数話者による自然なテンポと割り込みのある会話 |
70以上の言語対応 | 高い需要のある主要な世界言語を完全に網羅 |
テキストの高度な理解 | テキスト入力から得られる、より自然な強調、リズム、そして表現力 |
オーディオタグはスクリプト内にインラインで記述し、小文字の角括弧[]でフォーマットします。オーディオタグの詳細についてはドキュメントのv3プロンプトガイドを参照ください。
注)「プロフェッショナルボイスクローン(PVC)」は現在、Eleven v3 に対して完全には最適化されていないため、以前のモデルと比べてクローンの品質がやや低下する可能性があります。リサーチプレビュー段階の現時点では、v3 の機能を利用したい場合、インスタントボイスクローン(IVC)やボイスデザインを使用するのが最適です。PVC の v3 対応最適化は、近い将来に予定されています。
例えば、次のようにプロンプトを入力できます:『[whispers] 何かが近づいている… [sighs] その気配がする。』また、より表現力豊かに制御したい場合は、複数のタグを組み合わせることも可能です。
1 | “[happily][shouts] We did it! [laughs].” |
Eleven v3は既存のテキスト読み上げ(Text to Speech)エンドポイントで対応しています。さらに、新たにText to Dialogue用のAPIエンドポイントを導入しました。話者ごとの発話を表す構造化されたJSONオブジェクトの配列を提供すると、モデルが一体感のある重なり合う音声ファイルを生成します:
1 | [ |
2 | {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."}, |
3 | {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."}, |
4 | {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"} |
5 | ] |
6 |
詳しくはこちらを参照ください。
プラン | リリース記念プロモーション | 30日後 |
---|---|---|
UI (Webより購入) | 80%割引き (約5分の1の価格) | Multilingual V2と同じ |
API (Webより購入 & エンタープライズ) | Multilingual V2と同じ | 同左 |
エンタープライズ UI | Multilingual V2と同じ | 同左 |
v3を使うには:
API へのアクセスと Studio でのサポートはまもなく利用可能になります。先行アクセスをご希望の方は営業にお問い合わせください。
Eleven v3 (アルファ) は以前のモデルよりもプロンプトエンジニアリングが必要です。動作すれば素晴らしい結果が得られますが、信頼性と高いレイテンシーのため、リアルタイムや会話型のユースケースには適していません。これらには Eleven v2.5 Turbo/Flash をお勧めします。
詳しくはv3ドキュメンテーション 及びFAQを参照ください。
没入型ストーリーテリングから映画制作パイプラインまで、新しいユースケースでv3をどのように活用していただけるか、私たちはとても楽しみにしています。
Turning 20,000 hours of multilingual customer conversations each month into actionable insights
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Powered by ElevenLabs 会話型AI