Eleven v3 (アルファ) の紹介

最も表現力豊かなテキスト読み上げモデル

v3

私たちは発表できることを嬉しく思います。Eleven v3 (アルファ版) — 最も表現力豊かなテキスト読み上げモデルです。

この研究プレビューは、音声生成に前例のないコントロールとリアリズムをもたらします:

  • 70以上の言語
  • マルチスピーカーダイアログ
  • [excited], [whispers] あるいは [sighs]といったオーディオタグ

Eleven v3 (アルファ版) は以前のモデルよりもプロンプトエンジニアリングが必要ですが、生成される音声は驚くべきものです。

ビデオ、オーディオブック、メディアツールで作業している場合、これにより新たな表現力が解放されます。リアルタイムや会話型の使用ケースには、現在はv2.5 TurboまたはFlashをお勧めします。v3のリアルタイムバージョンは開発中です。

Eleven v3は本日から当社のウェブサイトで利用可能です。パブリックAPIアクセスは近日公開予定です。早期アクセスをご希望の場合は、営業にお問い合わせください

新しいモデルのElevenLabsアプリでの使用は6月末まで80%オフです。登録はこちら

v3を開発した理由

Multilingual v2をリリースして以来、音声AIはプロの映画制作、ゲーム開発、教育、アクセシビリティの分野で広く採用されてきました。しかし、一貫した課題は音質ではなく『表現力』でした。より豊かな感情表現や会話の途中での割り込み、リアルで自然なやり取りを実現することが難しかったのです。

Eleven v3はこのギャップを埋めるために開発されました。最初から、ため息をついたり、ささやいたり、笑ったり、反応したりする声を実現するよう設計されており、本当に生き生きとした、応答性の高い音声を生み出します。

Eleven v3(アルファ版)の新機能

機能 それによって可能になること
オーディオタグ トーンや感情、非言語的な反応をスクリプト内で直接制御
ダイアログモード 複数話者による自然なテンポと割り込みのある会話
70以上の言語対応 高い需要のある主要な世界言語を完全に網羅
テキストの高度な理解 テキスト入力から得られる、より自然な強調、リズム、そして表現力

v3の音声を実際に体験してみてください

Background
Background

オーディオタグの使い方

オーディオタグはスクリプト内にインラインで記述し、小文字の角括弧[]でフォーマットします。オーディオタグの詳細についてはドキュメントのv3プロンプトガイドを参照ください。

注)「プロフェッショナルボイスクローン(PVC)」は現在、Eleven v3 に対して完全には最適化されていないため、以前のモデルと比べてクローンの品質がやや低下する可能性があります。リサーチプレビュー段階の現時点では、v3 の機能を利用したい場合、インスタントボイスクローン(IVC)やボイスデザインを使用するのが最適です。PVC の v3 対応最適化は、近い将来に予定されています。

例えば、次のようにプロンプトを入力できます:『[whispers] 何かが近づいている… [sighs] その気配がする。』また、より表現力豊かに制御したい場合は、複数のタグを組み合わせることも可能です。

1[happily][shouts] We did it! [laughs].

複数話者による会話の作成

Eleven v3は既存のテキスト読み上げ(Text to Speech)エンドポイントで対応しています。さらに、新たにText to Dialogue用のAPIエンドポイントを導入しました。話者ごとの発話を表す構造化されたJSONオブジェクトの配列を提供すると、モデルが一体感のある重なり合う音声ファイルを生成します:

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

詳しくはこちらを参照ください。

v3は当社で最も表現力の高いモデルです

Background
Background

価格と提供状況

プラン リリース記念プロモーション 30日後
UI (Webより購入) 80%割引き (約5分の1の価格) Multilingual V2と同じ
API (Webより購入 & エンタープライズ) Multilingual V2と同じ 同左
エンタープライズ UI Multilingual V2と同じ 同左

v3を使うには:

  • Model Picker を使ってEleven v3 (alpha)を選択してください

API へのアクセスと Studio でのサポートはまもなく利用可能になります。先行アクセスをご希望の方は営業にお問い合わせください。

v3を使用しない方がよい状況

Eleven v3 (アルファ) は以前のモデルよりもプロンプトエンジニアリングが必要です。動作すれば素晴らしい結果が得られますが、信頼性と高いレイテンシーのため、リアルタイムや会話型のユースケースには適していません。これらには Eleven v2.5 Turbo/Flash をお勧めします。

詳しくはv3ドキュメンテーション 及びFAQを参照ください。

今すぐお試しください

Background
Background
  1. ElevenLabs UIにログインします
  2. ドロップダウンからv3 (alpha) を選択します
  3. テキスト・スクリプトを貼り付けます — タグあるいはダイアログを使います 
  4. 音声を生成します

没入型ストーリーテリングから映画制作パイプラインまで、新しいユースケースでv3をどのように活用していただけるか、私たちはとても楽しみにしています。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン