コンテンツにスキップ

Eleven v3が正式リリースされました

Eleven v3は、ElevenLabsで最も高度なテキスト読み上げモデルです。アルファ版を経て、正式にご利用いただけるようになりました。

Eleven v3, our most advanced Text to Speech model, is now out of Alpha and generally available.

Eleven v3は、ElevenLabsで最も高度なテキスト読み上げモデルです。アルファ版を経て、正式にご利用いただけるようになりました。

アルファ版リリース以降も、モデルの改良を続けてきました。主な改善点は2つです。

より安定しました。 テストでは、ユーザーの72%が新バージョンを従来のアルファ版より好みました。

より正確になりました。 数字や記号、専門的な表記の扱いが大幅に向上し、多言語でより正確に読み上げられるようになりました。

精度の向上

テキスト読み上げモデルは、入力された内容を解釈し、どのように発音するかを判断します。同じ記号でも、文脈によって意味が異なることがあります。

電話番号の例:「+49 170 9876543」

以前は、モデルが「プラス フォーティーナイン、ワンハンドレッドセブンティー、ナインミリオンエイトハンドレッドセブンティーシックスサウザンドファイブハンドレッドフォーティースリー」といったように、数字を大きな数値として読み上げてしまうことがありました。本来は「プラス フォーナイン、ワンセブンゼロ、ナインエイトセブンシックスファイブフォースリー」と読むのが正しいです。

このような誤りは、スポーツのスコアや化学式、通貨、座標など、記号の解釈が必要なさまざまな場面で発生していました。

社内ベンチマークとして、8言語・27カテゴリでテストを行いました。

全体結果: エラーが68%減少。エラー率は15.3%から4.9%に改善しました。

カテゴリ別のエラー率:

Before
Chemical Formulas
45.6%
Phone Numbers
16.9%
URLs / Emails
45.6%
ISBNs
17.9%
License Plates
14.4%
Mathematical Expressions
23.8%
Geographic Coordinates
46.2%
After
Chemical Formulas
0.6%
Phone Numbers
0.6%
URLs / Emails
3.9%
ISBNs
0.0%
License Plates
1.2%
Mathematical Expressions
6.9%
Geographic Coordinates
17.5%
Error Reduction
Chemical Formulas
99%
Phone Numbers
99%
URLs / Emails
91%
ISBNs
100%
License Plates
91%
Mathematical Expressions
71%
Geographic Coordinates
62%

特に、文脈によって記号の意味が変わるカテゴリで大きな改善が見られました。例えばコロン(:)がスポーツのスコアや時刻、アスペクト比など、周囲のテキストによって解釈が異なる場合です。

通貨 — 正しい桁数で読み上げ:

入力: ¥250,000

以前:25,000円

改善後: 250,000円

化学式 — 記号を正しく保持:

入力: SO₂

以前:「サルファーダブル」(誤読)

改善後: 「エス オー ツー」

スポーツのスコア — 文脈に応じた解釈:

入力: 最終スコア:102-98

以前:「102マイナス98」

改善後: 「102対98」

提供状況

Eleven v3は、すべてのプラットフォームで正式にご利用いただけます。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン