ブラックフライデー

引き換え

笑うことができる初のAI

私たちのモデルは他にない感情を生み出します

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

前回の記事では、私たちの音声合成ツールによって生成された長文サンプルをいくつか紹介しました。また、モデルの独自設計がどのようにしてテンポの良い自然な音声を生み出すかを簡単に説明しました。今日は、他のどのモデルよりも感情豊かで文脈を理解する力があることをお見せします。これにより、聞くのが楽しいだけでなく、書籍やビデオゲームの音声化から広告まで、さまざまな用途に適しています。

感情

モデルの強みである流暢さと適切なイントネーションは、500,000時間以上の豊富なトレーニングデータから来ていますが、実際にはこのデータから学ぶ方法が中心的な要因です。基本的なレベルでは、文章に含まれる感情を理解し、話者が幸せ、怒り、悲しみ、または中立のどれであるべきかを判断します。いくつかの例を考えてみてください:

イントネーションやムードの違いはすべてテキストから来ており、他の要因は出力に影響を与えていません。句読点や単語の意味が特定の文をどのように伝えるかを決定する上で重要な役割を果たしますが、勝利に喜ぶ話者が笑いのような通常のスピーチに含まれない音を説得力を持って生成する様子にも注目してください(私たちのAIが可能なさまざまな笑いのコンピレーションを近日中に公開します!)。同様に、話者が何か面白いことに楽しんでいるときには反応を適切に誇張します。それは「すごく面白い」。

文脈

しかし、個々の単語の意味を知るだけでは不十分です。モデルは各発話を取り巻く広い状況にも敏感で、前後のテキストとどのように結びつくかによって何かが意味を成すかどうかを評価します。この広い視点により、特定の思考の流れを複数の文にわたって統一された感情パターンで重ね合わせることで、長いフラグメントを適切にイントネーションすることができます。これにより、論理的な誤りを避けることもできます。例えば、同じように書かれているが異なる意味を持つ単語(例:「read」の現在形と過去形、「minute」の時間単位と小さいもの)があります。どちらが適切かを決定するのは文脈に依存します:

書かれた言葉と話された言葉

長文コンテンツのニーズに応えるためにプラットフォームを設計しているため、モデルが記号や略語、書き言葉で一般的な特定の慣習を特定の方法で発音するか、文字通りに発音しないように理解する必要があります。例えば、FBI、TNT、ATMはUNESCOやNASAとは異なる発音をする必要があります。同様に、$3trは書き言葉では問題ありませんが、読み上げる際には「3兆ドル」にする必要があります。

人間の介入

これらの微妙な違いを認識することは重要です。なぜなら、生成プロセスでの人間の介入を最小限に抑えることが目標だからです。結局のところ、オーディオブックを数分で生成できるツールを宣伝しているのに、誰かが全音声を聞いてからテキストを再作成する必要があるわけではありません。それでも、発音に関するモデルのルールを継続的に更新していますが、何かがモデルを混乱させる可能性は常にあります。このため、テキストのどの部分が問題であるかをユーザーが即座に確認し、どのように発音すべきかを教えることができる不確実性をフラグするシステムを開発中です。

無数のアプリケーション

これまでに示したすべての機能は、私たちのソフトウェアを最も多用途なAI音声ツールにするためのステップです。

ニュース出版社は、オーディオプレゼンスを増やすことが購読者を維持するための優れた方法であることをすでに発見しています。各記事にオーディオ読み上げを埋め込む大きな利点は、人々が何かをしながら聞くことができることです。そうする出版社はしばしばボイスアクターを使用しますが、これは高価であり、すべての記事がカバーされるわけではありません。また、独自の記者がストーリーを読むこともありますが、これは時間がかかり、つまり高価です。合成音声を使用してコンテンツを音声化する人々はお金を節約しますが、品質を妥協することで別の代償を払います。今、ElevenLabsを使用すれば、妥協する必要はなく、両方の利点を享受できます。

また、すべてのキャラクターに感情的に魅力的なボイスオーバーを数分で生成するオーディオブックを想像してみてください。これにより、本との新しい関わり方が生まれるだけでなく、学習障害を持つ人々へのアクセスも大幅に容易になります。

今やビデオゲームデベロッパーに開かれた可能性を考えてみてください。特定のキャラクターが実際のアクターで声を当てるだけの価値があるかどうかを考慮する必要がなくなりました。すべてのNPCが独自の声と個性を持つことができます。

広告代理店やプロデューサーは、スポーツTVチャンネルや高級時計ブランドのキャンペーンのトーンに合わせてボイスオーバーを自由に実験し調整できます。どのアクターの声もクローン化のためにライセンスされているので、アクターが物理的に存在しなくても即座に変更を適用できます。また、完全に合成された声を選ぶ場合、広告主は声の権利の買い取りを心配する必要もありません。

バーチャルアシスタントは、ボイスクローンにより特定のユーザーに馴染みのある声で話すことができるため、よりリアルに感じられるようになります。また、この新たな深みのある表現により、より自然に対話できるようになります。

Eleven Labs ベータ版

こちらからベータプラットフォームにサインアップして、自分で試してみてください。私たちは常に改善を行っており、すべてのユーザーフィードバックはこの初期段階で非常に貴重です。お楽しみください!

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン