笑うことができる初のAI

私たちのモデルは他に類を見ない感情を生み出します

A black and white cartoon-style drawing of a smiling face with a wide, toothy grin and closed, happy eyes.

前回の記事では、私たちの音声合成ツールによって生成された長文サンプルをいくつか紹介しました。また、モデルの独自設計がどのようにしてテンポの良い自然な音声を生み出すかを簡単に説明しました。今日は、他のどのモデルよりも感情豊かで文脈を理解する能力が高いことをお見せします。これにより、リスナーを引き込むだけでなく、書籍やビデオゲームの音声化から広告まで、さまざまな用途に適しています。

感情

私たちのモデルの強みである流暢さと適切なイントネーションは、500,000時間以上の豊富なトレーニングデータから来ていますが、実際にはこのデータからどのように学ぶかが中心的な要素です。基本的なレベルでは、文章に含まれる感情を理解し、話者が幸せ、怒り、悲しみ、または中立のどれであるべきかを判断するように作られています。いくつかの例を考えてみてください:

イントネーションやムードの違いはすべてテキストから来ており、他の要因は出力に影響を与えていません。句読点や単語の意味が特定の文をどのように伝えるかを決定する上で重要な役割を果たしますが、勝利に喜ぶ話者が笑い声のような通常の音声にはない音を説得力を持って生成する様子にも注目してください(私たちのAIが可能なさまざまな笑い声のコンピレーションを近日中に公開します!)。同様に、話者が何か面白いことに楽しんでいるときには反応を適切に誇張します。それは「すごく面白い」。

文脈

しかし、個々の単語の意味を知るだけでは不十分です。私たちのモデルは各発話を取り巻く広い状況にも敏感で、前後のテキストとの関連性によって何かが意味を成すかどうかを評価します。この広い視点により、複数の文にわたる特定の思考の流れを統一された感情パターンで重ね合わせることで、長いフラグメントを適切にイントネーションすることができます。また、論理的な誤りを避けるのにも役立ちます。例えば、「read」が現在形と過去形で同じように書かれている場合や、「minute」が時間の単位や小さいものを意味する場合など、どちらが適切かは文脈に依存します。

書かれた言葉と話された言葉

長文コンテンツのニーズに応えるためにプラットフォームを設計しているため、記号や略語、書き言葉で一般的な特定の慣習が特定の方法で発音されるべきか、文字通りに発音されるべきでないことをモデルが理解する必要があります。例えば、FBI、TNT、ATMはUNESCOやNASAとは異なる発音が必要です。同様に、$3trは書き言葉では問題ありませんが、読み上げる際には「3兆ドル」とする必要があります。

人間の介入

これらの微妙な違いを認識することは重要です。なぜなら、生成プロセスにおける人間の介入を最小限に抑えることが目標だからです。結局のところ、オーディオブックを数分で生成できるツールの能力を宣伝しておきながら、誰かが全音声を聞いてからテキストを再作成する必要があるわけではありません。それでも、発音に関するモデルのルールを継続的に更新していますが、何かがモデルを混乱させる可能性は常にあります。このため、テキストのどの部分が問題であったかをユーザーが即座に確認し、どのように発音されるべきかを教えることができる不確実性をフラグするシステムを開発中です。

無数のアプリケーション

これまでに示したすべての機能は、私たちのソフトウェアを最も多用途なAI音声ツールにするためのステップです。

ニュース出版社は、オーディオの存在感を高めることが購読者を維持するための優れた方法であることをすでに発見しています。各記事にオーディオ読み上げを埋め込む大きな利点は、人々が他のことをしながら聞くことができることです。そうする出版社はしばしばボイスアクターを使用しますが、これは高価であり、すべての記事がカバーされるわけではありません。また、自社の記者に記事を読ませることもありますが、これは時間がかかり、つまり高価です。合成音声を使用してコンテンツを音声化する出版社はお金を節約しますが、品質を妥協することで別の代償を払っています。今、ElevenLabsを使えば、妥協する必要はなく、両方の利点を享受できます。

また、すべてのキャラクターに感情豊かなボイスオーバーを数分で生成するオーディオブックを想像してみてください。これにより、書籍との新しい関わり方が生まれるだけでなく、学習障害を持つ人々へのアクセスも大幅に容易になります。

今やビデオゲームデベロッパーに開かれた可能性を考えてみてください。特定のキャラクターが実際のアクターで声を当てるだけの価値があるかどうかを考慮する必要がなくなりました。すべてのNPCが独自の声と個性を持つことができます。

広告代理店やプロデューサーは、スポーツTVチャンネルや高級時計ブランドのキャンペーンのトーンに合わせてボイスオーバーを自由に実験し調整できます。どのアクターの声もクローン化のためにライセンスされ、変更が即座に適用され、アクターが物理的に存在する必要はありません。また、完全に合成された声を選ぶ場合、声の権利の買い取りを心配する必要もありません。

バーチャルアシスタントは、ボイスクローンにより特定のユーザーに馴染みのある声で話すことができるため、よりリアルに感じられるようになります。また、この新たな表現の深さにより、より自然な対話が可能になります。

Eleven Labs ベータ版

こちらからベータプラットフォームにサインアップして、自分で試してみてください。私たちは常に改善を行っており、すべてのユーザーフィードバックはこの初期段階で非常に貴重です。お楽しみください!

ElevenLabsチームによる記事をもっと見る

Customer stories
burda-verlag

Burda - Strategic Partnership for Audio AI and Voice Agent Solutions

BurdaVerlag is partnering with ElevenLabs to integrate its advanced AI audio and voice agent technology into the AISSIST platform. This will provide powerful tools for text-to-speech, transcription, and more, streamlining workflows for media and publishing professionals.

Product
ElevenLabs Agent Testing

Introducing Tests for ElevenLabs Agents

Ensure reliability and compliance with ElevenLabs Agents Testing. Run structured simulations for tool calls, human transfers, workflows, and guardrails. Integrate into CI/CD and ship agents with confidence.

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン