この声は存在しません - 音声生成 AI

私たちは、ユーザーがまったく新しい合成音声を設計できる独自の生成モデルを展開しています。

最近、誰もが生成AIについて話しているようです。ChatGPT、Stable Diffusion、DALL-E、Midjourney などのディープラーニングを活用した大規模言語およびテキストから画像への変換モデルは、テクノロジー業界だけでなく、それ以外の分野でも大きな話題を呼んでいます。多くの人は、これらを AI における最近の最も重要な進歩の 1 つとして挙げています。同意するかどうかは別として、非常に万能な何かが現れたというのが一般的な感想のようです。2023 年には、絵を描いたりビデオを作成したりできるモデルが登場します。最新の最高のスマートフォンは何かという質問と同様に、私たちはすぐに最新の最高の基盤モデルは何かという質問をするようになるだろう。しかし、このような興奮にもかかわらず、ジェネレーティブ メディアには、まだあまり注目されていない領域が 1 つあると感じています。それは、音声 AI です。それは私たちがリーダーになることを目指している分野でもあります。Elevenでは、ディープラーニング技術によって解き放たれた潜在能力を日々活用して、リアルな Text to Speech世界です。 ツール。そして現在、私たちは、まったく新しい合成音声をゼロから設計できる独自の生成モデルも導入しています。

音声ジェネレーター - 音声をデザインする

私たちのユーザーは、オーディオブック、ゲーム、ファンフィクションなど、さまざまな用途で自分のキャラクターに命を吹き込むために毎日プラットフォームを利用しています。現在のスピーカーバンクは小さすぎるため、各ユーザー専用のままで、すべてのユーザーが自分のコンテンツのニーズに合った音声を見つけることができないことに気付きました。私たちの解決策は、まったく新しい合成音声を設計できるようにすることでした。

音声合成と音声複製に現在使用している手法を解明していくうちに、これをどのように進めるかについてのアイデアが浮かびました。どちらのプロセスでも、特定の音声の特性をエンコードする方法が必要です。スピーカー埋め込みは、このアイデンティティを運ぶものであり、スピーカーの声のベクトル表現です。専用のモデルをトレーニングすることで、話者の埋め込みの分布からサンプリングし、無限の数の新しい音声を作成できることに気付きました。

ユーザーは主に特定の音声特性を探しているため、プロセスに一定の制御を追加する必要がありました。私たちは、特性に基づいて音声を生成するために、条件付けを使用してモデルを拡張しました。このモデルでは、新しい音声のコアアイデンティティを確立する特定の基本パラメータ(性別、年齢、アクセント、ピッチ、話し方)を設定できるようになりました。つまり、「生成」を押すたびに、同じ基本パラメータを選択しても、これまでになかった全く新しい声が得られます

以下に、このように設計できる音声の例をいくつか示します。

「Design Voice」は、Voice Lab の一環として、今年 2 月に当社のプラットフォームで利用可能になります。

何の役に立つの?

私たちのツールはすでに人間と同じくらいリアルな音声を生成でき、人工音声の潜在的な応用範囲は拡大する一方だと期待しています。ニュース出版物やコマーシャル用の音声録音を含むこれらの新しいアプリケーションの多くでは、1 つの音声を特定のブランドまたは使用例に限定して識別し、他の場所では使用しないことが求められます。ストーリーテリングやビデオゲームなどの他のユースケースでは、開発の早い段階から柔軟性と実験の自由度が優先されます。そこで、膨大な数の仮想スピーカーを作成するのではなく、どの音声が目的に最も適しているかをユーザーが最終的に決定できるようにしました。

著者は、自分の作品を簡単にオーディオに変換できるだけでなく、特注のナレーションをデザインする際の芸術的なコントロールも保持できるようになります。これにより、読者は出版物とやりとりする興味深い新しい方法を手に入れることができ、また、聴いて楽しめる本の数も大幅に増えます。

ニュース 出版社はオーディオにますます進出しており、出版物を表現するために独特の音声を選択することは重要な作業です。多くのリスナーは内容だけでなく形式も重視します。同様に重要なのは、出版社は特定の声が自分たちだけを代表していると確信できるようになったことです。

ビデオゲーム 開発者は、必要なツールをすべて手元に用意して、これまでは無声だった多数の NPC に声を吹き込むことができるようになりました。品質を犠牲にすることなくコスト効率を高めることができるだけでなく、作成する仮想世界に完全に固有の音声を設計することもできるようになりました。

広告 クリエイターは特定のキャンペーンに合わせたナレーションを必要とするため、開発の開始時に共感を呼ぶ目的に合わせたナレーションをデザインできることは大きな利点となります。追加のリソースを投入することなく、複数の音声と配信スタイルを即座に試すことができます。

から クリエイター あらゆる種類のオーディオおよびビデオコンテンツを制作し、 企業 会社のコミュニケーションを音声で伝えたいと考えている役員にとって、ユニークで特定のユースケースに合わせた魅力的なオーディオを設計する機会は無限にあります。

倫理的なAI

音声クローンが悪用される可能性に対する懸念を引き起こすのと同様に、AI技術の普及によって専門家の生活が危険にさらされるのではないかと心配する人が増えている。Eleven では、声優が料金と引き換えに自分の声をライセンスし、特定の用途向けに音声モデルをトレーニングできるようになる未来を思い描いています。クライアントやスタジオは、プロの声優をプロジェクトに喜んで起用するでしょう。AI を使用することで、ターンアラウンド タイムが短縮され、開発初期段階で実験や方向性の確立を行う自由度が高まります。この技術は音声の設計と録音の方法を変えるでしょうが、声優がすべてのセッションに物理的に存在する必要がなくなったことで、声優は一度により多くのプロジェクトに関与できる自由が得られ、また声を真に不滅のものにすることができるようになります。

さらに、私たちが興奮しているのは、著者や開発者が記録コストを負担できなかった多数の書籍、ニュース、独立系ゲーム、その他のコンテンツが、別の媒体を通じてアクセスできるようになるからです。アクセスが拡大すると、それぞれのケースで視聴者層を拡大する機会が生まれます。

Eleven では、知的財産権を尊重することと、当社の技術の潜在的な悪用に対する保護策を実施することに全力で取り組んでいます。

  • 当社は、違法または有害とみなされるあらゆる目的のために当社の技術を悪意を持って使用することを禁止する当社の規約を遵守するクライアントとのみ提携します。
  • また、私たちのモデルによって生成されたすべてのオーディオに透かしを入れて、すぐに私たちのものであるかどうかを追跡できるように取り組んでいます。
  • 認識可能な声を使用する場合は、デモンストレーションの目的で、利益相反が生じない状況で使用します。
  • 同時に、私たちは音声所有者とそのライセンサーが権利を主張できるようサポートし、既知の侵害はすべて調査され、対処されるよう努めます。

将来を見据えて - 自分の声を高める

将来的には、音声生成モデルと音声複製モデルの機能を組み合わせて、ユーザーが自分の音声を強化できるようにする予定です。自分の声を複製し、それを操作して希望する効果を出すことができます。自分の自然な話し方が少し単調すぎるのではないかと心配しているなら、それに変化を加えることができます。録音されることが本当に嫌な場合は、より自然なサウンドになるように出力を操作することができます。事前に録音されたプレゼンテーションや音声メッセージなど、何らかの目的で自分の声を使ったオーディオを作成する必要がある人は、当社のツール スイートを使用してボタンをクリックするだけで作成できます。

あけましておめでとう

2022 年も終わりに近づいてきましたが、ベータ版ユーザーの皆様の継続的なご参加とフィードバックに感謝申し上げます。私たちが開発している機能の多くは、皆さんの意見や提案によって実現しています。皆様にご参加いただき、大変嬉しく思っております。皆様にとって幸せな新年となりますようお祈り申し上げます。

イレブンラボベータ
行く ここ ベータ版プラットフォームにサインアップして、実際に試してみてください。当社は継続的に改善を行っており、初期段階ではユーザーからのあらゆる洞察が非常に貴重です。

もっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちの方 ログイン