この声は存在しない - ジェネレーティブボイスAI

公開日: 2023年1月11日

聴くこの記事を聴く

0:00

0:000:00

最近、ジェネレーティブAIについて話題になっています。ChatGPTやStable Diffusion、DALL-E、Midjourneyのようなディープラーニングを活用した大規模言語モデルやテキストtoイメージモデルが、技術界を超えて大きな話題を呼んでいます。これらはAIの最近の重要な進展の一つとされています。賛否はあるかもしれませんが、何か非常に強力なものが現れたというのが一般的な感想です。2023年には、絵を描いたりビデオを作成したりするモデルについても耳にするでしょう。最新のスマートフォンについての質問のように、最新の基盤モデルについてもすぐに話題になるでしょう。しかし、この興奮の中で、ジェネレーティブメディアの中でまだ十分に注目されていない分野があると感じています。それがボイスAIです。この分野でリーダーになることを目指しています。Elevenでは、ディープラーニング技術によって解放された可能性を毎日活用し、リアルなテキスト読み上げやボイスクローンツールを提供しています。そして今、完全に新しい合成音声をゼロからデザインできる独自のジェネレーティブモデルを展開しています。

ボイスジェネレーター - 声をデザイン

ユーザーは毎日プラットフォームを利用して、自分のキャラクターに命を吹き込んでいます。たとえば、

スピーチ合成やボイスクローンに使用している方法を解き明かす中で、このアイデアが浮かびました。どちらのプロセスも特定の声の特徴をエンコードする方法が必要です。スピーカー埋め込みはこのアイデンティティを運ぶもので、スピーカーの声のベクトル表現です。専用のモデルを訓練して、無限に新しい声を作成できるようにすることで、スピーカー埋め込みの分布からサンプリングできることに気付きました。

ユーザーは主に特定のスピーチ特性を求めているため、プロセスに対する制御を追加する必要がありました。モデルを拡張して、特性に基づいて声を生成できるようにしました。モデルは、性別、年齢、アクセント、ピッチ、話し方スタイルといった基本的なパラメータを設定することで、新しい声のコアアイデンティティを確立できるようになりました。つまり、同じ基本パラメータを選んでも、以前には存在しなかった完全に新しい声が得られます。

以下は、この方法でデザインできる声の例です：

「デザインボイス」は、2月にVoice Labの一部としてプラットフォームで利用可能になります。

用途は？

私たちのツールはすでに人間のようにリアルなスピーチを生成できますが、人工音声の潜在的な用途はさらに広がると予想しています。ニュース出版物やコマーシャルの音声録音を含む多くの新しい用途では、特定のブランドや用途に限定され、他の場所で使用されないことが求められます。他の用途、例えばストーリーテリングやビデオゲームでは、開発初期からの柔軟性と実験の自由が優先されます。そこで、巨大なバーチャルスピーカーセットを作るのではなく、ユーザーが自分の目的に最も適した声を選べるようにしました。

書籍の著者は、作品を簡単にオーディオに変換する機会を得るだけでなく、特注のナレーションをデザインする芸術的なコントロールも保持します。これにより、読者は出版物と新しい方法で対話できるようになり、私たちが楽しめる本の数も大幅に増加します。

ニュース出版社はますますオーディオに進出しており、独自の声を選ぶことは重要な課題です。多くのリスナーは形式と内容の両方を重視します。同様に重要なのは、特定の声が彼らだけを代表することを確信できることです。

ビデオゲーム開発者は、必要なツールをすべて手元に置いて、多くの無言のNPCに声を与えることができます。品質を損なうことなく、よりコスト効果を高めるだけでなく、彼らが作成する仮想世界に完全にユニークな声をデザインすることもできます。

広告クリエイティブは特定のキャンペーンに合ったボイスオーバーを必要とするため、開発の初期段階で共鳴し、目的に合ったナレーションをデザインできることは大きな利点です。複数の声や配信スタイルを即座に実験し、追加のリソースを使わずに済みます。

クリエイターがあらゆる種類のオーディオやビデオコンテンツを制作することから、企業の役員が会社のコミュニケーションに声を与えることまで、特定の用途に合わせたユニークで魅力的なオーディオをデザインする機会は無限です。会社のコミュニケーションを音声で伝えたいと考えている役員にとって、ユニークで特定のユースケースに合わせた魅力的なオーディオを設計する機会は無限にあります。

倫理的AI

ボイスクローンがその潜在的な悪用の結果についての懸念を引き起こすように、多くの人々がAI技術の普及が専門家の生計を脅かすのではないかと心配しています。Elevenでは、ボイスアクターが特定の用途のためにスピーチモデルを訓練するために自分の声をライセンスし、報酬を得る未来を見ています。クライアントやスタジオは、プロの声の才能をプロジェクトに喜んで起用し、AIを使用することで、より迅速なターンアラウンドタイムと、開発初期における実験と方向性の確立の自由を提供します。この技術は、音声オーディオのデザインと録音の方法を変えるでしょうが、ボイスアクターがすべてのセッションに物理的に出席する必要がなくなることで、同時により多くのプロジェクトに関与する自由を得るだけでなく、自分の声を本当に不朽のものにすることができます。

さらに、私たちが興奮している理由は、著者や開発者が録音コストを負担できない多くの書籍、ニュース、インディーゲーム、その他のコンテンツが、別の媒体を通じてアクセス可能になることです。このアクセスの増加により、それぞれのケースでオーディエンスを広げる機会が生まれます。

Elevenでは、知的財産権を尊重し、技術の潜在的な悪用に対する安全策を実施することに完全にコミットしています：

違法または有害と見なされる目的に対する技術の悪用を禁止する規約に従うクライアントとだけ提携します；
モデルによって生成されたすべてのオーディオにウォーターマークを付け、即座に私たちに追跡できるようにする作業を進めています；
認識可能な声を使用する場合は、デモンストレーション目的で、利益相反を引き起こさない文脈で行います；
同時に、声の所有者とそのライセンサーをサポートし、すべての既知の侵害をレビューし、対応します。

未来を見据えて - 自分の声を強化

将来的には、ボイスジェネレーティングとボイスクローンモデルの機能を組み合わせて、ユーザーが自分の声を強化できるようにする予定です。自分の声をクローンし、任意の効果に操作できるようになります。自然な話し方が少し単調だと感じる場合は、バラエティを加えることができます。録音されるのが本当に嫌いな場合は、出力をより自然に聞こえるように操作できます。プレゼンテーションや音声メッセージなど、どんな目的であれ、自分の声を使ったオーディオを作成する必要がある人は、ワンクリックで私たちのツールを使用してそれを行うことができます。