.webp&w=3840&q=95)
On track to help 1 million people regain their voice
Expanding beyond ALS to support MSA and mouth cancer patients with free AI voice technology
音声変換を使用すると、ある人の声を別の人の声に変換できます。これは、音声クローニングと呼ばれるプロセスを使用して、ターゲット音声(つまり、変換後の音声)をエンコードし、ターゲット話者のアイデンティティに一致しながらも元のイントネーションを維持する方法で話された同じメッセージを生成します。
高品質の音声変換および音声クローニング技術は、さまざまな業界におけるコンテンツの制作、配信、対話の方法に革命をもたらす可能性があります。彼らは、制作時間とコストを最適化し、コンバージョンアルゴリズムをトレーニングするために意見を共有する人々に受動的な手数料を得る方法を提供することを約束しています。
Eleven ではツール パッケージの一部として音声変換ソフトウェアを開発していますが、音声の複製と音声合成に関する研究は主に、来年初めにリリース予定の主力製品である、アイデンティティ保存型自動ダビング ツールの開発に役立っています。
ここでの私たちの目標は、ボタンをクリックするだけで、すべての音声コンテンツを元の話者の声で言語を超えてアクセスできるようにすることです。英語の教育用 YouTube ビデオを想像してみてください。誰かがスペイン語しか話せない場合(ただし、その言語さえ知っていればそのテーマは興味深いものになる)、それは問題です。もちろん、キャプションは解決策となりますが、私たちの目的は、より没入感があり、楽しくコンテンツに接する方法を提供することです。私たちは、たとえその人が実際にはネイティブレベルのスペイン語を話していなくても、同じ人が同じメッセージを自然にネイティブレベルのスペイン語で話しているように生成できるようにしたいと考えています。
この目的のため、音声クローンにより、私たちは彼らのアイデンティティ、つまり彼らの声の音を保存することが可能になります。これを使用して、異なる言語で新しい発話を生成し、同じ人が話しているかのように聞こえるようにします。
音声変換は、感情、意図、話し方を維持して没入感を最大限に高めるために役立ちます。私たちは、ソース言語の発話を解析し、適切なイントネーションでターゲット言語にマッピングできる堅牢な多言語モデルをトレーニングします。
ある人の声を別の人の声に変換するには、つまり、ソース音声をターゲット音声に変換するには、ソース音声の内容をターゲット音声の特徴で表現するアルゴリズムが必要です。ここでの良い例えは、自分の顔と他人の顔を組み合わせて、1つの写真として作成できる顔交換アプリです。
これを実行するには、顔の画像を取得し、その属性をマッピングします。以下の例のドットはまさにそれを行います。つまり、他の顔の特徴がレンダリングされる境界です。
音声変換では、アルゴリズムが対象の音声特性をエンコードする方法が必要です。アルゴリズムは、その音声の多くの例を含むデータセットに基づいてトレーニングされます。それは、それらのサンプルを基本的なレベル、つまり、音声の「原子」にまで分解します。スピーチは文で構成されています。文は単語で構成されています。単語は音素で構成されており、対象となる音声の特徴を表します。これらはアルゴリズムが動作する基本的なレベルです。
音声変換の秘訣は、ターゲット音声音素を使用してソース音声コンテンツをレンダリングすることです。しかし、顔の交換の例と同様に、ここでもトレードオフが存在します。つまり、1 つの顔の属性をマップするために使用するマーカーの数が増えるほど、それらのマーカー内にマップする顔に課される制約も増えます。マーカーが少ないほど制約も少なくなります。音声変換についても同様です。ターゲットスピーチを優先するほど、ソーススピーチとの同期が取れなくなるリスクが高まります。しかし、十分に重視しなければ、そのスピーチの特徴の多くを失う危険があります。たとえば、誰かが怒って叫んでいる録音をモーガン・フリーマンの声でレンダリングすると、問題が生じます。ソーススピーチの感情を重視しすぎると、本当にモーガン・フリーマンが話しているという印象が失われるという代償を払うことになります。彼の話し方のパターンを強調しすぎると、元の話し方の感情的な迫力が失われます。
音声クローンに関する倫理的な懸念は、その技術が悪用される可能性を懸念する人が増えていることから、対処する価値がある。2020年には、詐欺師が電話でCEOになりすまし、3,500万ドルの銀行振込を承認するために音声ディープフェイクが使用されました。誰かが実際には言っていないことをあたかも言ったかのように説得力のあるものにすることができる技術は、当然ながら、偽情報や名誉毀損、詐欺に利用されるのではないかという懸念を引き起こします。同様に、音声変換によって、音声所有者の同意なしに生成されたコンテンツをユーザーが利用できるようになった場合、著作権侵害に関する重要な疑問が生じます。
Eleven では、当社のテクノロジーが不正な目的に使用されないようにし、その危険から保護するための安全策を講じるために、できる限りのことをする必要があると考えています。
私たちは、悪用に対する恐怖が、強力な新技術に対する私たちの態度を左右する主な要因であってはならないと考えています。むしろ、技術が幅広いコミュニティにもたらす可能性を最大限に活用しながら、危害のリスクを最小限に抑えるために、開発時に適切な安全対策が導入されるように努めるべきです。
音声変換および音声クローン技術は、映画制作、テレビ、コンテンツ制作、ゲーム開発、ポッドキャスト、オーディオブック、さらには広告業界に革命をもたらすと期待されています。しかし、その応用範囲は商業だけにとどまらず、医療、教育、コミュニケーションなどにも応用できる可能性があります。
音声クローニングは、あらゆるコンテンツをあらゆる言語と音声で生成し、世界中の何百万人もの人々に届け、まったく新しい経済を創出できる未来への道を切り開きます。Eleven の目標は、この未来の実現に貢献することです。
Expanding beyond ALS to support MSA and mouth cancer patients with free AI voice technology
More people are listening to audiobooks than ever before. But for many independent authors, getting an audio version of their work published on major platforms has been expensive and time-consuming — until now.