音声変換

誰かの声で話す

音声変換とは何ですか?

音声変換を使用すると、ある人の声を別の人の声に変換できます。これは、音声クローニングと呼ばれるプロセスを使用して、ターゲット音声(つまり、変換後の音声)をエンコードし、ターゲット話者のアイデンティティに一致しながらも元のイントネーションを維持する方法で話された同じメッセージを生成します。

用途

高品質の音声変換および音声クローニング技術は、さまざまな業界におけるコンテンツの制作、配信、対話の方法に革命をもたらす可能性があります。彼らは、制作時間とコストを最適化し、コンバージョンアルゴリズムをトレーニングするために意見を共有する人々に受動的な手数料を得る方法を提供することを約束しています。

  • 映画制作では、俳優はセットやスタジオまで出向くことなく、自分の音声データベースをプロデューサーと共有してオーディオトラックを作成できます。
  • 間違ったセリフはポストプロダクションでより効果的に再録音できる。
  • この技術は、架空のシナリオで歴史上の人物の声を忠実に再現したり、亡くなった俳優を生き返らせたりするためにも使用できます。
  • ビデオゲームの開発でも、この技術は同様の程度に有用となるでしょう。つまり、俳優が録音のために物理的に立ち会うことなく、その場で発話を修正したり、単に実験したりすることが可能になるのです。
  • 医学では、例えば咽頭がんの治療の結果として話す能力を失った患者に、自分の声で再びコミュニケーションをとる機会を与えることができます。
  • 家庭のユーザーは、仮想の見知らぬ人よりも、愛する人の声でやりとりする方が自然だと感じる可能性があるため、仮想アシスタントはパーソナライズされる可能性があります。
  • 逆に、広告業界は、人間の声と同じくらいリアルに聞こえながら、権利の所有権や使用料に関する問題を回避できる合成音声を導入することで利益を得ることができるかもしれない。一方、まさに認識可能な声が必要な場合、広告プロデューサーは、長時間の録音セッションに俳優を物理的に同席させる必要なく、合意に基づいて特定の俳優の声を複製する技術を活用できます。
  • オーディオブックとポッドキャスト業界は、音声クローニングと音声変換技術を適用することで没入型コンテンツの制作と編集を最適化する機会を提供する、さらに成長している 2 つのビジネスです。

イレブンラボ音声変換

Eleven ではツール パッケージの一部として音声変換ソフトウェアを開発していますが、音声の複製と音声合成に関する研究は主に、来年初めにリリース予定の主力製品である、アイデンティティ保存型自動ダビング ツールの開発に役立っています。

ここでの私たちの目標は、ボタンをクリックするだけで、すべての音声コンテンツを元の話者の声で言語を超えてアクセスできるようにすることです。英語の教育用 YouTube ビデオを想像してみてください。誰かがスペイン語しか話せない場合(ただし、その言語さえ知っていればそのテーマは興味深いものになる)、それは問題です。もちろん、キャプションは解決策となりますが、私たちの目的は、より没入感があり、楽しくコンテンツに接する方法を提供することです。私たちは、たとえその人が実際にはネイティブレベルのスペイン語を話していなくても、同じ人が同じメッセージを自然にネイティブレベルのスペイン語で話しているように生成できるようにしたいと考えています。

この目的のため、音声クローンにより、私たちは彼らのアイデンティティ、つまり彼らの声の音を保存することが可能になります。これを使用して、異なる言語で新しい発話を生成し、同じ人が話しているかのように聞こえるようにします。

音声変換は、感情、意図、話し方を維持して没入感を最大限に高めるために役立ちます。私たちは、ソース言語の発話を解析し、適切なイントネーションでターゲット言語にマッピングできる堅牢な多言語モデルをトレーニングします。

プロセス

ある人の声を別の人の声に変換するには、つまり、ソース音声をターゲット音声に変換するには、ソース音声の内容をターゲット音声の特徴で表現するアルゴリズムが必要です。ここでの良い例えは、自分の顔と他人の顔を組み合わせて、1つの写真として作成できる顔交換アプリです。

これを実行するには、顔の画像を取得し、その属性をマッピングします。以下の例のドットはまさにそれを行います。つまり、他の顔の特徴がレンダリングされる境界です。

音声変換では、アルゴリズムが対象の音声特性をエンコードする方法が必要です。アルゴリズムは、その音声の多くの例を含むデータセットに基づいてトレーニングされます。それは、それらのサンプルを基本的なレベル、つまり、音声の「原子」にまで分解します。スピーチは文で構成されています。文は単語で構成されています。単語は音素で構成されており、対象となる音声の特徴を表します。これらはアルゴリズムが動作する基本的なレベルです。

音声変換の秘訣は、ターゲット音声音素を使用してソース音声コンテンツをレンダリングすることです。しかし、顔の交換の例と同様に、ここでもトレードオフが存在します。つまり、1 つの顔の属性をマップするために使用するマーカーの数が増えるほど、それらのマーカー内にマップする顔に課される制約も増えます。マーカーが少ないほど制約も少なくなります。音声変換についても同様です。ターゲットスピーチを優先するほど、ソーススピーチとの同期が取れなくなるリスクが高まります。しかし、十分に重視しなければ、そのスピーチの特徴の多くを失う危険があります。たとえば、誰かが怒って叫んでいる録音をモーガン・フリーマンの声でレンダリングすると、問題が生じます。ソーススピーチの感情を重視しすぎると、本当にモーガン・フリーマンが話しているという印象が失われるという代償を払うことになります。彼の話し方のパターンを強調しすぎると、元の話し方の感情的な迫力が失われます。

倫理

音声クローンに関する倫理的な懸念は、その技術が悪用される可能性を懸念する人が増えていることから、対処する価値がある。2020年には、詐欺師が電話でCEOになりすまし、3,500万ドルの銀行振込を承認するために音声ディープフェイクが使用されました。誰かが実際には言っていないことをあたかも言ったかのように説得力のあるものにすることができる技術は、当然ながら、偽情報や名誉毀損、詐欺に利用されるのではないかという懸念を引き起こします。同様に、音声変換によって、音声所有者の同意なしに生成されたコンテンツをユーザーが利用できるようになった場合、著作権侵害に関する重要な疑問が生じます。

Eleven では、当社のテクノロジーが不正な目的に使用されないようにし、その危険から保護するための安全策を講じるために、できる限りのことをする必要があると考えています。

  • 当社は、虚偽の情報の流布、名誉毀損、詐欺行為、またはその他違法もしくは有害とみなされる目的で当社の技術を悪用することを禁止する当社の規約を遵守するクライアントとのみ提携します。
  • Eleven が制作した合成ビデオ コンテンツには、AI によって生成されたものであることを示す明確な透かしが含まれています。オーディオコンテンツには明確なファイルの説明が含まれています。認識可能な声を使用する場合は、デモンストレーションの目的で、利益相反が生じない状況で使用します。
  • 同時に、私たちは音声所有者とそのライセンサーが権利を主張できるよう支援することを目指しています。
  • 私たちの姿勢を改善する方法についてのアイデアがあれば、ぜひお知らせください。 倫理@elevenlabs.io

私たちは、悪用に対する恐怖が、強力な新技術に対する私たちの態度を左右する主な要因であってはならないと考えています。むしろ、技術が幅広いコミュニティにもたらす可能性を最大限に活用しながら、危害のリスクを最小限に抑えるために、開発時に適切な安全対策が導入されるように努めるべきです。

未来

音声変換および音声クローン技術は、映画制作、テレビ、コンテンツ制作、ゲーム開発、ポッドキャスト、オーディオブック、さらには広告業界に革命をもたらすと期待されています。しかし、その応用範囲は商業だけにとどまらず、医療、教育、コミュニケーションなどにも応用できる可能性があります。

音声クローニングは、あらゆるコンテンツをあらゆる言語と音声で生成し、世界中の何百万人もの人々に届け、まったく新しい経済を創出できる未来への道を切り開きます。Eleven の目標は、この未来の実現に貢献することです。

もっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちの方 ログイン