AI音声翻訳

2023年9月26日 • 2 分で読めます

AI吹き替えツールが10月に登場

音声翻訳 / AI吹き替え

来月、AI音声翻訳ツールをリリースします。これにより、ユーザーはオーディオやビデオコンテンツを、元の話者の声を保ちながら別の言語に変換できます。私たちの目標はシンプルです。ストリーミング、ゲーム、映画などのメディアで多言語コンテンツをアクセスしやすく、かつ本物らしくすることです。

私たちは Spotify と OpenAI が音声翻訳とスピーチ機能の進展を発表するのを見てきましたが、私たち自身の開発についてもお知らせできることを楽しみにしています。

This is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023

この新しいツールは単なる翻訳ではなく、話者のアイデンティティや元の話し方を言語を超えて保持することにより、従来の字幕以上に繋がりやすく没入感のある体験を提供します。

英語の教育ビデオを想像してください。もし誰かがスペイン語しか話せない場合（それでもそのテーマに興味があるとしたら）、それは問題です。私たちは、元の話者が元のメッセージを自然にネイティブレベルのスペイン語で話すことができるようにしたいのです。

これには、ボイスコンバージョン、ボイスクローン、多言語音声合成の機能を一つの新しいツールに組み合わせる必要があります。ここで、ボイスクローンは話者のアイデンティティ、つまり声の音を保持するのに役立ちます。音声合成を使って、異なる言語で新しい発話を生成し、まるで同じ人が話しているかのようにします。ボイスコンバージョンは、元の感情、意図、スタイルを最大限に保持するために重要です。

ボイスクローン

A blue and silver abstract spherical shape next to a gray microphone icon.

動画のボイスオーバー、広告、ポッドキャストなどを、ご自分の声で自動化できます

私たちは、人間のスピーチを超リアルに再現し、コンテキストを理解し、声のプロファイルをエンコードする技術の開発に多くの研究と革新を投入しました。私たちのAI音声翻訳ツールは、クリエイターがそのリーチを広げ、見込みのある視聴者が自分に関連し魅力的だと感じるコンテンツを発見するのを助けるための重要なステップです。

吹き替え、ボイスコンバージョン、音声合成とは？

吹き替えは、元の俳優の声を異なる言語を話すパフォーマーの声に置き換えることで、ビデオに異なる言語のサウンドトラックを提供するプロセスです。いわゆる「再声化」で、伝統的には費用と時間がかかる作業です。Elevenでは、これを自動化し、元の声を言語を超えて保持することを目指しています。

ボイスコンバージョンは、一人の人が別の人の声で話すことを可能にします。ターゲットの声をエンコードし、それをソースの声に重ねるためにボイスクローンを使用します。その結果、元のメッセージが別の誰かによって話されているかのように見えます。

テキスト読み上げ (TTS) はすべての音声合成技術の基盤です。TTS 技術は年々大きく進化しましたが、まだロボットのように聞こえることが多いです。それは、単に言葉を流暢に発音するだけでは、人間らしい品質を与えるのに不十分だからです。自然に聞こえるためには、何が言われているかを理解することから生まれる意図に基づくトーンとペースが必要です。Elevenでは、私たちのモデルを豊富な人間のスピーチデータにさらすことで、発話の論理的および感情的なコンテキストを理解し、それに応じてデリバリーを調整するように訓練しています。