
動画のボイスオーバー、広告、ポッドキャストなどを、ご自分の声で自動化できます
Eleven v3 アルファのご紹介
v3を試すThis is me speaking Spanish, thanks to amazing work by @Spotify AI engineers. The translation & voice-cloning are fully done by AI. Language can create barriers of understanding & thus fuel division. I can't wait for AI to break down this barrier & reveal our common humanity ❤… pic.twitter.com/pH8EYcBDj2
— Lex Fridman (@lexfridman) September 25, 2023
この新しいツールは単なる翻訳ではなく、話者のアイデンティティや元の話し方を言語を超えて保持することにより、従来の字幕以上に繋がりやすく没入感のある体験を提供します。
英語の教育ビデオを想像してください。もし誰かがスペイン語しか話せない場合(それでもそのテーマに興味があるとしたら)、それは問題です。私たちは、元の話者が元のメッセージを自然にネイティブレベルのスペイン語で話すことができるようにしたいのです。
これには、ボイスコンバージョン、ボイスクローン、多言語 音声合成 の機能を一つの新しいツールに組み合わせる必要があります。ここで、ボイスクローンは話者のアイデンティティ、つまり声の音を保持するのに役立ちます。音声合成を使って、異なる言語で新しい発話を生成し、まるで同じ人が話しているかのようにします。ボイスコンバージョンは、元の感情、意図、スタイルを最大限に保持するために重要です。
動画のボイスオーバー、広告、ポッドキャストなどを、ご自分の声で自動化できます
私たちは、人間のスピーチを超リアルに再現し、コンテキストを理解し、声のプロファイルをエンコードする技術の開発に多くの研究と革新を投入しました。私たちのAI音声翻訳ツールは、クリエイターがそのリーチを広げ、見込みのある視聴者が自分に関連し魅力的だと感じるコンテンツを発見するのを助けるための重要なステップです。
吹き替えは、元の俳優の声を異なる言語を話すパフォーマーの声に置き換えることで、ビデオに異なる言語のサウンドトラックを提供するプロセスです。いわゆる「再声化」で、伝統的には費用と時間がかかる作業です。Elevenでは、これを自動化し、元の声を言語を超えて保持することを目指しています。
ボイスコンバージョンは、一人の人が別の人の声で話すことを可能にします。ターゲットの声をエンコードし、それをソースの声に重ねるためにボイスクローンを使用します。その結果、元のメッセージが別の誰かによって話されているかのように見えます。
テキスト読み上げ (TTS) はすべての音声合成技術の基盤です。TTS 技術は年々大きく進化しましたが、まだロボットのように聞こえることが多いです。それは、単に言葉を流暢に発音するだけでは、人間らしい品質を与えるのに不十分だからです。自然に聞こえるためには、何が言われているかを理解することから生まれる意図に基づくトーンとペースが必要です。Elevenでは、私たちのモデルを豊富な人間のスピーチデータにさらすことで、発話の論理的および感情的なコンテキストを理解し、それに応じてデリバリーを調整するように訓練しています。
私たちのAIテキスト読み上げ技術は、32の言語で、数千種類ものまるで人間のような高品質ボイスを生成します。無料で使えるテキスト読み上げソリューションをお探しの方も、商業プロジェクト用プレミアムボイスAIサービスをお探しの方も、ElevenLabsのツールはお客様のニーズにお応えします
10月のリリースを楽しみにしており、多言語コンテンツとの関わり方を変えることを目指しています。
ESTsoft and ElevenLabs partner to bring natural voiceovers and frame-accurate lip-sync to global video localization.