CreatorKit and ElevenLabs introduce emotive AI actors
Solving one of AI’s biggest challenges: creating authentic emotion in video ads
英国、ロンドンLondon, UK - 世界的音声AIソフトウェアのリーダーであるElevenLabsは、「感情豊かな」AI音声を30言語で正確に生成できる、新しい多言語音声生成モデルを発表しました。
この進展は、完全に社内研究に基づいており、今後クリエーターは、ヨーロッパ、アジア、中東にわたる国際的市場向けに、ローカライズされた音声コンテンツを制作することができます。ElevenLabsは、18ヶ月間人間のスピーチのマーカーを分析し、コンテキストの理解と、音声生成における感情表現のため、そして新しい、ユニークな音声の合成に新しいメカニズムを構築しました。
Eleven Multilingual v2を使用すれば、ElevenLabsテキスト読み上げプラットフォームにテキストを入力すると、新しいモデルが自動的に約 30の書かれた言語を認識して、前例のないレベルの信頼性で音声を生成します。
同時に、合成音声またはクローン音声が使用されているかどうかにかかわらず、独特のアクセントを含み、話し手のユニークな音声の特徴がすべての言語で維持されます。つまり、同じ音声を使用して、30の異なる言語でコンテンツに命を吹き込むことができます。
このロールアウトに続き、 プロフェッショナルボイスクローニングがプラットフォームで公開されました。この製品アップデートは、追加の安全性とセキュリティ機能とともにリリースされ、ユーザーは、自分の声の完璧なデジタルコピーを作成できます。
実際にオリジナルの声と区別できません。 本日のリリースは、あなたの声を使って、多言語モデルが提供するほぼ30の言語で話すことができることを意味します。
対応言語: 韓国語、オランダ語、トルコ語、スウェーデン語、インドネシア語、ベトナム語、フィリピン語、ウクライナ語、ギリシャ語、チェコ語、フィンランド語、ルーマニア語、デンマーク語、ブルガリア語、マレー語、ハンガリー語、ノルウェー語、スロバキア語、クロアチア語、古典アラビア語、タミル語。 以上が、英語、ポーランド語、ドイツ語、スペイン語、フランス語、イタリア語、ヒンディー語、ポルトガル語など、以前から使用可能な言語に加わりました。
最近の機能のリリースとプラットフォームの継続的な改善に続き、ElevenLabsは本日、プラットフォームが正式にベータ版から正式版となることをお知らせします。この移行は、100万人以上のグローバルユーザーに信頼性の高い最先端のツールを提供するという同社の献身的な取り組みの重要な瞬間です。
今後ElevenLabsは、ユーザーがプラットフォーム上で音声を共有し、新しいオーディオの開発から利益を得て、人間とAIのコラボレーションの機会を育むメカニズムを導入する予定です。
ElevenLabsのCEO兼共同創設者であるMati Staniszewskiは次のようにコメントしています。
「ElevenLabsは、あらゆる言語と音声で、すべてのコンテンツを普遍的にアクセス可能にするという夢から始まりました。 Eleven Multilingual v 2のリリースにより、この夢を実現し、すべての方言で人間品質のAI音声利用に一歩近づきました。
「テキスト読み上げ生成ツールは、競争の場を平等にし、最高品質の音声オーディオ機能をすべてのクリエイターに提供します。 これらの利点は、現在、ほぼ30言語にわたる多言語アプリケーションに拡張されています。 最終的には、AIの助けを借りて、さらに多くの言語と音声をカバーし、コンテンツに対する言語的障壁を排除したいと考えています。 ElevenLabsでは、これらのアクセシビリティの飛躍が、最終的に創造性、革新性、多様性を促進すると信じています。」
ElevenLabsは、複数の言語で高品質のオーディオコンテンツを作成するために必要なコストとリソースを削減することにより、企業とクリエイターが、複数の文化や言語にわたって共鳴する、より想像力豊かでアクセス可能なコンテンツを制作できるようにします。
独立系ゲーム開発者やパブリッシャーにとって、多言語音声生成ツールは、音声の品質や精度を損なうことなく、プレイヤーやリスナーの言語でつながり、国際的なオーディエンス向けにゲーム体験や音声コンテンツを翻訳する新しい機会を提供します。
同様に、 教育機関は、学習者にターゲット言語の正確なオーディオコンテンツを即座に提供し、言語理解と発音スキルを強化し、さまざまな指導スタイルと留学生の学習ニーズに対応する手段を得たことになります。
すべてのタイプのクリエーターはElevenLabsのツールを利用して、複数の言語で音声が利用できる視覚コンテンツを補足して、視覚障害や学習のニーズがある人々のコンテンツへのアクセシビリティを向上させることができます。
2023年1月に公開した最初のAI音声ツールスイートには、さまざまな事前定義された、合成音声とあなた自身の声のクローンを作成する機能が含まれていました。多言言語音声ツールは、ElevenLabsのミッションの次に進むべき段階で、すべてのコンテンツを、すべての言語、すべての音声で普遍的にアクセスできるようします。
この技術は、インディーズの作家によるオーディオブックの作成、ビデオゲームにおけるセカンダリーキャラクターの声、視覚障害者がオンラインで書かれたコンテンツにアクセスするためのサポート、世界最初のAlラジオチャンネルの原動力となるなど、さまざまなクリエイティブヴァーティカルやセクターですでに採用されています。ElevenLabsはまた、AIビデオジェネレーターD-ID、世界最大のオーディオブック出版社の一つであるStorytel、オープンアクセスの科学ビデオプラットフォームScienceCast はビデオ生成ツールがarXivに発行される科学研究論文を凝縮し、世界をリードするコンテンツクリエータープラットフォームTheSoul Publishing、Embark Studios やParadox Interactiveのようなすばらしいゲームデベロッパー、およびメディアプラットフォームMNTNなど、さまざまな一流コンテンツ製作者、スタジオと提携しています。
Solving one of AI’s biggest challenges: creating authentic emotion in video ads
An intuitive way for creators, educators, businesses, and storytellers to edit and personalize audio content