ElevenLabs、ベータ版を終了し、30言語対応のAI音声モデル「Eleven Multilingual v2」を発表

2023年8月22日 • 1 分で読めます

AI音声プラットフォームElevenLabsは、30言語に対応した多言語機能を備えた新しいディープラーニング基盤モデルの導入により、コンテンツの言語の壁を取り除くための重要な一歩を踏み出しました。Eleven Multilingual v2
この進展により、世界中のメディア企業、ゲームデベロッパー、出版社、独立系クリエイターがコンテンツのアクセシビリティを大幅に向上させることができます。
これらの新機能は、1月のプラットフォーム開始以来の一連の新機能と改善に続くものであり、同時に企業のベータフェーズの公式終了を示します。
ElevenLabsの使命は、すべてのコンテンツをどの言語でも、どの声でも普遍的にアクセス可能にすることです。

ロンドン、イギリス-ElevenLabs,世界的なAI音声ソフトウェアのリーダーであるElevenLabsは、本日、多言語音声生成モデルを発表しました。このモデルは、30言語で「感情豊かな」AI音声を正確に生成することができます。

この進展は、完全に社内研究に基づいており、クリエイターがヨーロッパ、アジア、中東の国際市場向けにローカライズされたオーディオコンテンツを制作することを可能にします。ElevenLabsは過去18か月間、人間の音声の特徴を分析し、文脈を理解し感情を伝える新しいメカニズムを作成し、新しいユニークな声を合成してきました。

Eleven Multilingual v2を使用すると、ElevenLabsの音声合成プラットフォームにテキストを入力した際に、新しいモデルは約30の書かれた言語を自動的に識別し、これまでにないレベルの本物らしさで音声を生成できます。

さらに、合成音声であれクローン音声であれ、話者の声のユニークな特徴はすべての言語で保持され、元のアクセントも含まれます。したがって、同じ声を使用して30の異なる言語でコンテンツを生き生きとさせることができます。

この展開は、プラットフォームのすべてのクリエイターにプロフェッショナルボイスクローンを提供することに続くものです。この製品の更新は、追加のセーフティ機能と同時に開始され、ユーザーが自分の声のデジタルコピーを完璧に作成することを可能にします。

オリジナルと区別がつかないほどです。この新しいバージョンにより、あなたの声は多言語モデルが提供する約30の言語で表現されることができます。

対応言語には、韓国語、オランダ語、トルコ語、スウェーデン語、インドネシア語、ベトナム語、フィリピン語、ウクライナ語、ギリシャ語、チェコ語、フィンランド語、ルーマニア語、デンマーク語、ブルガリア語、マレー語、ハンガリー語、ノルウェー語、スロバキア語、クロアチア語、アラビア語、タミル語が含まれます。これらは、以前から利用可能な英語、ポーランド語、ドイツ語、スペイン語、フランス語、イタリア語、ヒンディー語、ポルトガル語に加わります。

最近の機能の導入とプラットフォームの継続的な改善に続き、ElevenLabsは本日、プラットフォームが正式にベータフェーズを終了したことを確認しました。この移行は、世界中の100万人以上のユーザーに信頼性の高い最先端のツールを提供するという企業のコミットメントの転換点を示します。

今後、ElevenLabsは、ユーザーがプラットフォーム上で自分の声を共有し、新しい音の開発から利益を得ることができるメカニズムを導入する予定です。これにより、人間とAIのコラボレーションの可能性が促進されます。

ElevenLabsのCEO兼共同創設者であるMati Staniszewskiはコメントします：

「ElevenLabsは、すべてのコンテンツをどの言語でも、どの声でも普遍的にアクセス可能にすることを目的として設立されました。Eleven Multilingual v2のリリースにより、この夢を現実にし、人間の品質を持つAI音声をすべての方言で提供するという目標に一歩近づきました。

「私たちの音声合成ツールは、すべての人を平等にし、すべてのクリエイターに高品質な音声オーディオ機能を提供します。これらの利点は、現在、約30の言語での多言語アプリケーションにも拡大しています。最終的には、AIの助けを借りてさらに多くの言語と声をカバーし、コンテンツの言語の壁を取り除くことを目指しています。ElevenLabsでは、これらのアクセシビリティの進展が最終的に創造性、革新性、多様性を促進すると信じています。」

複数の言語で高品質なオーディオコンテンツを作成するためのコストとリソースを削減することで、ElevenLabsは企業やクリエイターがすべての文化と言語を考慮した、より創造的でアクセスしやすいコンテンツを制作することを可能にします。

デベロッパーや独立系ゲーム出版社にとって、多言語音声生成ツールは、ゲーム体験やオーディオコンテンツを国際的な視聴者向けに翻訳し、プレイヤーやリスナーと彼らの母国語でつながることを可能にします。音声の品質や正確さを損なうことなく。, l’outil de génération vocale multilingue permet de traduire les expériences de jeu et le contenu audio pour des publics internationaux, en établissant un lien avec les joueurs et les auditeurs dans leur propre langue sans compromettre la qualité ou la précision de l’audio parlé.

同様に、教育機関は、学習者にターゲット言語で正確なオーディオコンテンツを即座に提供することができ、言語理解と発音のスキルを強化し、国際的な学生の異なる学習スタイルとニーズに対応します。

すべてのタイプのクリエイターは、ElevenLabsのツールを使用して、視覚障害者や追加の学習ニーズを持つ人々のためにコンテンツのアクセシビリティを向上させることができます。視覚的なコンテンツを補完するために、複数の言語で利用可能な音声を提供します。

2023年1月に発表された最初のAI音声ツールセットには、あらゆるテキストを事前に設計された合成音声の選択を通じて音声に変換する機能と、自分の声のクローンを作成する機能が含まれていました。多言語音声合成ツールは、ElevenLabsの使命であるすべてのコンテンツをどの言語でも、どの声でも普遍的にアクセス可能にするための新たなステップです。

この技術はすでに多くの業界やクリエイティブな分野で採用されており、独立系作家がオーディオブックを作成したり、ビデオゲームでサブキャラクターに声を与えたり、視覚障害者がオンラインで書かれたコンテンツにアクセスできるようにしたり、世界初のAIラジオ局を支えたりしています。ElevenLabsはまた、AIビデオジェネレーターであるD-ID、世界最大のオーディオブック出版社の一つであるStorytel、オープンアクセスの科学ビデオプラットフォームであるScienceCast、科学研究論文をarXivに公開されたものを集約するビデオ生成ツール、世界最大のコンテンツ制作プラットフォームであるTheSoul Publishing、素晴らしいゲームデベロッパーであるEmbark StudiosとParadox Interactive、およびマルチメディアプラットフォームであるMNTNと提携しています。

ElevenLabsチームによる記事をもっと見る

Product

Product

Introducing Agent Workflows

Workflows, our visual editor for designing complex conversation flows in agents platform, is now live.

Customer stories

Customer stories

Avidio scales personalised outreach with hyper-personalized video

Delivering authentic ad-style videos powered by human-sounding AI voices by ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか？ログイン