
Safety framework for AI voice agents
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
ロンドン、イギリス - ElevenLabs、AI音声ソフトウェアの世界的リーダーであるElevenLabsは、30言語に対応した新しい多言語音声生成モデルを本日発表しました。AIによって生成された「感情豊かな」音声を正確に生成することができます。
この進展は、完全に社内の研究に基づいており、クリエイターがヨーロッパ、アジア、中東の国際市場向けにローカライズされたオーディオコンテンツを制作することを可能にします。ElevenLabsは過去18か月間、人間の話し方の特徴を分析し、文脈を理解し、感情を音声生成に伝える新しいメカニズムを作り出し、新しいユニークな声を合成することができました。
Eleven Multilingual v2を使用すると、ElevenLabsのテキスト読み上げプラットフォームにテキストを入力することで、新しいモデルは約30言語を自動的に識別し、これまでにないレベルの本物らしさで音声を生成できます。
同時に、合成音声やクローン音声を使用するかどうかに関係なく、話者のユニークな声の特徴はすべての言語で保持され、元のアクセントも含まれます。つまり、同じ声を使用して30の異なる言語でコンテンツを生き生きとさせることができます。
このリリースは、Professional Voice Cloningの公開に続くもので、プラットフォームのすべてのクリエイターが利用可能です。この製品のアップデートは、追加のセーフティ機能と共にリリースされ、ユーザーが自分の声のデジタルコピーを完璧に作成できるようにします。今日のリリースにより、私たちの声は多言語モデルが提供する約30の言語で話すことができるようになります。
対応言語には、韓国語、オランダ語、トルコ語、スウェーデン語、インドネシア語、ベトナム語、フィリピン語、ウクライナ語、ギリシャ語、チェコ語、フィンランド語、ルーマニア語、デンマーク語、ブルガリア語、マレー語、ハンガリー語、ノルウェー語、スロバキア語、クロアチア語、アラビア語、タミル語が含まれます。これらは以前から利用可能な英語、ポーランド語、ドイツ語、スペイン語、フランス語、イタリア語、ヒンディー語、ポルトガル語に加わります。
最近の新機能のリリースとプラットフォームの継続的な改善に伴い、ElevenLabsは本日、プラットフォームが正式に「ベータ」フェーズを終了することを確認しました。この移行は、1,000,000人以上のグローバルユーザーに信頼性の高い最先端のツールを提供するという会社の献身の重要な瞬間を示しています。
将来に向けて、ElevenLabsは、ユーザーがプラットフォーム上で声を共有し、新しいオーディオファイルの開発から利益を得ることができるメカニズムを導入する予定です。これにより、人間とAIの間のコラボレーションの機会が促進されます。
ElevenLabsのCEO兼共同創設者であるMati Staniszewskiは次のようにコメントしています:
「ElevenLabsは、すべてのコンテンツをあらゆる言語と声で普遍的にアクセス可能にするという夢を持って誕生しました。Eleven Multilingual v2のリリースにより、その夢に一歩近づき、AIによって作成された人間のような質の高い声をすべての方言で利用できるようにしています。」
「私たちのテキスト読み上げツールは、機会の平等に貢献し、すべてのクリエイターに高品質の音声能力を提供します。これらの利点は、現在、約30の言語での多言語アプリケーションに拡大しています。将来的には、AIの助けを借りてさらに多くの言語と声をカバーし、コンテンツの言語の壁を取り除くことを期待しています。ElevenLabsでは、これらのアクセシビリティの進展が最終的により大きな創造性、革新性、多様性を促進すると信じています。」
複数の言語で高品質のオーディオコンテンツを作成するために必要なコストとリソースを削減することで、ElevenLabsは企業やクリエイターがすべての文化と言語でより創造的でアクセスしやすいコンテンツを制作できるようにします。
独立したゲームデベロッパーや出版社にとって、多言語音声生成ツールは、ゲーム体験やオーディオコンテンツを国際的なオーディエンス向けに翻訳する新しい機会を提供し、プレイヤーやリスナーと彼らの言語でつながることができます。音声の品質や正確さを損なうことなく。
同様に、教育機関は、学生に正確なオーディオコンテンツを即座に提供し、目的の言語での理解力や発音スキルを強化し、さまざまな教育スタイルや世界中の学生の学習ニーズに応える手段を持っています。
あらゆるタイプのクリエイターがElevenLabsのツールを使用して、アクセシビリティを向上させることができ、視覚障害者や追加の学習ニーズを持つ人々が、複数の言語で利用可能なオーディオを通じて視覚コンテンツを補完することができます。
2023年1月に発表されたAI音声ツールの初期セットには、あらゆるテキストを事前にデザインされた合成音声の選択を通じて音声に変換する能力と、ユーザーの声のクローンを作成する能力が含まれていました。多言語音声合成ツールは、ElevenLabsの目標であるすべてのコンテンツをあらゆる言語と声で普遍的にアクセス可能にするためのさらなる一歩です。
この技術はすでに多くの業界やクリエイティブセクターで採用されており、独立した著者がオーディオブックを作成したり、ビデオゲームのサブキャラクターに声を与えたり、視覚障害者がオンラインで書かれたコンテンツにアクセスしたり、世界初のAIラジオチャンネルを起動したりすることを可能にしています。ElevenLabsは、AIビデオジェネレーターであるD-ID、世界最大のオーディオブック出版社の一つであるStorytel、オープンアクセスの科学ビデオプラットフォームであるScienceCast、arXivで公開された科学研究を凝縮するビデオ生成ツールを持つarXiv、世界をリードするコンテンツクリエーションプラットフォームであるTheSoul Publishing、素晴らしいゲームを開発するデベロッパーであるEmbark StudiosやParadox Interactive、メディアプラットフォームであるMNTN
AI voice agents are increasingly being used in customer service, entertainment, and enterprise applications. With this shift comes the need for clear safeguards to ensure responsible use.
Tips from latency-sensitive RAG systems in production
Powered by ElevenLabs 会話型AI