ブラックフライデー

引き換え

INTERSPEECH 2022でのEleven

今年のカンファレンスは、これまでで最も研究とその成果を共有する絶好の機会でした。

どのように進んだか

今年のINTERSPEECHカンファレンスから戻ったばかりで、ここ数ヶ月取り組んできた開発を発表し、フィードバックを得る絶好の機会でした。

この分野のトップから学び、アイデアを共有し、将来の関係を築くことができて素晴らしかったです。同じ分野で働く素晴らしいスタートアップのチーム、特にボイスクローン、音声合成(TTS)、音声変換(VC)に取り組むSupertoneやLOVOと出会いました。また、MetaやGoogleのような確立された企業と、TTSやVCソフトウェアの開発に関する裏話を話すことができて興奮しました。

すぐにビジネスに取り掛かりました。私たちの仕事に対する真摯な熱意は、期待を超えるものでした。次の4日間で、上記の3つの音声技術分野における研究と進捗を議論しました。これは、来年初めにリリース予定の独自の自動吹き替えツールの開発に向けた非常に重要な第一歩です。

ここで最も重要だったのは、声を忠実にクローンできることを証明することでした。つまり、アルゴリズムを訓練する元の音声データと、合成された音声がどれだけ似ているかを保持できることです。そして、私たちのTTSツールが、他に類を見ないプロソディとトーンを提供することで、最も人間らしく自然な合成音声プラットフォームの一部になることを証明することが重要でした。

前者は、特定の人が話しているとすぐに識別できるように、新しく生成された発話が必要だからです。話者のアイデンティティを正しく保持する必要があります。プロソディとトーンは、意図を伝えるために重要であり、それがスピーチを人間らしく聞こえさせる要因です。ここでの究極の目標は、プログラムが単に言葉を流暢に発音するだけでなく、適切な感情を発話に重ねることで、理解しているかのように聞こえることです。何を言っているのか。

TTSデモ

カンファレンスで使用したTTSデモを以下でご覧いただけます。最初のリンクはオリジナルのビデオで、その後に異なる声で同じメッセージを話すサンプルが続きます。これはテキスト読み上げであり、音声変換ではありません。私たちの唯一の入力は、オリジナルビデオで話された言葉を書き留めることでした。すべてのプロソディとイントネーションはアルゴリズムによるもので、後処理は行っていません。誰の声か認識できるか試してみてください!これはテキスト読み上げであり、ボイスコンバージョンではありません。私たちの唯一の入力は、元のビデオで話された言葉を書き留めて、聞こえる音声を生成することでした。抑揚やイントネーションはすべてアルゴリズムによるもので、後処理は行っていません。誰の声か分かりますか?

次回のエントリーでは、テキスト入力から音声を生成するEleven TTS技術について詳しくお伝えします。

私たちの技術が気に入ったら、ベータテスターになりたい場合は、こちらから登録できます。こちらをクリックから。

オリジナル:

Eleven LabsのボイスクローンTTS:

内容重視

カンファレンスに先立つ数ヶ月間、私たちの努力はほぼ専ら技術の実演可能なサンプルの提供と独自の研究の展示に集中していました。結局、INTERSPEECHは研究カンファレンスであり、特にこのように特化した集まりでは、内容が形式に先行しなければならないと固く信じていました。しかし、カンファレンス当日には、技術に対する集中がブランド化の努力をミニマリストに見せてしまったのではないかと冗談を言い始めました。すぐに、他の大手企業も含め、控えめなセットアップを選んでいることを知り、安心しました。

来年まで

韓国への旅はElevenにとって大成功であり、さらなる努力を促す大きなモチベーションとなりました。研究とその発表方法の両方で、来年どれだけ進歩できるかを考えるだけでワクワクしています。その頃には、製品品質の吹き替えツールが準備できて、人々の声を使って彼らが話せない言語を話せるようにすることを願っています。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン