INTERSPEECH 2022でのEleven

今年のカンファレンスは、これまでで最も研究とその成果を共有する絶好の機会でした

どのように進んだか

今年のINTERSPEECHカンファレンスから戻ってきました。ここ数ヶ月間取り組んできた開発を発表し、フィードバックを得る絶好の機会でした。

この分野のトップから学び、アイデアを共有し、将来の関係を築くことができて素晴らしかったです。同じ分野で活動する素晴らしいスタートアップのチームと出会いました。特にボイスクローン、音声合成(TTS)、音声変換(VC)に取り組んでいるSupertoneやLOVOなどです。また、MetaやGoogleのような確立された企業と、TTSやVCソフトウェアの開発に関する裏話を話すことができて興奮しました。

すぐにビジネスに取り掛かりました。私たちの仕事に対する真摯な熱意は期待を超え、非常に嬉しかったです。次の4日間で、上記の3つの音声技術分野における研究と進捗について話し合いました。これは、来年初めにリリース予定の自社開発の自動吹き替えツールのバージョン1.0を開発するための非常に重要な第一歩です。

ここで最も重要だったのは、声を忠実にクローンできることを証明することでした。つまり、アルゴリズムをトレーニングする元の音声データと、生成された合成音声の間で声の類似性を維持できることです。次に、私たちのTTSツールが最も人間らしく自然な音声合成プラットフォームの一部になるために、比類のないプロソディとトーナリティを提供することを証明することが重要でした。

前者は、特定の人物が話しているとすぐに識別できるように、新しく生成された発話が必要だからです。話者のアイデンティティを正しく維持する必要があります。プロソディとトーナリティは、トーンとペースが意図を伝えるため重要です。これがスピーチを人間らしく聞こえさせる要因です。ここでの究極の目標は、プログラムが単に言葉を流暢に発音するだけでなく、適切な感情を重ねて、理解しているかのように聞こえることです。何を言っているのか。

TTSデモ

以下に、カンファレンスで使用したTTSデモの一例をご覧いただけます。最初のリンクはオリジナルのビデオで、その後に異なる声で同じメッセージを話すサンプルが続きます。これはテキスト読み上げであり、音声変換ではありません。私たちの唯一の入力は、オリジナルビデオで話された言葉を書き留めることでした。すべてのプロソディとイントネーションはアルゴリズムによるもので、後処理は行っていません。誰の声か認識できるか試してみてください!これはテキスト読み上げであり、ボイスコンバージョンではありません。私たちの唯一の入力は、元のビデオで話された言葉を書き留めて、聞こえる音声を生成することでした。抑揚やイントネーションはすべてアルゴリズムによるもので、後処理は行っていません。誰の声か分かりますか?

次回のエントリーでは、テキスト入力から音声を生成するEleven TTS技術について詳しくお伝えします。

私たちの技術が気に入ったら、ベータテスターになりたい場合は、こちらから登録できます。こちら

オリジナル:

Eleven LabsのボイスクローンTTS:

内容重視

カンファレンスに先立つ数ヶ月間、私たちの努力はほぼ専ら技術の実演サンプルの提供と独自の研究の展示に集中していました。結局のところ、INTERSPEECHは研究カンファレンスであり、特にこのように特化した集まりでは内容が形式に先行すべきだと確信していました。しかし、カンファレンス当日には、技術に集中しすぎてブランディングがミニマリストに見えたのではないかと冗談を言い始めました。すぐに、他の大手企業も含め、控えめなセットアップを選んでいることを知り、安心しました。

来年まで

韓国旅行はElevenにとって大成功であり、さらなる努力を促す大きなモチベーションとなりました。来年の研究とその発表方法の進展を考えるだけで、すでにワクワクしています。その頃には、製品品質の吹き替えツールが準備できて、人々の声を使って彼らが話せない言語を話せるようにすることを願っています。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン