Eleven Musicを紹介します。どんな瞬間にもぴったりの曲を作りましょう。

INTERSPEECH 2022でのEleven

2022年10月5日 • 2 分で読めます

今年のカンファレンスは、これまでで最も研究とその成果を共有する絶好の機会でした

どのように進んだか

今年のINTERSPEECHカンファレンスから戻ってきました。ここ数ヶ月間取り組んできた開発を発表し、フィードバックを得る絶好の機会でした。

この分野のトップから学び、アイデアを共有し、将来の関係を築くことができて素晴らしかったです。同じ分野で活動する素晴らしいスタートアップのチームと出会いました。特にボイスクローン、音声合成(TTS)、音声変換(VC)に取り組んでいるSupertoneやLOVOなどです。また、MetaやGoogleのような確立された企業と、TTSやVCソフトウェアの開発に関する裏話を話すことができて興奮しました。

すぐにビジネスに取り掛かりました。私たちの仕事に対する真摯な熱意は期待を超え、非常に嬉しかったです。次の4日間で、上記の3つの音声技術分野における研究と進捗について話し合いました。これは、来年初めにリリース予定の自社開発の自動吹き替えツールのバージョン1.0を開発するための非常に重要な第一歩です。

ここで最も重要だったのは、声を忠実にクローンできることを証明することでした。つまり、アルゴリズムをトレーニングする元の音声データと、生成された合成音声の間で声の類似性を維持できることです。次に、私たちのTTSツールが最も人間らしく自然な音声合成プラットフォームの一部になるために、比類のないプロソディとトーナリティを提供することを証明することが重要でした。

前者は、特定の人物が話しているとすぐに識別できるように、新しく生成された発話が必要だからです。話者のアイデンティティを正しく維持する必要があります。プロソディとトーナリティは、トーンとペースが意図を伝えるため重要です。これがスピーチを人間らしく聞こえさせる要因です。ここでの究極の目標は、プログラムが単に言葉を流暢に発音するだけでなく、適切な感情を重ねて、理解しているかのように聞こえることです。何を言っているのか。

TTSデモ

以下に、カンファレンスで使用したTTSデモの一例をご覧いただけます。最初のリンクはオリジナルのビデオで、その後に異なる声で同じメッセージを話すサンプルが続きます。これはテキスト読み上げであり、音声変換ではありません。私たちの唯一の入力は、オリジナルビデオで話された言葉を書き留めることでした。すべてのプロソディとイントネーションはアルゴリズムによるもので、後処理は行っていません。誰の声か認識できるか試してみてください！これはテキスト読み上げであり、ボイスコンバージョンではありません。私たちの唯一の入力は、元のビデオで話された言葉を書き留めて、聞こえる音声を生成することでした。抑揚やイントネーションはすべてアルゴリズムによるもので、後処理は行っていません。誰の声か分かりますか？

次回のエントリーでは、テキスト入力から音声を生成するEleven TTS技術について詳しくお伝えします。

私たちの技術が気に入ったら、ベータテスターになりたい場合は、こちらから登録できます。こちら。

オリジナル：

Eleven LabsのボイスクローンTTS：

内容重視

カンファレンスに先立つ数ヶ月間、私たちの努力はほぼ専ら技術の実演サンプルの提供と独自の研究の展示に集中していました。結局のところ、INTERSPEECHは研究カンファレンスであり、特にこのように特化した集まりでは内容が形式に先行すべきだと確信していました。しかし、カンファレンス当日には、技術に集中しすぎてブランディングがミニマリストに見えたのではないかと冗談を言い始めました。すぐに、他の大手企業も含め、控えめなセットアップを選んでいることを知り、安心しました。

来年まで

韓国旅行はElevenにとって大成功であり、さらなる努力を促す大きなモチベーションとなりました。来年の研究とその発表方法の進展を考えるだけで、すでにワクワクしています。その頃には、製品品質の吹き替えツールが準備できて、人々の声を使って彼らが話せない言語を話せるようにすることを願っています。

ElevenLabsチームによる記事をもっと見る

Customer stories

Graydon Carter’s Air Mail, now in audio

We’re adding audio to Air Mail magazine, so readers can follow it anywhere

Company

Company

ElevenLabs Startup Grants just got bigger: now 12 months and over 680 hours of Conversational AI audio

Startup Grants are now available for 12 months, with every recipient receiving 33 million free credits to use across our platform, equivalent to over 680 hours of Conversational AI audio. That’s a full year of free access to ElevenLabs’ AI audio, giving founders the runway to prototype, iterate, and scale.

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか？ログイン