
笑うことができる初のAI
私たちのモデルは他に類を見ない感情を生み出します
Eleven v3 アルファのご紹介
v3を試すリアルタイムダビングは、一部の人にとって『銀河ヒッチハイク・ガイド』のバベルフィッシュを思い起こさせます。
バベルフィッシュは「脳波エネルギーを吸収し、無意識の周波数を吸収して意識的な周波数のマトリックスを脳の言語中枢に排出します」。実際には、耳に入れると、誰かがどんな言語で話しかけても、まるで母国語で話しているかのように瞬時に聞こえます(元の音声は全く聞こえません)。
脳波を読むことができるようになるまでは、話者の言葉を聞いてターゲット言語に翻訳する必要があります。話者の口から出る言葉を一語一語翻訳しようとすると、実際に困難が生じます。
英語からスペイン語に翻訳したい状況を想像してください。話者が「The」で始めます。スペイン語では「The」は男性名詞には「El」、女性名詞には「La」と翻訳されます。したがって、もっと聞くまで「The」を確実に翻訳することはできません。
話者が「The running water」と続けたと想像してください。これで最初の3語を「El agua corriente」と翻訳するのに十分な情報があります。文が「The running water is too cold for swimming」と続くと仮定すると、順調です。
しかし、話者が「The running water buffalo…」と続けた場合、戻って修正する必要があります。
さらに言えば、話者が「The running water buffalo protected her calf」と続けた場合、「El búfalo」ではなく「La búfala」で文を始めるべきでした。
これらの「ガーデンパス」文は、多くの言語で見られ、聞き手の最初の解釈が誤っている可能性が高いものです。
一部のユースケースでは、ダビングを急ぎすぎて後で修正が必要になることを受け入れるかもしれません。他のケースでは、より正確さを求めて遅延を追加することを選ぶことができます。すべてのダビングユースケースにはある程度の遅延が伴うため、「リアルタイム」ダビングを、音声を連続的にストリーミングし、翻訳されたコンテンツを返すサービスとして定義します。
リアルタイムダビングの最適な商業用途は、次のような場合です。
フォーブスは2019年に報告しましたNBAが国際テレビ権で5億ドルを稼いでいると。NFLは今、ブラジル、イギリス、ドイツ、メキシコで試合を開催しており、国際的な拡大を将来の主要な収益源と見なしています。
ほとんどのスポーツイベントはライブで消費されることを意図していますが、視聴者は知らず知らずのうちにある程度の遅延に慣れています。スタジアムで撮影された映像が自宅の画面に届くまでの時間は、5秒から数分までさまざまです。
通常、現場には複数のカメラと音声オペレーターがいて、彼らの映像を制作施設にストリームします。制作施設はカメラフィードを切り替え、音声をミックスし、グラフィックを重ね、解説を追加します。また、意図的に追加の遅延を加えて、罵声や予期しないコンテンツを聞いて消音することもあります。
メインの制作フィードは放送ネットワークに送られ、彼らは自社のブランドやコマーシャルを追加し、コンテンツをローカルネットワークに配信します。最後に、ラストマイルプロバイダーがケーブル、衛星フィード、ストリーミングサービスを通じて消費者にコンテンツを共有します。
多くのプロデューサーは、ダビングのために最大20秒の追加遅延を追加することが許容されると報告しています。追加の遅延は、視聴者が母国語で聞くことができるという事実で十分に補われます。
スポーツ会社は、質の高いプロダクトを提供することを最も重視しており、質の高いプロダクトの鍵は、放送者の感情とタイミングを効果的に捉えることだと考えています。「彼がシュートし、彼が得点!」は熱意を持って伝える必要があります。
私たちのダビングサービスを支えるボイスクローンモデルは、元の話者の感情と伝達を捉えることができます。翻訳とは異なり、より多くの文脈が必ずしもより良い結果につながるわけではありません。しかし、スペインのサッカー解説者の感情レベルにはまだ達していません!
各ボイスクローンは、その入力の平均です。「残り2分でより積極的になる必要がある」と平坦に伝えられるラインと「彼がシュートし、彼が得点!」を組み合わせると、結果として得られるクローンはその2つの平均的な伝達になります。
今日では、トランスクリプト翻訳よりも短い文脈長をボイスクローンに持たせることでこれを克服できます。将来的には、ダビングモデルに追加の文脈(画像やビデオなど)を提供したり、元の話者の「感情的なトランスクリプト」を作成してダビング音声の伝達を指示することで、さらなる成果を期待しています。
「ライブ」スポーツと同様に、ニュース放送も遅延を追加する制作パイプラインを通過します。メディア企業との会話から、感情を捉えることは重要ですが、ほとんどのニュースキャスターは非常に一貫した伝達を持っているため、それほど重要ではなく、しばしば簡単です。しかし、翻訳が正確で微妙であることは非常に重要です。
自動翻訳サービスに失敗がある可能性がある上に、直接翻訳できない概念もあります。次の例を考えてみてください。
"コミュニティは追悼の日に集まり、生存者が自分の物語を共有し、長老たちが癒しのための伝統的な祈りを行いました。"
スペイン語: "La comunidad se reunió para un día conmemorativo, donde los sobrevivientes compartieron sus historias y los ancianos realizaron oraciones tradicionales para la sanación."
技術的には正確ですが、「survivors」と「sobrevivientes」は歴史的トラウマの文脈で異なる重みを持ちます。英語ではしばしばレジリエンスと尊厳を意味しますが、「sobrevivientes」は被害者意識を強調することがあります。同様に、「performed prayers」と「realizaron oraciones」は敬意において異なります。「performed」は儀式の重要性を認めますが、「realizaron」はより手続き的に聞こえることがあります。
異なる言語を話す人々の間で自然な対面会話を可能にするには、ほぼ瞬時の翻訳が必要です。
LLMの次のトークン予測確率を使用することで、文がどこに向かっているかのリアルタイムモデルを持つことができます。
画像ソース - Hugging Face「テキスト生成方法」
この次のトークン予測モデルを個々の話者に微調整すれば、彼らが次にどこに向かっているかを合理的に理解できます。この情報を使用して、話者が次にどこに向かっているかについて高い確信がある場合、翻訳と音声生成を先行して行うことで「チート」できます。
これに興味があり、AIオーディオの未来について一緒に働きたいですか?こちらでオープンロールを探す。
私たちのモデルは他に類を見ない感情を生み出します
私たちは、ユーザーがまったく新しい合成音声を設計できる独自の生成モデルを展開しています。