ブラックフライデー

引き換え

WaveForms AI、スピーチ・チューリングテスト合格を目指すミッションを発表

OpenAIとGoogleのベテランによる新しいスタートアップが、開発中のオーディオAIに関する野心的な計画を共有

A dark blue background with a wavy line of small, multicolored dots in shades of blue and white.

本日、元OpenAIとGoogleのベテランによって設立されたWaveForms AIは、人間のスピーチを区別できないほどに模倣するオーディオAIシステムの開発を目指すミッションを発表しました。CEOのアレクシス・コノーは強調しました彼らの目標は「スピーチ・チューリングテスト」に合格することであり、ユーザーが人間とAI生成のスピーチを区別できない50%の好みスコアを目指しています。同社は現在開発段階にあり、来年には具体的な製品を発表する予定です。

注: WaveForms AIは開発中のオーディオAIに関する計画を共有しました。一方、ElevenLabsのオーディオAIはすでに利用可能で、プロダクションレベルの品質を提供しています。

スピーチ・チューリングテストとは?

スピーチ・チューリングテストは、AIオーディオシステムのベンチマークであり、人間がAI生成のスピーチと人間のスピーチを区別できるかどうかを測定します。このテストに合格するには、50%の好みスコアを達成する必要があり、リスナーが人間かAIかを判断できないことを意味します。ElevenLabsはすでにこのレベルの区別不能性を達成するために大きな進歩を遂げており、その音声は人間のようなリアリズムで広く認識されています。

WaveForms AIがスピーチ・チューリングテストに取り組む方法

WaveForms AIは、元OpenAIとGoogleのベテランによって設立され、シームレスで人間のようなコミュニケーションが可能なオーディオAIシステムの作成を目指しています。アレクシス・コノーが率いるこのスタートアップは、人間のスピーチを再現するだけでなく、感情のニュアンスを捉え、より自然で魅力的なインタラクションを実現するモデルの開発に注力しています。ElevenLabsの

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

高品質なナレーション、ゲーム、ビデオ、アクセシビリティのために構築されたテキスト読み上げ(TTS)システムで、人間らしい声を作成。表現力豊かな声、多言語対応、API統合により、個人プロジェクトから企業のワークフローまで簡単に拡張可能。

AIスピーチシステムにおける好みスコアとは?

好みスコアは、AI生成のスピーチが人間のスピーチと区別できない程度を測定します。50%のスコアは、リスナーが明確な好みを示さないことを意味し、両者が同等であることを示します。ElevenLabsは一貫して高い好みスコアを達成しており、クリエイターメディアアクセシビリティ組織によって業界をリードする採用を受けています。

AIオーディオにおける感情のニュアンスが重要な理由

現在のAI音声システムはしばしば感情の微妙なニュアンスを失い、共感を伝えたり意味のある関与をする能力が制限されます。WaveForms AIは、オーディオをネイティブに処理して文脈と感情を捉え、より豊かなコミュニケーションを可能にするAudio LLMsでこれに対処すると主張しています。ElevenLabsはすでに感情のニュアンスの重要性を示しており、ユーザーがトーン、表現力、ペースを微調整してあらゆる文脈に合わせることができるツールを提供しています。

Screenshot of an audiobook editing interface with highlighted text and two book cover images titled "Discover Daily" and "Dune."

ビデオとオーディオの編集、ボイスオーバーと音楽の追加、テキストへの書き起こし、ナレーション付きの字幕付き作品の公開までの完全なワークフロー

WaveForms AIは既存のAIオーディオシステムとどう違うのか?

従来のElevenLabsは、 感情の深さと柔軟性ElevenLabsは

スピーチ・チューリングテストを達成する際の課題は何ですか?

区別不能なAIスピーチシステムの開発には、技術的および倫理的な課題が伴います。コノーは、ユーザーがAIキャラクターに愛着を持つリスクや、AIのリアリズムの増加による社会的影響を強調しています。これらの問題に責任を持って対処することがWaveForms AIの重要な焦点です。ElevenLabsは、「ノーゴー」ボイスポリシーや厳格なコンテンツモデレーションなどの安全策を構築し、これらの課題に責任を持って対処しながら最先端の技術を提供しています。

スピーチ・チューリングテストを目指したAIシステムの応用

WaveForms AIは、教育、カスタマーサポート、エンターテインメントなど、幅広いアプリケーションで技術が使用されることを想定しています。人間のような音声インタラクションを作り出す能力は、これらの分野でより没入感のある共感的な体験を可能にします。ElevenLabsは、アクセシブルな教育ツールから多言語メディアローカリゼーションまで、これらの分野でのアプリケーションをすでに実現しており、今日の技術で可能なことを示しています。

Two men speaking into microphones during a recording session, with audio editing software displayed on a screen in the background.

各話者の感情、タイミング、トーン、独自の特徴を保ちながら音声とビデオを翻訳

AIオーディオシステムの未来

WaveForms AIの製品はまだ開発中ですが、AIオーディオインタラクションを再定義するという彼らの野心は、Andreessen Horowitzが主導する4000万ドルのシード資金を含む大きな注目を集めています。同社がスピーチ・チューリングテストの解決に向けて取り組む中、技術とのインタラクションの再構築の可能性は非常に大きいです。ElevenLabsは、オーディオAIの未来を形作るリーダーとして、業界を変革し、ユーザーのニーズに応えるソリューションを提供し続けています。

landing page

ウェブ、モバイル、または電話でも、わずか数分でエージェントに音声を追加できます。私たちのリアルタイム API は、低レイテンシでフルカスタマイズが可能、さらにシームレスな拡張性を提供します。

WaveForms AIオーディオとElevenLabsの比較

将来的に多くのオーディオ生成のユースケースをサポートすることを目指して、WaveForms AIは汎用的なオーディオAIツールキットになる可能性があります。現時点では製品発表にとどまっています。一方、ElevenLabsはすでに利用可能で、プロダクションレベルの品質とカスタマイズを提供しています。

WaveForms AIがテキスト読み上げやサウンド生成などの主要分野でどのように比較されるかを簡単に評価しましょう。

テキスト読み上げ

ElevenLabsは

  • 70以上の言語に対応し、本物のアクセントと文化的ニュアンスを持つ
  • テキストの文脈に応じて反応する高度な感情知能
  • 音声特性のコントロール
  • 長編コンテンツでも一貫性を保つ高品質で人間のようなスピーチ
  • 自然な音声の広範なライブラリ
  • 音声をクローンしカスタマイズする能力

ElevenLabsの技術はすでに信頼性が高く、プロダクション対応の出力を提供し、プロフェッショナルな基準を満たしています。その専門的なアプローチは、人間のスピーチの微妙なニュアンスを捉えたより自然な音声を一貫して生み出します。

サウンドエフェクト

ElevenLabsはすでにサウンドエフェクト生成において、より効率的で正確なアプローチを提供しています。ElevenLabsは以下を提供しています:

  • 各プロンプトに対して4つの異なるサンプルを即座に生成
  • 詳細なテキスト説明による正確なコントロール
  • 商業プロジェクトに適した高品質の出力
  • 一般的なサウンドエフェクトの包括的なライブラリ
  • テキスト説明から直接独自のエフェクトを作成する能力

ElevenLabsは、音声とサウンドエフェクトの生成において専門的な卓越性を提供します。最高のAIサウンドエフェクトジェネレーターの一つとして、信頼性が高く、プロダクション対応の出力を提供し、プロフェッショナルなコンテンツクリエイターのニーズにより良く応えます。

ElevenLabsを使ったテキスト読み上げの方法

これらの簡単なステップで、コンテンツをプロフェッショナル品質のボイスオーバーに変換します:

  1. サインアップ: 無料または有料のアカウントを作成ElevenLabsで
  2. 音声を選択:自然な音声の多様なライブラリから選択
  3. テキストを入力:スクリプトをインターフェースに貼り付けるか入力
  4. 設定をカスタマイズ:速度、トーン、強調を調整してニーズに合わせる
  5. プレビューと生成:サンプルを聞いて最終的なオーディオ出力を生成
  6. ダウンロード:高品質のボイスオーバーをダウンロード

最終的な考え

WaveFormsやElevenLabsのようなAIオーディオツールの出現は、コンテンツ制作におけるエキサイティングな進化を示しています。しかし、WaveForms AIは実験的なサウンド生成とオーディオ操作において印象的な野心を発表しましたが、まだ利用可能ではありません。

一方、ElevenLabsはすでに利用可能で、プロダクションレベルです。また、現在市場でリードしている

ElevenLabsのAI技術を試してみませんか?サインアップして今日から始めましょう。

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

高品質なナレーション、ゲーム、ビデオ、アクセシビリティのために構築されたテキスト読み上げ(TTS)システムで、人間らしい声を作成。表現力豊かな声、多言語対応、API統合により、個人プロジェクトから企業のワークフローまで簡単に拡張可能。

よくある質問

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン