
ElevenLabs vs. Cartesia (June 2025)
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Eleven v3 アルファのご紹介
v3を試すElevenLabsの会話型AIは、ダイナミックなNPCとの対話や没入感のあるストーリーテリングを可能にし、ゲームを変革しています。
ゲームの世界が変わりつつあります。音声がその先頭に立っています。長年、ゲームの世界はスクリプト化された対話や事前設定されたNPCのやり取りに依存していましたが、会話型AIがその限界を打ち破り、キャラクターをより反応的で没入感のある生き生きとしたものにしています。
AIを活用したキャラクターは、もはやスクリプト化された道筋に限定されず、プレイヤーの選択にリアルタイムで反応し、物語を再構築し、プレイヤーのコントロールを高めています。主要なデベロッパーはすでにこの技術を統合し、NPCの対話を強化し、AI駆動の仲間を作り出して、よりリアルな体験を提供しています。
ElevenLabsの会話型AIを使って構築されたウィザードAIエージェントのCallumを例にとりましょう。彼はダンジョンマスターとして、ゲーム内の説明を行ったり、難しいパズルを解く手助けをしたりできます。このようなAIを使えば、会話型エージェントがゲームにシームレスに組み込まれ、NPCを魅力的で動的な仲間に変える方法が簡単に見えてきます。
ゲームからストリーミングまで、メディアの未来は音声によって支えられています。ますます多くのオーディエンスが、クリエイターと消費者の境界を曖昧にする没入型のリアルタイム体験を求めています。
会話型音声AIは、この変化の重要な要素であり、消費者にとって一般的な技術となっています。パーソナライズとインタラクティブ性が、私たちが日常的に使用するスマートデバイスに期待されるようになっています。しかし、ゲームに関しては、会話型音声AI技術の完全な統合はまだ見られていません。これは、メディアとしてのインタラクティブ性と、成功するゲーム体験に不可欠な豊かなストーリーテリングを考えると驚くべきことです。
これらの要因により、音声AIはゲームに自然に適しています。主要なデベロッパーによって導入が進んでいますが、課題も残っています。遅延、コスト、物語の一貫性などの課題が依然として重要な障害ですが、進行中の技術革新がこれらのギャップを埋めつつあります。
これらの課題があっても、会話型音声AIがゲーム体験の期待を変えることは明らかです。その応用が広がるにつれて、私たちが遊ぶ方法だけでなく、物語やキャラクター、世界とのつながり方も再定義されています。
会話型AI市場は急速に成長しています。世界的には、インタラクティブ技術が主流になるにつれて、2024年には132億ドルから2030年には499億ドルに跳ね上がると予想されています。メディアとエンターテインメント全体のセクターでは、AIの応用が年率17.5%の堅実な成長を遂げ、2024年には102.4億ドル、2034年には513.7億ドルに達するとされています。
このブームは、よりパーソナライズされた体験、よりスマートな推奨、そしてオーディエンスを引き込む動的な方法への需要によって促進されています。そして、ゲームも例外ではありません。
AIがゲーム業界に与える影響は大きいです。AIは2024年末までにゲーム業界に31億ドルの収益増をもたらすと予測されており、会話型音声AIはセクターを形作る最も特徴的なトレンドの一つとして浮上しています。さらに、ゲームデベロッパーの70%がAIを次世代のビデオゲームに不可欠と見なしており、将来のゲームプレイ体験における中心的な役割を強調しています。現在、すべてのデベロッパーが会話型音声AIの研究に専念しているわけではありませんが、正しく実装するデベロッパーが、プレイヤーの保持率と満足度を高めることで先導することを予測しています。
これを考慮すると、会話型音声AIが多くの開発スタジオの計画にすでにしっかりと組み込まれていることは明らかです。そして、オープンワールドゲーム、マルチプレイヤーコミュニティ、ゲーム内チュートリアルにおけるその応用の広大な可能性が見えます。
ゲームの革新の最前線で、スタジオはすでに会話型音声AIを実装して、ノンプレイヤーキャラクター(NPC)とのやり取りを強化しています。
注目すべき例はInworld AIであり、そのUnreal Engine 5プラグインは、動機、目標、独自のバックストーリーを持つリアルなNPCを作成するための強力なツールキットを提供しています。Inworldのコンテクスチュアルメッシュは、キャラクターがゲームの世界に忠実であることを保証し、キャラクターブレイン機能はリアルなパフォーマンスを促進し、感情が声のトーン、アニメーション、表情に影響を与えることを可能にします。デベロッパーは、プレイヤープロファイル、関係、キャラクターの目標をゲームプレイループに統合することもでき、新しいメカニクスとより没入感のあるストーリーテリングの機会を解放します。
5億ドルの評価額と大規模な資金調達により、Inworldはこの分野で急速にリーダーとしての地位を確立しています。
他の場所では、Electronic Arts(EA)は、AIがNPCの行動をどのように高めるかをSEED(Search for Extraordinary Experiences Division)を通じて探求し、新しい基準を設定しています。一方、NvidiaのAvatar Cloud Engine (ACE)はAI駆動のキャラクターを支え、自然で会話的なやり取りを可能にし、従来の「ナラティブブランチ」システムの限界を超えています。NvidiaのJohn Spitzerは、「デジタルインタラクションをリアルに感じさせるために必要な複雑なアニメーションと会話音声を提供することを目指している」と述べています。
UbisoftのNEO NPCプロジェクトは、NvidiaのAudio2FaceとInworldの大規模言語モデルを活用して、プレイヤーの選択に対して真に応答しながら、ゲームの伝承に深く結びついたNPCを作成します。その結果、対話は自発的でありながら、物語と一貫性があります。この場合、Ubisoftのデザイナーは、NPCがゲームプレイに忠実であることを保証するためにバックストーリーと個性を作成しました。さらに、以下のデモビデオで見られるように、プレイヤーは会話の性質とトーンを通じて出会ったNPCと積極的に関係を築くことができ、それが物語の展開に影響を与えます。Ubisoftはまた、プレイヤーの毒性に対するフィルターと、対話を物語の範囲内に保つメカニズムを追加することにも注意を払っています。
会話型音声AIに完全に飛び込む準備ができていないスタジオにとって、より少ないコミットメントで可能性を探る方法があります。一般的な最初のステップは、テキスト読み上げ(TTS)技術を活用して、ボイスアクターで録音する前にキャラクターのやり取りをテストするための「スクラッチ」対話を作成することです。このアプローチは、初期段階の開発を効率化するだけでなく、迅速な反復を可能にします。スタジオが技術に慣れてくると、TTSを使用してキャラクターボイスオーバー全体を処理し、初期の作成から最終的な実装までを行うことができます。
会話型音声AIは、NPCをより動的で応答性のあるものにし、スタジオがよりリアルなやり取りを作成できるようにしています。
会話型音声AIがゲームの物語の可能性を拡大し、プレイヤーの決定に基づいて予期しない方向に進化する物語を提供できることは明らかです。
これは、BethesdaのFalloutシリーズやRockstarのRed Dead RedemptionやGrand Theft Autoのようなオープンワールドゲームで特に強力です。これらのタイトルは、深いストーリーテリングと豊かな環境で知られており、初期の決定が後の結果を形作ることをすでに可能にしています。会話型AIを統合することで、デベロッパーは新しいインタラクティブ性の層を追加し、ユニークな対話、隠されたイースターエッグ、ダイナミックなストーリーラインをリプレイごとに解放できます。
もちろん、スタジオにとっては、これによりリプレイ性が向上し、前述のタイトルにとってはすでに10年にわたるゲームライフサイクルの延長が意味します。プレイヤーは戻ってきて、見逃した機会や新しい結果を探求することを奨励され、エンゲージメントと収益性の両方にとってウィンウィンの状況を作り出します。
もちろん、課題はスケールです。オープンワールドゲームはすでに広大な取り組みであり、会話型AIを組み込むには、デベロッパーがさらに多様な結果を設計する必要があります。しかし、技術が成熟するにつれて、ゲームプレイを豊かにする能力がこれらの努力を十分に価値あるものにすることを期待しています。
多くのプレイヤーにとって、コミュニティはゲーム体験の中心にあります。Twitchのようなプラットフォームの爆発的な成長はこれを完璧に示しています。2024年のこれまでのところ、Twitchは月間17.1億以上の訪問を受け、約691万人のアクティブストリーマーと毎日56,531,804時間のコンテンツを提供しています。これらの数字は、ゲームコミュニティのハブとしてのその巨大なリーチと関連性を強調しています。
ゲームを超えても、このコミュニティの精神はブランドや企業の戦略に影響を与えており、多くが今やアイデンティティとマーケティングの中心に本物でオーガニックなコミュニティの育成を優先しています。会話型音声AIは、既存のダイナミクスを補完する新しいインタラクティブ性とエンゲージメントの層を追加し、これらのスペースを強化する可能性を秘めています。
例えば、ai_liciaを取り上げましょう。TwitchとDiscord専用に設計されたai_liciaは、AI共同ホストとして、ライブストリームをエンターテイニングでパーソナライズされたやり取りで豊かにします。Twitchとのシームレスな統合により、通常のコミュニティメンバーのトーンと個性にマッチし、やり取りが自然で関連性のあるものに感じられます。
ElevenLabsによって支えられたai_liciaは、各コミュニティの文化と好みのゲームに合わせてカスタマイズ可能です。そのクロスプラットフォームメモリは、セッションをまたいでユーザーを認識し、記憶することを可能にし、帰属意識を育みます。エンゲージメントを超えて、ai_liciaは新しいメンバーのオンボーディングを効率化し、彼らが迅速にコミュニティ内での居場所を見つけることを保証します。
まだ初期段階にあるものの、ai_liciaのような会話型AIツールは、ゲームコミュニティを再形成するための大きな可能性を示しています。より強い絆を育み、保持率を向上させ、より深いつながりを促進することで、会話型音声AIは、ゲームの最も活気あるスペースでプレイヤーとファンのやり取りを再定義する準備が整っています。
Chess.com, founded in 2007, has long been dedicated to serving the global chess community by offering innovative tools for playing, connecting, and learning online. One of their top learning apps, Learn Chess with Dr. Wolf, features an interactive virtual chess teacher who adapts to users' abilities, providing personalized guidance to help them improve their game.
Initially, Dr. Wolf offered only text-based commentary. However, after receiving user feedback highlighting the need for audio guidance—particularly to assist younger players struggling with reading—the Chess.com team recognized the potential to enhance the learning experience by adding a voice component. To achieve this, they partnered with ElevenLabs to find a voice that was both authoritative and warm, maintaining the personal touch of a seasoned chess coach.
The integration of ElevenLabs' voice technology has been met with overwhelmingly positive responses. Users have noted that audio guidance allows them to keep their eyes on the chessboard, leading to a more natural and effective learning process. As Gabe Jacobs, the product manager on the Dr. Wolf team, stated:
"The introduction of a voice for Dr. Wolf has transformed our app. It's not just a feature—it’s brought a whole new dimension to learning chess online."
— Gabe Jacobs, Product Manager, Dr. Wolf Team
会話型音声AIの最も明確な機会の一つは、ゲーム内チュートリアルにあります。動的な音声対話を可能にすることで、デベロッパーは学習をより魅力的でアクセスしやすいものにすることができます。
Chess.comは完璧な例を提供します。彼らのDr. Wolfチューターは、プレイヤーがチェスのスキルを磨くためのテキストベースのツールとしてすでに人気がありました。これをさらに進めるために、Chess.comはElevenLabsと提携して、Dr. Wolfに温かく権威ある声を与えました。その結果、より没入感があり直感的な体験が生まれ、1億人以上のユーザー、特に若い学習者がアプリとより自然に関わることができました。
デベロッパーにとって、この成功は重要な教訓を強調しています。会話型音声AIは単なる機能ではなく、プレイヤーのエンゲージメントを深め、保持率を向上させ、より直感的なユーザー体験を作り出す方法です。
会話型音声AIがゲーム内体験を豊かにするための自然な進化であると考えていますが、主要なプレイヤーからの大規模な投資があるにもかかわらず、完全な統合への道は課題がないわけではありません。会話型AIがゲームを真に革命化するためには、いくつかの課題に注意を払う必要があります。
シームレスなやり取りはプレイヤーを没入させ続けるために重要ですが、遅延は依然として大きな障害です。プレイヤーは自然でリアルタイムの対話を期待していますが、現在の技術はこれを提供するのに苦労しています。GPT-3のような大規模言語モデル(LLM)は、応答に3〜15秒かかり、人間のようなやり取りに理想的な200〜800ミリ秒のウィンドウを大幅に超えています。これらの遅延は予想されますが、最終的には没入感を損ない、ユーザーのゲームプレイの流れを中断させます。
音声ベースのAIはさらに複雑さを加え、音声認識、応答生成、配信のプロセスが追加の遅延を引き起こします。エッジコンピューティングのような技術は、プレイヤーに近い場所でデータを処理することで応答時間を短縮するのに役立っています。私たちは、テキスト読み上げの遅延を生成とネットワーク時間で200ミリ秒まで低減するために努力を続けています。
分岐ストーリーラインはゲームの最も魅力的な特徴の一つですが、同時に課題もあります。会話型AIはプレイヤーの決定に適応しながら、物語を一貫して保つ必要がありますが、現在のモデルのメモリ制限により、重要な物語の詳細を見失うことがあります。
デベロッパーは、重要な物語の要素を追跡するシステムを構築することで、やり取りがゲームのプロットと一貫していることを保証しています。また、プレイヤーのフィードバックを使用してAIの応答を洗練し、技術が物語を強化するのではなく、妨げることがないようにしています。リアルタイム処理の進歩により、ゲームがプレイヤーの選択に動的に適応できるようになり、会話型AIが複雑なストーリーラインにより自然に統合されるのを助けています。
Paradox Interactive, the renowned Swedish game developer behind titles like Stellaris and Crusader Kings III, has partnered with ElevenLabs to integrate advanced voice technology into their game development process. This collaboration aims to streamline voice generation, reducing production time and costs.
Incorporating ElevenLabs' generative AI technology offers Paradox several benefits, including efficient iteration during pre-production, cost savings on extensive dialogues, flexible localization for global markets, enhanced accessibility for visually impaired players, and the ability to explore new narratives and expansions with ease.
Ernesto Lopez, Audio Director for Stellaris and Crusader Kings III, expressed enthusiasm about the partnership:
"We’re incredibly pleased with the results from the ElevenLabs platform. The samples created by their contextually aware engine have exceeded our expectations, inspiring us to push the limits of our projects and imagine more intricate and richer voice-over designs for our games."
— Ernesto Lopez, Audio Director, Paradox Interactive
デベロッパーにとって最大の障害の一つは、会話型音声AIの大規模な実装のコストです。ゲーム開発はすでに大規模な財政的取り組みであり、数年にわたり多額の投資を必要とします。Grand Theft Auto VIを例にとると、2023年12月に最初のトレーラーが公開されたにもかかわらず、発売日は不明のままであり、GTA Vのリリースから10年以上が経過しています。このようなブロックバスタータイトルの制作には莫大なコストがかかり、スタジオが市場にゲームを投入する前に直面する財政的圧力を強調しています。
ゲームは通常60〜70ドルで販売され、オプションの拡張パックやゲーム内購入がそのライフサイクルを延ばすことがよくあります。GTA Vのようなタイトルでは、これらのアドオンはプレイヤーに受け入れられ、スタジオに追加の収益源を提供し、基本ゲームの前払いコストを大幅に変更することなく提供されます。しかし、会話型AIを実装することで、制作コストが増加するだけでなく、プレイヤーがゲームを楽しむ際にLLMを運用するための継続的な費用も発生します。これらの増加したコストは、スタジオが費用を吸収するか、消費者に高い価格で転嫁するかのいずれかを迫る可能性があります。
しかし、この課題は機会を提供します。スタジオは、開発コストとプレイヤーアクセスのバランスを取るために、サブスクリプションや階層化されたAI機能などの新しい価格モデルを探ることができます。適切なアプローチを取ることで、デベロッパーはAI駆動の機能を持続可能な収益源に変えることができます。
多くのAIの革新と同様に、ゲームにおける会話型AIの最終的な成功は、ゲーマーの賛同という重要な要素に依存しています。この技術は大きな可能性を秘めていますが、特にAIの存在をゲームの本物性を損なう可能性があると考えるゲーム純粋主義者からの抵抗に直面する可能性があります。
この懐疑的な見方は根拠がないわけではありません。過去にゲームにAIを実装しようとした試みが時折失敗したことがあります。例えば、Keywords StudiosのProject Avaは、AIを完全に使用して2Dゲームを作成しようとしましたが、技術が人間の才能を置き換えるには不十分であり、7つの異なるゲーム開発スタジオの介入が必要でした。同様に、AI駆動のゲーム用に設計されたMicrosoftのCopilot+ PCは、重大な互換性の問題に直面しました。テストされた1,300のPCゲームのうち半分しかエラーなしで動作せず、Fortnite、League of Legends、Halo Infiniteのような人気タイトルがクラッシュや起動問題を経験しました。これらの失敗は、プレイヤーを疎外し、ゲーム体験を妨げる可能性のある不適切に統合されたAIシステムのリスクを浮き彫りにしています。
適切に実装された場合、会話型AIはより豊かなゲームプレイの物語を作り出し、シングルプレイヤーとコミュニティ主導の体験の両方を強化します。これが大規模に成功するためには、AIは単なるギミックや後付けではなく、ゲームのストーリーテリング、インタラクティブ性、没入感を本当に強化する必要があります。プレイヤーは、会話型AIが意味のある価値を追加し、期待される本物性を損なうことなく、より豊かで魅力的な体験を提供することを見たときに賛同するでしょう。
遅延、物語の一貫性、コストといった課題は現実ですが、克服不可能なものではありません。応答時間と分岐物語の能力における継続的な革新により、会話型音声AIはシームレスで没入感のある体験を提供し、ゲームを再定義する準備が整っています。
ゲームプレイを超えて、この技術はスタジオがプレイヤーの保持を強化し、より豊かな物語、動的なやり取り、強力なコミュニティエンゲージメントを通じてROIを向上させるための重要な機会を提供します。生成AIとは異なり、会話型音声AIは既存のゲーム世界に自然に重なり、確立された物語やメカニクスを妨げることなく体験を豊かにします。
ElevenLabsでは、デベロッパーが生き生きとしたキャラクターと意味のあるやり取りを実現するのを支援できることを誇りに思っています。会話型音声AIがゲームだけでなく、すべてのメディアを変革する可能性は非常に大きく、この進化を形作ることに興奮しています。
会話型音声AIはもはや新興技術ではなく、今ここにあり、採用する時が来ています。没入型でパーソナライズされたインタラクティブな体験の新しい可能性を解き放つことで、プレイヤーがゲームやコミュニティと関わる方法を再定義しています。
課題は存在しますが、革新的なソリューションがギャップを埋め、会話型音声AIを実現可能でROIがプラスになるものにしています。ElevenLabsでは、この技術を変革の力と見なし、デベロッパーがより豊かで動的な体験を創造するのを支援することを誇りに思っています。ゲームの未来は会話型であり、私たちはまだ始まったばかりです。
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning