
ElevenLabs vs. Cartesia (June 2025)
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Presenterar Eleven v3 Alpha
Prova v3Conversational AI från ElevenLabs förändrar spel genom att möjliggöra dynamiska NPC-interaktioner och uppslukande berättande.
Gaming förändras — och rösten leder vägen. I åratal har spelvärldar förlitat sig på skriptad dialog och förinställda NPC-interaktioner, men conversational AI bryter dessa gränser och gör karaktärer mer responsiva, uppslukande och levande.
AI-drivna karaktärer är inte längre begränsade till skriptade vägar — de reagerar nu i realtid på spelarens val, omformar berättandet och ökar spelarens kontroll. Stora utvecklare integrerar redan denna teknik, förbättrar NPC-dialog och skapar AI-drivna följeslagare som känns verkligt levande.
Ta Callum, en Wizard AI-agent byggd med ElevenLabs Conversational AI. Han kan fungera som Dungeon Master, leverera exposition i spelet eller till och med guida spelare genom knepiga pussel. Med AI som denna är det lätt att se hur conversational agents kan smälta in i gaming och förvandla NPC:er till engagerande, dynamiska följeslagare.
Från gaming till streaming, framtiden för media drivs av rösten. Alltmer söker publiken uppslukande, realtidsupplevelser som suddar ut gränsen mellan skapare och konsument.
Conversational voice AI visar sig redan vara en nyckelfunktion i denna förändring och är en teknik som blivit vanlig för konsumenter, med personalisering och interaktivitet som nu förväntas av de smarta enheter vi använder dagligen. När det gäller gaming har vi dock ännu inte sett en fullt integrerad tillämpning av conversational voice AI-teknik — överraskande, med tanke på dess inneboende interaktivitet som media och den rika berättelsen som är så avgörande för en framgångsrik spelupplevelse.
Dessa faktorer gör voice AI till en naturlig passform för gaming. Användningen växer, ledd av stora utvecklare, men utmaningar kvarstår. Utmaningar som latens, kostnad och narrativ konsistens är fortfarande stora hinder, men pågående framsteg överbryggar dessa klyftor.
Även med dessa utmaningar är tecknen tydliga: conversational voice AI är redo att förändra förväntningarna på spelupplevelser. När dess tillämpningar växer omdefinierar det inte bara hur vi spelar utan också hur vi ansluter till berättelser, karaktärer och världar.
Marknaden för conversational AI växer snabbt. Globalt förväntas den hoppa från 13,2 miljarder dollar 2024 till 49,9 miljarder dollar 2030, när interaktiva teknologier blir mer mainstream. Inom media- och underhållningssektorn som helhet förväntas AI-tillämpningar växa med en stadig årlig takt på 17,5 %, och nå 10,24 miljarder dollar 2024 och 51,37 miljarder dollar 2034.
Denna boom drivs av efterfrågan på mer personliga upplevelser, smartare rekommendationer och dynamiska sätt att engagera publiken — och gaming är inget undantag.
Denna påverkan av AI på spelindustrin är betydande. AI förväntas bidra med en intäktsökning på 3,1 miljarder dollar till spelindustrin i slutet av 2024, och conversational voice AI framträder som en av de mest definierande trenderna som formar sektorn. Dessutom ser 70 % av spelutvecklarna AI som avgörande för nästa generation av videospel, vilket understryker dess centrala roll i framtida spelupplevelser. Och även om inte alla utvecklare för närvarande satsar på conversational voice AI, förutspår vi att de utvecklare som implementerar korrekt kommer att leda vägen genom ökad spelarretention och tillfredsställelse.
Med detta i åtanke är det tydligt att Conversational voice AI redan är en fast del av många utvecklingsstudios planer — och vi ser enorm potential för dess tillämpning över öppna världar, multiplayer-gemenskaper och in-game-tutorials.
I framkanten av spelinnovation implementerar studios redan conversational voice AI för att förbättra interaktioner med icke-spelbara karaktärer (NPC:er).
Ett framstående exempel är Inworld AI, vars Unreal Engine 5-plugin erbjuder ett kraftfullt verktyg för att skapa livfulla NPC:er med motivationer, mål och unika bakgrundshistorier. Inworlds Contextual Mesh säkerställer att karaktärer förblir trogna spelvärlden, medan dess Character Brain-funktion driver realistiska prestationer, vilket gör att känslor påverkar tonfall, animationer och ansiktsuttryck. Utvecklare kan till och med integrera spelarprofiler, relationer och karaktärsmål i spelcykler, vilket låser upp nya mekaniker och mer uppslukande berättelsemöjligheter.
Med en värdering på 500 miljoner dollar och betydande finansiering etablerar sig Inworld snabbt som en ledare inom området.
På annat håll utforskar Electronic Arts (EA) hur AI kan höja NPC-beteende genom deras SEED (Search for Extraordinary Experiences Division), och sätter nya standarder för engagemang. Samtidigt driver Nvidia’s Avatar Cloud Engine (ACE) AI-drivna karaktärer, vilket möjliggör naturliga, konversativa interaktioner som går bortom gränserna för ett traditionellt 'berättelsegren'-system. Som Nvidias John Spitzer uttrycker det, är deras mål att leverera de “komplexa animationer och konversativa tal som krävs för att få digitala interaktioner att kännas verkliga.”
Ubisofts NEO NPC-projekt utnyttjar Nvidias Audio2Face och Inworlds Large Language Model för att skapa NPC:er som svarar autentiskt på spelarens val samtidigt som de förblir djupt knutna till spelets lore. Resultatet är dialog som känns både spontan och konsekvent med berättelsen. I detta fall har Ubisofts designers skapat bakgrundshistorier och personligheter för att säkerställa att NPC:er bibehåller en nivå av autenticitet som förblir trogen spelupplevelsen. Dessutom, som ses i den nedanstående demovideon, kan spelare aktivt bygga relationer med de NPC:er de möter genom samtalets natur och ton, vilket i sin tur påverkar hur berättelsen utvecklas. Ubisoft har också varit noga med att lägga till filter för spelarens toxicitet och mekanismer för att hålla interaktioner inom berättelsens ramar.
För studios som ännu inte är redo att helt dyka in i conversational voice AI finns det sätt att börja utforska möjligheterna med mindre åtagande. Ett vanligt första steg är att använda Text-to-Speech (TTS)-teknik för att skapa “scratch”-dialog för att testa karaktärsinteraktioner innan inspelning med röstskådespelare. Detta tillvägagångssätt strömlinjeformar inte bara tidig utveckling utan möjliggör också snabb iteration. När studios blir mer bekväma med tekniken kan de övergå till att använda TTS för hela karaktärs voice-overs, hantera allt från initial skapelse till slutlig implementering.
Conversational voice AI gör NPC:er mer dynamiska och responsiva, vilket gör det möjligt för studios att skapa rikare interaktioner som känns mer levande.
Det är tydligt hur conversational voice AI kan utöka det narrativa potentialet i gaming, erbjuda berättelser som utvecklas i oväntade riktningar baserat på spelarens beslut.
Detta är särskilt kraftfullt i öppna världar som Bethesdas Fallout-serien eller Rockstars Red Dead Redemption och Grand Theft Auto. Dessa titlar, kända för sina djupa berättelser och rika miljöer, tillåter redan tidiga beslut att forma senare utfall. Genom att integrera conversational AI kan utvecklare lägga till nya lager av interaktivitet - låsa upp unika dialoger, dolda påskägg och dynamiska berättelser vid varje omspelning.
För studios innebär detta naturligtvis större återspelningsvärde och en förlängning av spelets livscykler som för de nämnda titlarna redan sträcker sig över ett decennium. Spelare uppmuntras att återvända, utforska missade möjligheter och nya utfall, vilket skapar en win-win för både engagemang och lönsamhet.
Utmaningen är naturligtvis skalan. Öppna världar är redan stora åtaganden, och att integrera conversational AI kräver att utvecklare designar ännu mer varierade utfall. Men när tekniken mognar förväntar vi oss att förmågan att berika spelupplevelsen kommer att göra dessa ansträngningar väl värda investeringen.
För många spelare är gemenskapen kärnan i deras spelupplevelse. Explosionen av plattformar som Twitch, och i mindre utsträckning Discord, illustrerar detta perfekt — hittills 2024 har Twitch fått över 17,1 miljarder månatliga besök, med cirka 6,91 miljoner aktiva streamers och nästan 56 531 804 timmar av innehåll dagligen — siffror som belyser dess enorma räckvidd och relevans som en hubb för spelgemenskaper.
Även bortom gaming har denna gemenskapsanda påverkat hur varumärken och företag närmar sig sina strategier, med många som nu prioriterar odlingen av autentiska, organiska gemenskaper i kärnan av deras identitet och marknadsföring. Conversational voice AI har potential att förbättra dessa utrymmen, lägga till ett nytt lager av interaktivitet och engagemang som kompletterar befintliga dynamiker.
Ta ai_licia, till exempel. Designad specifikt för Twitch och Discord, fungerar ai_licia som en AI-co-host, berikar liveströmmar med underhållande och personliga interaktioner. Dess sömlösa integration med Twitch gör att den kan matcha tonen och personligheten hos en typisk gemenskapsmedlem, vilket gör interaktioner naturliga och relevanta.
Drivs av ElevenLabs, är ai_licia anpassningsbar för att stämma överens med varje gemenskaps kultur och föredragna spel. Dess plattformsöverskridande minne skiljer den från andra, vilket gör att den kan känna igen och komma ihåg användare över sessioner, vilket främjar en känsla av tillhörighet. Utöver engagemang kan ai_licia också förenkla onboarding för nya medlemmar, vilket säkerställer att de snabbt hittar sin plats inom gemenskapen.
Även om det fortfarande är i sina tidiga stadier, visar conversational AI-verktyg som ai_licia den enorma potentialen för att omforma spelgemenskaper. Genom att främja starkare band, förbättra retention och uppmuntra djupare kopplingar, är conversational voice AI redo att omdefiniera hur spelare och fans interagerar i gamings mest livliga utrymmen.
Chess.com, founded in 2007, has long been dedicated to serving the global chess community by offering innovative tools for playing, connecting, and learning online. One of their top learning apps, Learn Chess with Dr. Wolf, features an interactive virtual chess teacher who adapts to users' abilities, providing personalized guidance to help them improve their game.
Initially, Dr. Wolf offered only text-based commentary. However, after receiving user feedback highlighting the need for audio guidance—particularly to assist younger players struggling with reading—the Chess.com team recognized the potential to enhance the learning experience by adding a voice component. To achieve this, they partnered with ElevenLabs to find a voice that was both authoritative and warm, maintaining the personal touch of a seasoned chess coach.
The integration of ElevenLabs' voice technology has been met with overwhelmingly positive responses. Users have noted that audio guidance allows them to keep their eyes on the chessboard, leading to a more natural and effective learning process. As Gabe Jacobs, the product manager on the Dr. Wolf team, stated:
"The introduction of a voice for Dr. Wolf has transformed our app. It's not just a feature—it’s brought a whole new dimension to learning chess online."
— Gabe Jacobs, Product Manager, Dr. Wolf Team
En av de tydligaste möjligheterna för conversational voice AI ligger i in-game-tutorials. Genom att möjliggöra dynamiska röstinteraktioner kan utvecklare göra lärandet mer engagerande och tillgängligt för spelare.
Chess.com ger ett perfekt exempel. Deras Dr. Wolf-handledare var redan populär som ett textbaserat verktyg för att hjälpa spelare att förfina sina schackfärdigheter. För att ta detta vidare, Chess.com samarbetade med ElevenLabs för att ge Dr. Wolf en varm, auktoritativ röst. Resultatet? En mer uppslukande och intuitiv upplevelse som har hjälpt över 100 miljoner användare - särskilt yngre elever - att engagera sig mer naturligt med appen.
För utvecklare belyser denna framgång en viktig lärdom: conversational voice AI är inte bara en funktion. Det är ett sätt att fördjupa spelarens engagemang, förbättra retention och skapa en mer intuitiv användarupplevelse.
Även om vi ser conversational voice AI som en naturlig utveckling för att berika in-game-upplevelser — och med betydande investeringar från stora aktörer — är vägen till full integration inte utan sina hinder. För att conversational AI verkligen ska revolutionera gaming krävs uppmärksamhet på flera utmaningar.
Sömlös interaktion är avgörande för att hålla spelare uppslukade, men latens är fortfarande ett stort hinder. Spelare förväntar sig naturlig, realtidsdialog, men nuvarande teknologier kämpar ofta med att leverera detta. Stora språkmodeller (LLMs) som GPT-3 kan ta 3–15 sekunder att svara, vilket långt överstiger det ideala fönstret på 200–800 millisekunder för mänskliga utbyten. Dessa förseningar är att förvänta men tar i slutändan bort från uppslukningen och bryter spelupplevelsen för användare.
Röstbaserad AI tillför ytterligare komplexitet, med tal-till-tal-processen (igenkänning, responsgenerering och leverans) som introducerar ytterligare förseningar. Tekniker som edge computing, som bearbetar data närmare spelare, hjälper till att minska svarstider. Vi fortsätter att driva ner latensen för vår text to speech till så lågt som 200 ms för generering och nätverkstid.
Grenande berättelser är en av gamings mest övertygande funktioner, men de presenterar också utmaningar. Conversational AI måste anpassa sig till spelarens beslut samtidigt som berättelsen hålls sammanhängande, en uppgift som kompliceras av minnesbegränsningar i nuvarande modeller, som kan tappa bort viktiga narrativa detaljer.
Utvecklare adresserar detta genom att bygga system för att spåra viktiga berättelseelement, vilket säkerställer att interaktioner förblir konsekventa och i linje med spelets handling. De använder också spelarfeedback för att förfina AI-svar och säkerställa att tekniken förbättrar snarare än stör berättelsen. Framsteg inom realtidsbearbetning gör det möjligt för spel att dynamiskt anpassa sig till spelarens val, vilket hjälper conversational AI att integreras mer naturligt i komplexa berättelser.
Paradox Interactive, the renowned Swedish game developer behind titles like Stellaris and Crusader Kings III, has partnered with ElevenLabs to integrate advanced voice technology into their game development process. This collaboration aims to streamline voice generation, reducing production time and costs.
Incorporating ElevenLabs' generative AI technology offers Paradox several benefits, including efficient iteration during pre-production, cost savings on extensive dialogues, flexible localization for global markets, enhanced accessibility for visually impaired players, and the ability to explore new narratives and expansions with ease.
Ernesto Lopez, Audio Director for Stellaris and Crusader Kings III, expressed enthusiasm about the partnership:
"We’re incredibly pleased with the results from the ElevenLabs platform. The samples created by their contextually aware engine have exceeded our expectations, inspiring us to push the limits of our projects and imagine more intricate and richer voice-over designs for our games."
— Ernesto Lopez, Audio Director, Paradox Interactive
En av de största hindren för utvecklare är kostnaden för storskalig implementering av conversational voice AI. Spelutveckling är redan ett betydande ekonomiskt åtagande, som sträcker sig över år och kräver betydande investeringar. Ta Grand Theft Auto VI, till exempel - trots släppet av dess första trailer i december 2023, är dess lanseringsdatum fortfarande okänt, vilket markerar över ett decennium sedan släppet av GTA V. Produktionen av sådana blockbuster-titlar innebär enorma kostnader, vilket understryker de ekonomiska påfrestningar studios står inför innan de ens tar ett spel till marknaden.
Spel säljs vanligtvis för $60–$70, med valfria expansionspaket eller in-game-köp som ofta förlänger deras livscykel. För titlar som GTA V, omfamnas dessa tillägg av spelare och ger studios ytterligare intäktsströmmar utan att väsentligt förändra den initiala kostnaden för basspelet. Men att implementera conversational AI skulle inte bara introducera högre produktionskostnader utan också löpande kostnader kopplade till att köra LLMs när spelare engagerar sig i spelet. Dessa ökade kostnader kan tvinga studios att antingen absorbera kostnaden eller överföra den till konsumenterna genom högre prisnivåer.
Ändå presenterar denna utmaning en möjlighet. Studios kan utforska nya prissättningsmodeller, såsom prenumerationer eller nivåindelade AI-funktioner, för att balansera utvecklingskostnader och spelaråtkomst. Med rätt tillvägagångssätt kan utvecklare förvandla AI-drivna funktioner till en hållbar intäktsström.
Som med många AI-innovationer beror den slutliga framgången för conversational AI i gaming på en kritisk faktor: spelaracceptans. Även om denna teknik erbjuder enorm potential, kommer den sannolikt att möta motstånd från vissa spelare — särskilt spelpurister som ser AI:s närvaro som en oönskad förändring som kan undergräva spelets autenticitet.
Denna skepsis är inte ogrundad, eftersom tidigare försök att implementera AI i spel ibland har misslyckats. Till exempel, Keywords Studios’ Project Ava, som syftade till att skapa ett 2D-spel helt med AI, misslyckades eftersom tekniken inte kunde ersätta mänsklig talang och krävde ingripande från sju separata spelutvecklingsstudior för att rätta till. På samma sätt stötte Microsofts Copilot+ PCs, designade för AI-drivet spelande, på betydande kompatibilitetsproblem - endast hälften av de 1 300 testade PC-spelen fungerade utan fel, med populära titlar som Fortnite, League of Legends, och Halo Infinite som upplevde krascher och startproblem. Dessa misstag understryker riskerna med dåligt integrerade AI-system, som kan alienera spelare och störa spelupplevelsen.
När det implementeras väl kan conversational AI skapa rikare spelberättelser, förbättra både enspelar- och gemenskapsdrivna upplevelser. För att detta ska lyckas i stor skala måste AI gå bortom att vara en gimmick eller eftertanke - det måste verkligen förbättra spelets berättande, interaktivitet och uppslukning. Spelare kommer att acceptera det när de ser att conversational AI tillför meningsfullt värde, skapar rikare, mer engagerande upplevelser utan att kompromissa med den autenticitet de förväntar sig.
Även om utmaningar som latens, narrativ konsistens och kostnad är verkliga, är de långt ifrån oöverstigliga. Med pågående innovation inom svarstider och grenande berättelsemöjligheter är conversational voice AI redo att leverera sömlösa, uppslukande upplevelser som omdefinierar gaming.
Bortom spelandet representerar denna teknik en betydande möjlighet för studios att förbättra spelarretention och driva ROI genom rikare berättelser, dynamiska interaktioner och starkare gemenskapsengagemang. Till skillnad från generativ AI, lägger conversational voice AI sig naturligt på befintliga spelvärldar, berikar upplevelsen utan att störa etablerade berättelser eller mekaniker.
På ElevenLabs är vi stolta över att hjälpa utvecklare att ge liv åt levande karaktärer och meningsfulla interaktioner. Potentialen för conversational voice AI att transformera inte bara gaming utan all media är enorm — och vi är glada att forma denna utveckling.
Conversational voice AI är inte längre bara en framväxande teknik — den är här, och tiden att anta den är nu. Genom att låsa upp nya möjligheter för uppslukande, personliga och interaktiva upplevelser omdefinierar den hur spelare engagerar sig med spel och gemenskaper.
Även om utmaningar finns, överbryggar innovativa lösningar klyftan, vilket gör conversational voice AI både genomförbar och ROI-positiv. På ElevenLabs ser vi denna teknik som en transformativ kraft och är stolta över att vara i framkant, hjälpa utvecklare att skapa rikare, mer dynamiska upplevelser. Framtiden för gaming är konversativ, och vi har bara börjat.
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning