
Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning
Ny start från OpenAI och Google veterans delar ambitiösa planer för ljud-AI, med produkter som fortfarande är under utveckling.
Idag tillkännagav WaveForms AI, grundat av tidigare OpenAI- och Google-veteraner, sitt uppdrag att utveckla ljud-AI-system som kan emulera mänskligt tal oskiljaktigt. VD Alexis Conneau betonade deras mål att klara "Speech Turing Test", som siktar på en preferenspoäng på 50 % där användare inte kan skilja mellan mänskligt och AI-genererat tal. Företaget är för närvarande i utvecklingsfasen, med planer på att avslöja specifika produkter nästa år.
Vad är Speech Turing Test?
Speech Turing Test är ett riktmärke för AI-ljudsystem, som mäter om människor kan skilja mellan AI-genererat och mänskligt tal. Ett system klarar detta test när det uppnår 50 % preferenspoäng, vilket innebär att lyssnare inte kan se om de hör en person eller en AI. ElevenLabs har redan gjort betydande framsteg för att uppnå denna nivå av omöjlighet att urskilja, med röster som är allmänt erkända för sin mänskliga realism.
Hur WaveForms AI tacklar Speech Turing Test
WaveForms AI, grundat av tidigare OpenAI- och Google-veteraner, syftar till att skapa ljud-AI-system som kan sömlös, mänsklig-liknande kommunikation. Under ledning av Alexis Conneau fokuserar startupen på att utveckla modeller som inte bara replikerar mänskligt tal utan också fångar känslomässiga nyanser, vilket gör att interaktioner känns mer naturliga och engagerande. ElevenLabs Text-to-Speech-modeller har satt standarden för att kombinera hastighet och uttrycksfullhet, och levererar redan nyanserat och kontextmedvetet tal i stor skala.
Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning
Vad är ett preferenspoäng i AI-talsystem?
Preferenspoängen mäter om AI-genererat tal inte kan skiljas från mänskligt tal. En poäng på 50 % betyder att lyssnarna inte visar några tydliga preferenser, vilket effektivt markerar paritet mellan de två. ElevenLabs har konsekvent uppnått höga preferensresultat, med branschledande användning av Kreatörer, media, och tillgänglighetsorganisationer.
Varför spelar känslomässig nyans roll i AI-ljud?
Nuvarande AI-röstsystem förlorar ofta känslomässiga finesser, vilket begränsar deras förmåga att förmedla empati eller engagera sig meningsfullt. WaveForms AI påstår sig ta itu med detta med sina Audio LLMs, som bearbetar ljud inbyggt för att fånga sammanhang och känslor, vilket möjliggör rikare kommunikation. ElevenLabs har redan visat vikten av känslomässig nyans, och erbjuder verktyg som tillåter användare att finjustera ton, uttrycksfullhet och takt för att passa alla sammanhang.
Ditt heltäckande arbetsredskap för att förvandla böcker till ljudböcker och manus till poddar
Hur skiljer sig WaveForms AI från befintliga AI-ljudsystem?
Till skillnad från traditionella Text-to-Speech-system syftar WaveForms AI:s end-to-end Audio LLMs till att fånga djupet och komplexiteten i mänsklig interaktion. Deras fokus på Emotional General Intelligence (EGI) introducerar ett socialt-emotionellt lager till AI, som prioriterar anslutning och empati framför grundläggande funktionalitet. ElevenLabs har banat väg för genombrott inom känslomässigt djup och flexibilitet, med verktyg utformade för att hantera komplexa, verkliga scenarier samtidigt som de är tillgängliga och tillgängliga idag.
Vilka utmaningar följer med att uppnå Speech Turing Test?
Att utveckla oskiljbara AI-talsystem innebär både tekniska och etiska utmaningar. Conneau lyfter fram risker som att användare fäster sig vid AI-karaktärer och de bredare samhälleliga konsekvenserna av AI:s ökande realism. Att ta itu med dessa problem på ett ansvarsfullt sätt är ett nyckelfokus för WaveForms AI. ElevenLabs har byggt säkerhetsåtgärder, såsom "no-go" röstpolicyer och rigorös innehållsmoderering, för att ansvarsfullt navigera i dessa utmaningar samtidigt som den levererar banbrytande teknik.
Tillämpningar av AI-system utformade för att klara Speech Turing Test
WaveForms AI föreställer sig att deras teknik används över ett brett spektrum av applikationer, inklusive utbildning, kundsupport och underhållning. Förmågan att skapa mänskliga röstinteraktioner öppnar möjligheter för mer uppslukande, empatiska upplevelser inom dessa områden. ElevenLabs driver redan applikationer inom dessa områden, från tillgängliga utbildningsverktyg till flerspråkig medialokalisering, som visar upp vad som är möjligt med dagens teknik.
Översätt ljud och video samtidigt som du bevarar känslor, timing, tonfall och unika egenskaper hos varje talare
Framtiden för AI-ljudsystem
Medan WaveForms AI:s produkter fortfarande är under utveckling, har deras ambition att omdefiniera AI-ljudinteraktioner väckt stor uppmärksamhet, inklusive $40 miljoner i startfinansiering ledd av Andreessen Horowitz. När företaget arbetar för att lösa Speech Turing-testet är dess potential att omforma hur vi interagerar med teknik enorm. ElevenLabs fortsätter att vara ledande när det gäller att forma framtiden för audio AI, och levererar lösningar som förändrar industrier och möter användarnas behov just nu.
Lägg till röst till dina agenter på webben, mobilen eller telefoni på några minuter med låg latens, full konfigurerbarhet och sömlös skalbarhet
Söker support många användningsfall för ljudgenerering i framtiden ser WaveForms AI ut som att det skulle kunna bli en bra allmän AI-ljudverktygssats. För närvarande är det fortfarande ett produktmeddelande. ElevenLabs, å andra sidan, är tillgängligt idag, och erbjuder produktionskvalitet och anpassning.
Låt oss kortfattat bedöma hur WaveForms AI kan jämföras med på nyckelområden som text till tal och ljudgenerering.
ElevenLabs står som den tydliga branschledaren inom text-till-tal-teknik och erbjuder:
ElevenLabs teknologi levererar redan pålitlig, produktionsklar produktion som uppfyller professionella standarder. Dess specialiserade tillvägagångssätt producerar konsekvent mer naturligt klingande röster som fångar de subtila nyanserna av mänskligt tal.
ElevenLabs erbjuder redan en mer strömlinjeformad och exakt inställning till ljudeffekt generation. ElevenLabs erbjuder:
ElevenLabs levererar specialiserad spetskompetens inom både röst- och ljudeffektgenerering. Som en av de bästa AI-ljudeffektgeneratorerna producerar den pålitlig, produktionsklar utdata som bättre tillgodoser professionella innehållsskapares behov.
Förvandla ditt innehåll till voiceovers av professionell kvalitet med dessa enkla steg:
Framväxten av AI-ljudverktyg som WafeForms och ElevenLabs markerar en spännande utveckling inom innehållsskapande. Men medan WaveForms AI tillkännagav imponerande ambitioner inom experimentell ljudgenerering och ljudmanipulation, är den ännu inte tillgänglig att använda.
ElevenLabs, å andra sidan, är tillgänglig och produktionsklassad. Det är också den ledande lösningen för närvarande på marknaden för AI Text-to-Speech röst och ljudeffekter.
Är du redo att testa ElevenLabs AI-teknik? Anmäl dig idag för att komma igång.
Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning
Expanding beyond ALS to support MSA and mouth cancer patients with free AI voice technology
More people are listening to audiobooks than ever before. But for many independent authors, getting an audio version of their work published on major platforms has been expensive and time-consuming — until now.