WaveForms AI tillkännager uppdrag att klara talets Turing-test
Ny startup från OpenAI- och Google-veteraner delar ambitiösa planer för ljud-AI, med produkter fortfarande under utveckling
Idag tillkännagav WaveForms AI, grundat av tidigare OpenAI- och Google-veteraner, sitt uppdrag att utveckla ljud-AI-system som kan efterlikna mänskligt tal omärkligt. VD Alexis Conneau betonade deras mål att klara ”talets Turing-test”, med en målsättning på 50 % preferenspoäng där användare inte kan skilja mellan mänskligt och AI-genererat tal. Företaget är för närvarande i utvecklingsfasen, med planer på att avslöja specifika produkter nästa år.
Notera: WaveForms AI delade planer för ljud-AI, med produkter fortfarande under utveckling. Under tiden är ElevenLabs' ljud-AI tillgänglig idag och levererar produktionskvalitet.
Vad är talets Turing-test?
Talets Turing-test är ett riktmärke för AI-ljudsystem, som mäter om människor kan skilja mellan AI-genererat och mänskligt tal. Ett system klarar detta test när det uppnår en 50 % preferenspoäng, vilket betyder att lyssnare inte kan avgöra om de hör en person eller en AI.ElevenLabs har redan gjort betydande framsteg i att uppnå denna nivå av omärklighet, med röster som är allmänt erkända för sin människoliknande realism.
Hur WaveForms AI tacklar talets Turing-test
WaveForms AI, grundat av tidigare OpenAI- och Google-veteraner, siktar på att skapa ljud-AI-system som möjliggör sömlös, människoliknande kommunikation. Under ledning av Alexis Conneau fokuserar startupen på att utveckla modeller som inte bara replikerar mänskligt tal utan också fångar emotionella nyanser, vilket gör interaktioner mer naturliga och engagerande.ElevenLabs’
Skapa mänskliga röster med vårt Text to Speech (TTS)-system, byggt för högkvalitativ berättarröst, spel, video och tillgänglighet. Uttrycksfulla röster, flerspråkigt stöd och API-integration gör det enkelt att skala från personliga projekt till företagsarbetsflöden.
Vad är en preferenspoäng i AI-talsystem?
Preferenspoängen mäter omärkligheten av AI-genererat tal från mänskligt tal. En 50 % poäng innebär att lyssnare inte visar någon tydlig preferens, vilket effektivt markerar paritet mellan de två.ElevenLabs har konsekvent uppnått höga preferenspoäng, med branschledande adoption av skapare, media, och tillgänglighetsorganisationer.
Varför är emotionella nyanser viktiga i AI-ljud?
Nuvarande AI-röstsystem tappar ofta emotionella subtiliteter, vilket begränsar deras förmåga att förmedla empati eller engagera sig meningsfullt. WaveForms AI hävdar att de adresserar detta med sina Audio LLMs, som bearbetar ljud naturligt för att fånga kontext och känsla, vilket möjliggör rikare kommunikation.ElevenLabs har redan visat vikten av emotionella nyanser och erbjuder verktyg som låter användare finjustera ton, uttrycksfullhet och tempo för att passa alla sammanhang.
Din kompletta arbetsflöde för att redigera video och ljud, lägga till voice-overs och musik, transkribera till text och publicera berättade, textade produktioner
Hur skiljer sig WaveForms AI från befintliga AI-ljudsystem?
Till skillnad från traditionella ElevenLabs har banat väg för genombrott inom känslomässigt djup och flexibilitetElevenLabs har banat väg för genombrott inom
Vilka utmaningar finns med att uppnå talets Turing-test?
Att utveckla omärkliga AI-talsystem innebär både tekniska och etiska utmaningar. Conneau lyfter fram risker som att användare formar band till AI-karaktärer och de bredare samhälleliga konsekvenserna av AI:s ökande realism. Att hantera dessa frågor ansvarsfullt är ett nyckelfokus för WaveForms AI.ElevenLabs har byggt in skyddsåtgärder, såsom ”no-go” röstpolicyer och rigorös innehållsmoderering, för att ansvarsfullt navigera dessa utmaningar samtidigt som de levererar banbrytande teknik.
Användningsområden för AI-system designade för att klara talets Turing-test
WaveForms AI föreställer sig att deras teknik används över ett brett spektrum av applikationer, inklusive utbildning, kundsupport och underhållning. Förmågan att skapa människoliknande röstinteraktioner öppnar möjligheter för mer uppslukande, empatiska upplevelser inom dessa områden.ElevenLabs driver redan applikationer inom dessa områden, från tillgängliga utbildningsverktyg till flerspråkig medielokalisering, och visar vad som är möjligt med dagens teknik.
Översätt ljud och video samtidigt som du bevarar känslan, tajmingen, tonen och de unika egenskaperna hos varje talare
Framtiden för AI-ljudsystem
Medan WaveForms AI:s produkter fortfarande är under utveckling, har deras ambition att omdefiniera AI-ljudinteraktioner fått betydande uppmärksamhet, inklusive 40 miljoner dollar i startfinansiering ledd av Andreessen Horowitz. När företaget arbetar mot att lösa talets Turing-test är dess potential att omforma hur vi interagerar med teknik enorm.ElevenLabs fortsätter att leda utvecklingen av framtidens ljud-AI, och levererar lösningar som omvandlar industrier och möter användarnas behov just nu.
Lägg till röst till dina agenter på webben, mobilen eller telefoni på några minuter med låg latens, full konfigurerbarhet och sömlös skalbarhet
Hur WaveForms AI Audio jämförs med ElevenLabs
Med sikte på att stödja många användningsfall för ljudgenerering i framtiden, ser WaveForms AI ut att kunna bli en bra allmän ljud-AI-verktygslåda. För tillfället är det fortfarande en produktlansering. ElevenLabs, å andra sidan, är tillgänglig idag och erbjuder produktionskvalitet och anpassning.
Låt oss kort bedöma hur WaveForms AI står sig i nyckelområden som Text-to-Speech och ljudgenerering.
Text-to-Speech
ElevenLabs står som den klara branschledaren inom
Stöd för 70+ språk med autentiska accenter och kulturella nyanser
Avancerad emotionell intelligens som svarar på textuell kontext
Kontroll över röstegenskaper
Högkvalitativt, människoliknande tal som bibehåller konsistens över långformigt innehåll
Ett omfattande bibliotek av naturligt klingande röster
ElevenLabs erbjuder redan en mer strömlinjeformad och exakt metod för ljudeffekt generering. ElevenLabs erbjuder:
Omedelbar generering av fyra olika prover för varje prompt
Exakt kontroll genom detaljerade textbeskrivningar
Högkvalitativ output lämplig för kommersiella projekt
Ett omfattande bibliotek av vanliga ljudeffekter
Möjligheten att skapa distinkta effekter direkt från textbeskrivningar
ElevenLabs levererar specialiserad excellens inom både röst- och ljudeffektgenerering. Som en av de bästa AI-ljudeffektgeneratorerna producerar den pålitlig, produktionsklar output som bättre tjänar professionella innehållsskapare.
Hur man använder ElevenLabs för Text-to-Speech
Förvandla ditt innehåll till professionella voice-overs med dessa enkla steg:
Välj din röst: Välj från ett mångsidigt bibliotek av naturligt klingande röster
Skriv in din text: Klistra in eller skriv ditt manus i gränssnittet
Anpassa inställningar: Justera hastighet, ton och betoning för att matcha dina behov
Förhandsgranska och generera: Lyssna på ett prov och generera din slutliga ljudoutput
Ladda ner: Ladda ner din högkvalitativa voice-over
Slutliga tankar
Framväxten av AI-ljudverktyg som WaveForms och ElevenLabs markerar en spännande utveckling inom innehållsskapande. Men medan WaveForms AI tillkännagav imponerande ambitioner inom experimentell ljudgenerering och ljudmanipulation, är det ännu inte tillgängligt att använda.
ElevenLabs, å andra sidan, är tillgänglig och produktionsklar. Det är också den ledande lösningen på marknaden just nu för
Redo att testa ElevenLabs' AI-teknik? Registrera dig idag för att komma igång.
Skapa mänskliga röster med vårt Text to Speech (TTS)-system, byggt för högkvalitativ berättarröst, spel, video och tillgänglighet. Uttrycksfulla röster, flerspråkigt stöd och API-integration gör det enkelt att skala från personliga projekt till företagsarbetsflöden.
Vanliga frågor
Inte än. WaveForms AI är fortfarande i utvecklingsfasen och fokuserar på att skapa avancerade ljudmodeller som kan interagera i realtid och med emotionell resonans.
Talets Turing-test mäter om användare kan skilja mellan mänskligt tal och AI-genererat tal. WaveForms AI siktar på att klara detta test genom att skapa ett system som matchar mänsklig intonation, känsla och nyans.
Företagets uppdrag är att lösa talets Turing-test och utveckla Emotional General Intelligence (EGI), vilket möjliggör för AI att förstå och svara på mänskliga känslor på naturliga och meningsfulla sätt.
Till skillnad från traditionella Text-to-Speech-system bygger WaveForms AI end-to-end ljudmodeller som bearbetar ljud naturligt. Detta tillvägagångssätt syftar till att fånga den fulla emotionella och kontextuella djupet i mänskliga samtal. ElevenLabs' kontextuella ljud-AI har varit live sedan januari 2023.
WaveForms AI grundades av Alexis Conneau, en tidigare OpenAI-ingenjör, och Coralie Lemaitre, som tidigare arbetade med produktstrategi på Google. Tillsammans bidrar de med expertis inom AI och produktutveckling till företaget.