WaveForms AI tillkännager uppdrag att klara Speech Turing Test

Ny start från OpenAI och Google veterans delar ambitiösa planer för ljud-AI, med produkter som fortfarande är under utveckling.

Idag tillkännagav WaveForms AI, grundat av tidigare OpenAI- och Google-veteraner, sitt uppdrag att utveckla ljud-AI-system som kan emulera mänskligt tal oskiljaktigt. VD Alexis Conneau betonade deras mål att klara "Speech Turing Test", som siktar på en preferenspoäng på 50 % där användare inte kan skilja mellan mänskligt och AI-genererat tal. Företaget är för närvarande i utvecklingsfasen, med planer på att avslöja specifika produkter nästa år.

Vad är Speech Turing Test?

Speech Turing Test är ett riktmärke för AI-ljudsystem, som mäter om människor kan skilja mellan AI-genererat och mänskligt tal. Ett system klarar detta test när det uppnår 50 % preferenspoäng, vilket innebär att lyssnare inte kan se om de hör en person eller en AI. ElevenLabs har redan gjort betydande framsteg för att uppnå denna nivå av omöjlighet att urskilja, med röster som är allmänt erkända för sin mänskliga realism.

Hur WaveForms AI tacklar Speech Turing Test

WaveForms AI, grundat av tidigare OpenAI- och Google-veteraner, syftar till att skapa ljud-AI-system som kan sömlös, mänsklig-liknande kommunikation. Under ledning av Alexis Conneau fokuserar startupen på att utveckla modeller som inte bara replikerar mänskligt tal utan också fångar känslomässiga nyanser, vilket gör att interaktioner känns mer naturliga och engagerande. ElevenLabs Text-to-Speech-modeller har satt standarden för att kombinera hastighet och uttrycksfullhet, och levererar redan nyanserat och kontextmedvetet tal i stor skala.

Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning

Vad är ett preferenspoäng i AI-talsystem?

Preferenspoängen mäter om AI-genererat tal inte kan skiljas från mänskligt tal. En poäng på 50 % betyder att lyssnarna inte visar några tydliga preferenser, vilket effektivt markerar paritet mellan de två. ElevenLabs har konsekvent uppnått höga preferensresultat, med branschledande användning av Kreatörer, media, och tillgänglighetsorganisationer.

Varför spelar känslomässig nyans roll i AI-ljud?

Nuvarande AI-röstsystem förlorar ofta känslomässiga finesser, vilket begränsar deras förmåga att förmedla empati eller engagera sig meningsfullt. WaveForms AI påstår sig ta itu med detta med sina Audio LLMs, som bearbetar ljud inbyggt för att fånga sammanhang och känslor, vilket möjliggör rikare kommunikation. ElevenLabs har redan visat vikten av känslomässig nyans, och erbjuder verktyg som tillåter användare att finjustera ton, uttrycksfullhet och takt för att passa alla sammanhang.

Ditt heltäckande arbetsredskap för att förvandla böcker till ljudböcker och manus till poddar

Hur skiljer sig WaveForms AI från befintliga AI-ljudsystem?

Till skillnad från traditionella Text-to-Speech-system syftar WaveForms AI:s end-to-end Audio LLMs till att fånga djupet och komplexiteten i mänsklig interaktion. Deras fokus på Emotional General Intelligence (EGI) introducerar ett socialt-emotionellt lager till AI, som prioriterar anslutning och empati framför grundläggande funktionalitet. ElevenLabs har banat väg för genombrott inom känslomässigt djup och flexibilitet, med verktyg utformade för att hantera komplexa, verkliga scenarier samtidigt som de är tillgängliga och tillgängliga idag.

Vilka utmaningar följer med att uppnå Speech Turing Test?

Att utveckla oskiljbara AI-talsystem innebär både tekniska och etiska utmaningar. Conneau lyfter fram risker som att användare fäster sig vid AI-karaktärer och de bredare samhälleliga konsekvenserna av AI:s ökande realism. Att ta itu med dessa problem på ett ansvarsfullt sätt är ett nyckelfokus för WaveForms AI. ElevenLabs har byggt säkerhetsåtgärder, såsom "no-go" röstpolicyer och rigorös innehållsmoderering, för att ansvarsfullt navigera i dessa utmaningar samtidigt som den levererar banbrytande teknik.

Tillämpningar av AI-system utformade för att klara Speech Turing Test

WaveForms AI föreställer sig att deras teknik används över ett brett spektrum av applikationer, inklusive utbildning, kundsupport och underhållning. Förmågan att skapa mänskliga röstinteraktioner öppnar möjligheter för mer uppslukande, empatiska upplevelser inom dessa områden. ElevenLabs driver redan applikationer inom dessa områden, från tillgängliga utbildningsverktyg till flerspråkig medialokalisering, som visar upp vad som är möjligt med dagens teknik.

Översätt ljud och video samtidigt som du bevarar känslor, timing, tonfall och unika egenskaper hos varje talare

Framtiden för AI-ljudsystem

Medan WaveForms AI:s produkter fortfarande är under utveckling, har deras ambition att omdefiniera AI-ljudinteraktioner väckt stor uppmärksamhet, inklusive $40 miljoner i startfinansiering ledd av Andreessen Horowitz. När företaget arbetar för att lösa Speech Turing-testet är dess potential att omforma hur vi interagerar med teknik enorm. ElevenLabs fortsätter att vara ledande när det gäller att forma framtiden för audio AI, och levererar lösningar som förändrar industrier och möter användarnas behov just nu.

Skapa röstagenter för ditt företag med den mest verklighetstrogna Conversational AI-plattformen

Hur WaveForms AI Audio jämförs med ElevenLabs

Söker support många användningsfall för ljudgenerering i framtiden ser WaveForms AI ut som att det skulle kunna bli en bra allmän AI-ljudverktygssats. För närvarande är det fortfarande ett produktmeddelande. ElevenLabs, å andra sidan, är tillgängligt idag, och erbjuder produktionskvalitet och anpassning.

Låt oss kortfattat bedöma hur WaveForms AI kan jämföras med på nyckelområden som text till tal och ljudgenerering.

text till tal

ElevenLabs står som den tydliga branschledaren inom text-till-tal-teknik och erbjuder:

  • Stöd för 32 språk med autentiska accenter och kulturella nyanser
  • Avancerad emotionell intelligens som svarar på textsammanhang
  • Kontroll över röstegenskaper
  • Högkvalitativt, människoliknande tal som bibehåller konsistens i långformat innehåll
  • Ett omfattande bibliotek med naturligt klingande röster
  • Möjligheten att klona och anpassa röster

ElevenLabs teknologi levererar redan pålitlig, produktionsklar produktion som uppfyller professionella standarder. Dess specialiserade tillvägagångssätt producerar konsekvent mer naturligt klingande röster som fångar de subtila nyanserna av mänskligt tal.

Ljudeffekter

ElevenLabs erbjuder redan en mer strömlinjeformad och exakt inställning till ljudeffekt generation. ElevenLabs erbjuder:

  • Omedelbar generering av fyra olika prover för varje prompt
  • Exakt kontroll genom detaljerade textbeskrivningar
  • Högkvalitativ produktion lämplig för kommersiella projekt
  • Ett omfattande bibliotek med vanliga ljudeffekter
  • Möjligheten att skapa distinkta effekter direkt från textbeskrivningar

ElevenLabs levererar specialiserad spetskompetens inom både röst- och ljudeffektgenerering. Som en av de bästa AI-ljudeffektgeneratorerna producerar den pålitlig, produktionsklar utdata som bättre tillgodoser professionella innehållsskapares behov.

Hur man använder ElevenLabs för text-till-tal

Förvandla ditt innehåll till voiceovers av professionell kvalitet med dessa enkla steg:

  1. Registrera dig: Skapa ett gratis eller betalkonto med ElevenLabs
  2. Välj din röst: Välj från ett mångsidigt bibliotek med naturligt klingande röster
  3. Mata in din text: Klistra in eller skriv in ditt skript i gränssnittet
  4. Anpassa inställningar: Justera hastigheten, tonen och betoningen för att matcha dina behov
  5. Förhandsgranska och generera: Lyssna på ett prov och generera din slutliga ljudutgång
  6. Ladda ner: Ladda ner din högkvalitativa voiceover

Slutliga tankar

Framväxten av AI-ljudverktyg som WafeForms och ElevenLabs markerar en spännande utveckling inom innehållsskapande. Men medan WaveForms AI tillkännagav imponerande ambitioner inom experimentell ljudgenerering och ljudmanipulation, är den ännu inte tillgänglig att använda.

ElevenLabs, å andra sidan, är tillgänglig och produktionsklassad. Det är också den ledande lösningen för närvarande på marknaden för AI Text-to-Speech röst och ljudeffekter.

Är du redo att testa ElevenLabs AI-teknik? Anmäl dig idag för att komma igång.

Vår text-to-speech-teknik levererar människoliknande röster på 32 språk Anpassad för både privat och företagsanvändning

Vanliga frågor

Utforska mer

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in