
Vi presenterar Turbo v2.5
Hög kvalitet, låg latens text till tal på 32 språk
Presenterar Eleven v3 Alpha
Prova v3Jämför två nyligen lanserade produkter för att hjälpa dig hitta den bästa produkten för ditt användningsområde
Uppdaterad den 18 oktober 2024
Det har varit två stora produktlanseringar inom Conversational AI den senaste månaden - vår plattform för orkestrering av Conversational AI och OpenAI:s RealtimeAPI. Vi har sammanställt detta inlägg för att hjälpa dig att skilja mellan de två och avgöra vilken som passar bäst för ditt användningsområde.
Båda dessa produkter är utformade för att hjälpa dig skapa realtids, konverserande röstagenter.ElevenLabs Conversational AI gör det möjligt genom en orkestreringsplattform som skapar ett transkript från tal med hjälp av Speech to Text, skickar det transkriptet till en LLM du väljer tillsammans med en anpassad kunskapsbas, och sedan ger röst åt LLM-svaret medText to Speech. Det är en helhetslösning som inkluderar övervakning och analys av tidigare samtal och kommer snart att erbjuda ett testningsramverk och telefonintegrationer.
Feature | ElevenLabs Conv AI | OpenAI Realtime |
---|---|---|
Total Number of Voices | 3k+ | 6 |
LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
API Access | Yes, all plans | Yes, all plans |
När vår Conversational AI omvandlar tal till text, går viss information förlorad, inklusive känsla, ton och uttal. Eftersom OpenAI:s Realtime API går direkt från tal till tal, går ingen kontext förlorad. Detta gör det mer lämpat för vissa användningsområden som att korrigera någons uttal vid språkinlärning eller identifiera och svara på känslor i terapi.
När du använder Realtime API, använder du OpenAI:s infrastruktur för hela den konverserande upplevelsen. Det är inte möjligt att integrera en annan företags LLM, eller att använda din egen, eftersom Realtime API endast tar ljud som input och returnerar ljud som output.
Med vår Conversational AI-plattform kan du när som helst byta LLM som driver din modell (inklusive att använda OpenAI:s modeller). Eftersom Anthropic, OpenAI, Google, NVIDIA och andra fortsätter att överträffa varandra i jakten på den mest presterande LLM, kan du uppdatera när som helst så att du alltid använder den senaste tekniken.
Och för företag som har byggt sin egen finjusterade LLM internt, antingen av prestanda- eller sekretesskäl, är det möjligt att integrera det med ElevenLabs Conversational AI-plattform men inte med OpenAI:s Realtime API.
När du utvärderar en modell för fördröjning, finns det två viktiga faktorer att överväga
(1) Är den genomsnittliga fördröjningen tillräckligt låg för att skapa en sömlös användarupplevelse?
(2) Hur mycket varierar fördröjningen och hur ser användarupplevelsen ut för P90 och P99 fördröjning?
En potentiell fördel med OpenAI Realtime API är att eftersom det eliminerar det mellanliggande steget att omvandla tal till text, är det troligt att det har en övergripande lägre fördröjning.
En potentiell nackdel är dock den flexibilitet vi diskuterade tidigare. I våra tester de senaste veckorna var 40-mini initialt den LLM med lägst fördröjning att para ihop med vår Conversational AI-plattform. Denna vecka mer än fördubblades dess fördröjning vilket ledde till att våra användare bytte till Gemini Flash 1.5. Med Realtime API är det inte möjligt att byta till en snabbare LLM.
Notera också att den totala fördröjningen för din Conversational AI-applikation inte bara beror på din leverantör, utan också på storleken på din agents kunskapsbas och dina nätverksförhållanden.
OpenAI:s Realtime API har för närvarande 6 röstalternativ. Vårt röstbibliotek har över 3.000 röster. Du kan också använda Professional Voice Cloning för att använda din egen anpassade röst på vår plattform. Detta innebär att Realtime API inte tillåter dig att välja en röst unik för ditt varumärke eller innehåll.
I Realtime API, prissätts ljudinput till $100 per 1M tokens och output till $200 per 1M tokens. Detta motsvarar ungefär $0.06 per minut av ljudinput och $0.24 per minut av ljudoutput.
ElevenLabs Conversational AI erbjuder 15 minuter för att komma igång på gratisplanen. Affärsplanen erbjuder 13,750 minuter av Conversational AI ($0.08 per minut), med extra minuter fakturerade till $0.08, samt betydligt rabatterade priser vid större volymer.
I slutet av varje samtal skickar Realtime API JSON-formaterade händelser som innehåller text- och ljuddelar inklusive transkriptet och inspelningar av samtalet och eventuella funktionella samtal som gjorts. Det är upp till dig att läsa, bearbeta, rapportera och visa den informationen på ett sätt som är användbart för ditt team.
Vår plattform har inbyggd funktionalitet för att utvärdera framgången av ett samtal, extrahera strukturerad data och visa det tillsammans med transkriptet, sammanfattningen och inspelningen i vår instrumentpanel för ditt team att granska.
Hög kvalitet, låg latens text till tal på 32 språk
Vår snabbaste modell har nu förbättrat sifferuttal