Presenterar Eleven v3 Alpha

Prova v3

Jämförelse mellan ElevenLabs Conversational AI och OpenAI Realtime API

Jämför två nyligen lanserade produkter för att hjälpa dig hitta den bästa produkten för ditt användningsområde

Uppdaterad den 18 oktober 2024

Det har varit två stora produktlanseringar inom Conversational AI den senaste månaden - vår plattform för orkestrering av Conversational AI och OpenAI:s RealtimeAPI. Vi har sammanställt detta inlägg för att hjälpa dig att skilja mellan de två och avgöra vilken som passar bäst för ditt användningsområde.

Översikt

Båda dessa produkter är utformade för att hjälpa dig skapa realtids, konverserande röstagenter.ElevenLabs Conversational AI gör det möjligt genom en orkestreringsplattform som skapar ett transkript från tal med hjälp av Speech to Text, skickar det transkriptet till en LLM du väljer tillsammans med en anpassad kunskapsbas, och sedan ger röst åt LLM-svaret medText to Speech. Det är en helhetslösning som inkluderar övervakning och analys av tidigare samtal och kommer snart att erbjuda ett testningsramverk och telefonintegrationer.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Hur de jämförs

Förståelse för känsla och uttal

När vår Conversational AI omvandlar tal till text, går viss information förlorad, inklusive känsla, ton och uttal. Eftersom OpenAI:s Realtime API går direkt från tal till tal, går ingen kontext förlorad. Detta gör det mer lämpat för vissa användningsområden som att korrigera någons uttal vid språkinlärning eller identifiera och svara på känslor i terapi.

Flexibilitet

När du använder Realtime API, använder du OpenAI:s infrastruktur för hela den konverserande upplevelsen. Det är inte möjligt att integrera en annan företags LLM, eller att använda din egen, eftersom Realtime API endast tar ljud som input och returnerar ljud som output.

Med vår Conversational AI-plattform kan du när som helst byta LLM som driver din modell (inklusive att använda OpenAI:s modeller). Eftersom Anthropic, OpenAI, Google, NVIDIA och andra fortsätter att överträffa varandra i jakten på den mest presterande LLM, kan du uppdatera när som helst så att du alltid använder den senaste tekniken.

Och för företag som har byggt sin egen finjusterade LLM internt, antingen av prestanda- eller sekretesskäl, är det möjligt att integrera det med ElevenLabs Conversational AI-plattform men inte med OpenAI:s Realtime API.

Fördröjning

När du utvärderar en modell för fördröjning, finns det två viktiga faktorer att överväga

(1) Är den genomsnittliga fördröjningen tillräckligt låg för att skapa en sömlös användarupplevelse?

(2) Hur mycket varierar fördröjningen och hur ser användarupplevelsen ut för P90 och P99 fördröjning?

En potentiell fördel med OpenAI Realtime API är att eftersom det eliminerar det mellanliggande steget att omvandla tal till text, är det troligt att det har en övergripande lägre fördröjning.

En potentiell nackdel är dock den flexibilitet vi diskuterade tidigare. I våra tester de senaste veckorna var 40-mini initialt den LLM med lägst fördröjning att para ihop med vår Conversational AI-plattform. Denna vecka mer än fördubblades dess fördröjning vilket ledde till att våra användare bytte till Gemini Flash 1.5. Med Realtime API är det inte möjligt att byta till en snabbare LLM.

Notera också att den totala fördröjningen för din Conversational AI-applikation inte bara beror på din leverantör, utan också på storleken på din agents kunskapsbas och dina nätverksförhållanden.

Röstalternativ

OpenAI:s Realtime API har för närvarande 6 röstalternativ. Vårt röstbibliotek har över 3.000 röster. Du kan också använda Professional Voice Cloning för att använda din egen anpassade röst på vår plattform. Detta innebär att Realtime API inte tillåter dig att välja en röst unik för ditt varumärke eller innehåll.

Pris

I Realtime API, prissätts ljudinput till $100 per 1M tokens och output till $200 per 1M tokens. Detta motsvarar ungefär $0.06 per minut av ljudinput och $0.24 per minut av ljudoutput.

ElevenLabs Conversational AI erbjuder 15 minuter för att komma igång på gratisplanen. Affärsplanen erbjuder 13,750 minuter av Conversational AI ($0.08 per minut), med extra minuter fakturerade till $0.08, samt betydligt rabatterade priser vid större volymer.

Ytterligare plattformsfunktioner

I slutet av varje samtal skickar Realtime API JSON-formaterade händelser som innehåller text- och ljuddelar inklusive transkriptet och inspelningar av samtalet och eventuella funktionella samtal som gjorts. Det är upp till dig att läsa, bearbeta, rapportera och visa den informationen på ett sätt som är användbart för ditt team.

Vår plattform har inbyggd funktionalitet för att utvärdera framgången av ett samtal, extrahera strukturerad data och visa det tillsammans med transkriptet, sammanfattningen och inspelningen i vår instrumentpanel för ditt team att granska.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in