Gå till innehåll

Jämförelse mellan ElevenLabs Conversational AI och OpenAI Realtime API

Vi jämför två nya produktlanseringar för att hjälpa dig hitta det bästa alternativet för ditt behov

Uppdaterad 18 oktober 2024

Det har lanserats två stora produkter inom Conversational AI den senaste månaden – vår plattform för Conversational AI och OpenAIs RealtimeAPI. Vi har satt ihop det här inlägget för att hjälpa dig se skillnaderna och hitta det som passar dig bäst.

Översikt

Båda dessa produkter är gjorda för att hjälpa dig skapa röstassistenter i realtid,konverserande röstagenter. ElevenLabs Conversational AI gör det möjligt via en plattform som skapar en transkribering från tal med hjälp av Speech to Text, skickar transkriberingen till valfri LLM tillsammans med en egen kunskapsbas, och läser sedan upp LLM:ens svar med Text to Speech. Det är en helhetslösning som även innehåller övervakning och analys av tidigare samtal, och snart kommer även testverktyg och telefoniintegrationer.

OpenAI's Realtime API is built on a different architecture whereby the model takes audio (speech) as input and provides audio (speech) directly as the output. There is no step by which audio is converted into a written transcript and passed to an LLM, which likely provides latency gains. It’s only available via API and is not an end to end platform. 
FeatureElevenLabs Conv AIOpenAI Realtime
Total Number of Voices3k+6
LLMs SupportedBring your own server or choose from any leading providerOpenAI models only
Call tracking and analyticsYes, built-in dashboardNo, must build using API
Latency1-3 seconds depending on network latency and size of knowledge baseLikely faster due to no transcription step
Price8.8 cents per minute on business, with discounts for high volume (+LLM cost) ~15 cents per minute (6 cents per minute input, 24 cents per minute output)
Voice CloningYes, bring your own voice with a PVCNo voice cloning
API AccessYes, all plansYes, all plans

Så här står de sig mot varandra

Förståelse för känsla och uttal

När vår Conversational AI omvandlar tal till text försvinner viss information, som känsla, ton och uttal. Eftersom OpenAIs Realtime API går direkt från tal till tal försvinner inget sammanhang. Det gör den bättre för vissa användningsområden, till exempel att rätta uttal vid språkinlärning eller att identifiera och bemöta känslor i terapi.

Flexibilitet

När du använder Realtime API använder du hela OpenAIs infrastruktur för samtalet. Det går inte att integrera en annan LLM eller använda en egen, eftersom Realtime API bara tar emot ljud och returnerar ljud.

Med vår Conversational AI-plattform kan du byta ut vilken LLM som driver din modell när som helst (även OpenAIs modeller). Eftersom Anthropic, OpenAI, Google, NVIDIA och andra hela tiden tävlar om att ha den bästa LLM:en kan du alltid uppdatera och använda den senaste tekniken.

Och för företag som har byggt en egen, specialtränad LLM – för prestanda eller integritet – går det att integrera den med ElevenLabs Conversational AI, men inte med OpenAIs Realtime API.

Fördröjning

När du utvärderar en modell för fördröjning finns det två viktiga saker att tänka på

(1) Är den genomsnittliga fördröjningen tillräckligt låg för att ge en smidig användarupplevelse?

(2) Hur mycket varierar fördröjningen och hur ser användarupplevelsen ut för P90 och P99-fördröjning?

En fördel med OpenAI Realtime API är att den hoppar över steget att omvandla tal till text, vilket troligen ger lägre total fördröjning.

En nackdel är dock flexibiliteten vi nämnde tidigare. I våra tester de senaste veckorna var 40-mini först den LLM med lägst fördröjning för vår Conversational AI. Den här veckan mer än fördubblades fördröjningen, vilket gjorde att våra användare bytte till Gemini Flash 1.5. Med Realtime API går det inte att byta till en snabbare LLM.

Tänk också på att den totala fördröjningen för din Conversational AI-app inte bara beror på leverantören, utan även på storleken på dinagents kunskapsbas och dina nätverksförhållanden.

Röstalternativ

OpenAIs Realtime API har just nu 6 röstalternativ. Vårt röstbibliotek har över 3 000 röster. Du kan även använda Professional Voice Cloning för att skapa en egen röst på vår plattform. Det innebär att Realtime API inte låter dig välja en röst som är unik för ditt varumärke eller innehåll.

Pris

I Realtime API kostar ljudinmatning $100 per 1M tokens och utmatning $200 per 1M tokens. Det motsvarar ungefär $0,06 per minut ljud in och $0,24 per minut ljud ut.

ElevenLabs Conversational AI ger dig 15 minuter att testa gratis. Business-planen ger 13 750 minuter Conversational AI ($0,08 per minut), med extra minuter för $0,08, samt betydligt lägre priser vid större volymer.

Fler plattformsfunktioner

Efter varje samtal skickar Realtime API JSON-händelser med text- och ljuddelar, inklusive transkribering och inspelningar av samtalet samt eventuella funktionsanrop. Det är upp till dig att läsa, bearbeta, rapportera och visa informationen på ett sätt som passar ditt team.

Vår plattform har inbyggda funktioner för att utvärdera samtal, extrahera strukturerad data och visa det tillsammans med transkribering, sammanfattning och inspelning i vår dashboard så att ditt team enkelt kan granska allt.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in