
Nu lanserar vi Eleven Turbo v2.5
Hög kvalitet, låg latens text to speech på 32 språk
Vi jämför två nya produktlanseringar för att hjälpa dig hitta det bästa alternativet för ditt behov
Uppdaterad 18 oktober 2024
Det har lanserats två stora produkter inom Conversational AI den senaste månaden – vår plattform för Conversational AI och OpenAIs RealtimeAPI. Vi har satt ihop det här inlägget för att hjälpa dig se skillnaderna och hitta det som passar dig bäst.
Båda dessa produkter är gjorda för att hjälpa dig skapa röstassistenter i realtid,konverserande röstagenter. ElevenLabs Conversational AI gör det möjligt via en plattform som skapar en transkribering från tal med hjälp av Speech to Text, skickar transkriberingen till valfri LLM tillsammans med en egen kunskapsbas, och läser sedan upp LLM:ens svar med Text to Speech. Det är en helhetslösning som även innehåller övervakning och analys av tidigare samtal, och snart kommer även testverktyg och telefoniintegrationer.
| Feature | ElevenLabs Conv AI | OpenAI Realtime |
|---|---|---|
| Total Number of Voices | 3k+ | 6 |
| LLMs Supported | Bring your own server or choose from any leading provider | OpenAI models only |
| Call tracking and analytics | Yes, built-in dashboard | No, must build using API |
| Latency | 1-3 seconds depending on network latency and size of knowledge base | Likely faster due to no transcription step |
| Price | 8.8 cents per minute on business, with discounts for high volume (+LLM cost) | ~15 cents per minute (6 cents per minute input, 24 cents per minute output) |
| Voice Cloning | Yes, bring your own voice with a PVC | No voice cloning |
| API Access | Yes, all plans | Yes, all plans |
När vår Conversational AI omvandlar tal till text försvinner viss information, som känsla, ton och uttal. Eftersom OpenAIs Realtime API går direkt från tal till tal försvinner inget sammanhang. Det gör den bättre för vissa användningsområden, till exempel att rätta uttal vid språkinlärning eller att identifiera och bemöta känslor i terapi.
När du använder Realtime API använder du hela OpenAIs infrastruktur för samtalet. Det går inte att integrera en annan LLM eller använda en egen, eftersom Realtime API bara tar emot ljud och returnerar ljud.
Med vår Conversational AI-plattform kan du byta ut vilken LLM som driver din modell när som helst (även OpenAIs modeller). Eftersom Anthropic, OpenAI, Google, NVIDIA och andra hela tiden tävlar om att ha den bästa LLM:en kan du alltid uppdatera och använda den senaste tekniken.
Och för företag som har byggt en egen, specialtränad LLM – för prestanda eller integritet – går det att integrera den med ElevenLabs Conversational AI, men inte med OpenAIs Realtime API.
När du utvärderar en modell för fördröjning finns det två viktiga saker att tänka på
(1) Är den genomsnittliga fördröjningen tillräckligt låg för att ge en smidig användarupplevelse?
(2) Hur mycket varierar fördröjningen och hur ser användarupplevelsen ut för P90 och P99-fördröjning?
En fördel med OpenAI Realtime API är att den hoppar över steget att omvandla tal till text, vilket troligen ger lägre total fördröjning.
En nackdel är dock flexibiliteten vi nämnde tidigare. I våra tester de senaste veckorna var 40-mini först den LLM med lägst fördröjning för vår Conversational AI. Den här veckan mer än fördubblades fördröjningen, vilket gjorde att våra användare bytte till Gemini Flash 1.5. Med Realtime API går det inte att byta till en snabbare LLM.
Tänk också på att den totala fördröjningen för din Conversational AI-app inte bara beror på leverantören, utan även på storleken på dinagents kunskapsbas och dina nätverksförhållanden.
OpenAIs Realtime API har just nu 6 röstalternativ. Vårt röstbibliotek har över 3 000 röster. Du kan även använda Professional Voice Cloning för att skapa en egen röst på vår plattform. Det innebär att Realtime API inte låter dig välja en röst som är unik för ditt varumärke eller innehåll.
I Realtime API kostar ljudinmatning $100 per 1M tokens och utmatning $200 per 1M tokens. Det motsvarar ungefär $0,06 per minut ljud in och $0,24 per minut ljud ut.
ElevenLabs Conversational AI ger dig 15 minuter att testa gratis. Business-planen ger 13 750 minuter Conversational AI ($0,08 per minut), med extra minuter för $0,08, samt betydligt lägre priser vid större volymer.
Efter varje samtal skickar Realtime API JSON-händelser med text- och ljuddelar, inklusive transkribering och inspelningar av samtalet samt eventuella funktionsanrop. Det är upp till dig att läsa, bearbeta, rapportera och visa informationen på ett sätt som passar ditt team.
Vår plattform har inbyggda funktioner för att utvärdera samtal, extrahera strukturerad data och visa det tillsammans med transkribering, sammanfattning och inspelning i vår dashboard så att ditt team enkelt kan granska allt.

Hög kvalitet, låg latens text to speech på 32 språk

Reducing time to ticket resolution by 8x with multilingual conversational agents.