Gå till innehåll

Interaktionsmodeller för naturlig mänsklig AI-kommunikation

Så bygger vi AI-system som kommunicerar i realtid – om de tekniska valen bakom turtagning, latens och uttrycksfull leverans, samt modellerna vi har lanserat.

Introduction models blog cover

Vi har arbetat mot den här kategorin i flera år. Här berättar vi vad vi har lanserat och vilka forsknings- och produktval som ligger bakom.

Vår flaggskeppsprodukt – ElevenAgents med v3 Conversational

Vår flaggskeppsprodukt – ElevenAgents med v3 Conversational

Expressive Mode – Mark – Personligt lån Inkommande (Panik) – lanseringsmaterial.mp4

Tre saker måste fungera tillsammans för att ett interaktionssystem ska ge naturliga och engagerande samtal:

Tre saker måste fungera tillsammans för att ett interaktionssystem ska skapa engagerande och naturliga samtal:

*Avser endast modellens inferenstid. Den faktiska fördröjningen från start till slut kan variera beroende på till exempel din plats och vilken endpoint du använder.

  • Svar på under en sekund. ElevenAgents är optimerade för svarstider under 100 ms i våra interna tester, och under 200 ms för telefoniintegrationer. Flash v2.5, vår snabbaste Text to Speech-modell, har cirka 75 ms inferenstid.*
  • Turtagning som klarar avbrott. För att undvika att någon avbryter för tidigt behövs ett turtagningssystem som tar hänsyn till både tystnader och vad som faktiskt sägs.
  • Uttrycksfull och naturlig leverans. Modellen måste svara med rätt ton, tempo och känsla för situationen.

Några av våra lanseringar

Några av de funktioner vi har lanserat

Spekulativ turtagning. En separat funktion i v3 Conversational som förbereder LLM-svar under användarens tystnad för att minska upplevd fördröjning.

Flash v2.5. Vår snabbaste Text to Speech-modell, framtagen för realtidsanvändning med låg fördröjning, cirka 75 ms inferenstid.*

Scribe v2. Vår Speech to Text-modell med marknadsledande noggrannhet.

ElevenAgents Expressive Mode. Gör det möjligt för agenter att använda uttryckstaggar som [skrattar], [viskar], [suckar] och [långsamt] för att styra leveransen i rätt sammanhang.

ElevenAgents Expressive Mode. Låter agenter använda uttryckstaggar som [skrattar], [viskar], [suckar] och [långsamt] för att styra leveransen i sitt sammanhang.

ElevenAgents Expressive Mode. Låter agenter använda uttryckstaggar som [skrattar], [viskar], [suckar] och [långsamt] för att styra leveransen i samtalet.

Vart vi är på väg

Många AI-samtal känns fortfarande som frågor och svar. Riktiga samtal gör inte det. Att minska det avståndet är vårt mål.

Många AI-samtal känns fortfarande som frågor och svar. Riktiga samtal gör inte det. Att minska det glappet är vårt jobb.

Utforska artiklar av ElevenLabs-teamet

Skapa med AI-ljud av högsta kvalitet