Gå till innehåll

Stream bygger multimodala AI-agenter med ElevenLabs

Genom att integrera ElevenLabs Text to Speech minskade utvecklarnas installationstid med 10x vid röstbygge

stream 1x1 logo

Stream har introducerat Vision Agents - ett open-source-ramverk som gör det möjligt för utvecklare att bygga låg-latens, multimodala AI-upplevelser som kombinerar realtidsvideo, ljud och konversation. Ramverket integrerar ElevenLabs Text to Speech för att driva uttrycksfulla, responsiva röster som möjliggör sömlös interaktion mellan användare och AI-system.

Stream vision agent visual

Möjliggör realtids, multimodala agenter

Vision Agents ger AI förmågan att se, höra och svara i realtid. Byggt på Streams video- och ljud-SDK:er, ger ramverket en låg-latens grund för utvecklare att prototypa och distribuera multimodala agentupplevelser.

Vid utvärdering av Text to Speech-leverantörer valde Stream ElevenLabs för dess marknadsledande kvalitet och enkelhet att integrera - ElevenLabs fungerar nu som det primära röstalternativet för Streams användare.

“ElevenLabs gjorde det enkelt för oss att snabbt få kraftfulla text-till-tal-funktioner till vårt SDK, vilket gör att agenter kan svara i realtid med uttrycksfulla röster på användarfrågor eller som feedback på vad de ser.” - Neevash Ramdial, Marknadschef, Stream

Snabb, pålitlig och utvecklarvänlig integration

Stream integrerade ElevenLabs i hela sin kodbas på bara några dagar, vilket gör det möjligt för utvecklare att lägga till verklighetstrogna röstutgångar till sina vision agents med minimal konfiguration. Integrationen levererar nu:

  • 10x snabbare installation - Förintegration med ElevenLabs minskar röstinstallationstiden från 400 rader kod till bara 40.
  • Låg-latens prestanda - ElevenLabs snabba röstgenerering, kombinerat med Streams globala edge-nätverk, säkerställer respons som känns naturlig och mänsklig.
  • Skalbar utvecklarupplevelse - Streams SDK:er förenklar processen att skapa, testa och distribuera multimodala agenter.

Bygger framtidens multimodala AI

Streams Vision Agents visar hur ElevenLabs modeller utökar vad som är möjligt inom multimodal AI. Genom att kombinera visuell förståelse med Text to Speech, kan utvecklare skapa agenter som inte bara ser, utan också talar och lyssnar med nästan mänsklig flyt.

Vill du bygga med Text to Speech? Kontakta oss här.

Utforska artiklar av ElevenLabs-teamet

ElevenLabs

Skapa ljud och röster som imponerar med de bästa AI-verktygen

Kom igång gratis

Har du redan ett konto? Logga in