
MasterClass brings AI instructors to life with ElevenLabs
75% of users prefer voice interactions with MasterClass On Call
Genom att integrera ElevenLabs Text to Speech minskade utvecklarnas installationstid med 10x vid röstbygge
Stream har introducerat Vision Agents - ett open-source-ramverk som gör det möjligt för utvecklare att bygga låg-latens, multimodala AI-upplevelser som kombinerar realtidsvideo, ljud och konversation. Ramverket integrerar ElevenLabs Text to Speech för att driva uttrycksfulla, responsiva röster som möjliggör sömlös interaktion mellan användare och AI-system.

Vision Agents ger AI förmågan att se, höra och svara i realtid. Byggt på Streams video- och ljud-SDK:er, ger ramverket en låg-latens grund för utvecklare att prototypa och distribuera multimodala agentupplevelser.
Vid utvärdering av Text to Speech-leverantörer valde Stream ElevenLabs för dess marknadsledande kvalitet och enkelhet att integrera - ElevenLabs fungerar nu som det primära röstalternativet för Streams användare.
“ElevenLabs gjorde det enkelt för oss att snabbt få kraftfulla text-till-tal-funktioner till vårt SDK, vilket gör att agenter kan svara i realtid med uttrycksfulla röster på användarfrågor eller som feedback på vad de ser.” - Neevash Ramdial, Marknadschef, Stream
Stream integrerade ElevenLabs i hela sin kodbas på bara några dagar, vilket gör det möjligt för utvecklare att lägga till verklighetstrogna röstutgångar till sina vision agents med minimal konfiguration. Integrationen levererar nu:
Streams Vision Agents visar hur ElevenLabs modeller utökar vad som är möjligt inom multimodal AI. Genom att kombinera visuell förståelse med Text to Speech, kan utvecklare skapa agenter som inte bara ser, utan också talar och lyssnar med nästan mänsklig flyt.
Vill du bygga med Text to Speech? Kontakta oss här.

75% of users prefer voice interactions with MasterClass On Call
%20(2).webp&w=3840&q=95)
Bringing ElevenLabs' AI voice agents to the customer service of Europe’s largest Telco (via app and phone).