Pular para o conteúdo

Stream cria agentes de IA multimodais com ElevenLabs

Integrar o ElevenLabs Text to Speech reduziu o tempo de configuração em 10x para desenvolvedores que trabalham com voz

stream 1x1 logo

A Stream introduziu Vision Agents - uma estrutura de código aberto que permite aos desenvolvedores criar experiências de IA multimodais de baixa latência, combinando vídeo, áudio e conversa em tempo real. A estrutura integra ElevenLabs Text to Speech para oferecer vozes expressivas e responsivas que permitem uma interação perfeita entre usuários e sistemas de IA.

Stream vision agent visual

Habilitando agentes multimodais em tempo real

Vision Agents dá à IA a capacidade de ver, ouvir e responder em tempo real. Construída sobre os SDKs de vídeo e áudio da Stream, a estrutura oferece uma base de baixa latência para desenvolvedores prototiparem e implementarem experiências de agentes multimodais.

Ao avaliar provedores de Text to Speech, a Stream escolheu o ElevenLabs por sua qualidade líder de mercado e facilidade de integração - o ElevenLabs agora serve como a principal opção de voz para os usuários da Stream.

“O ElevenLabs facilitou para nós a rápida implementação de capacidades poderosas de texto para fala em nosso SDK, permitindo que os Agentes respondam em tempo real com vozes expressivas a perguntas dos usuários ou como feedback ao que está vendo.” - Neevash Ramdial, Diretor de Marketing, Stream

Integração rápida, confiável e amigável para desenvolvedores

A Stream integrou o ElevenLabs em todo o seu código em apenas alguns dias, permitindo que os desenvolvedores adicionem saída de voz realista aos seus agentes de visão com configuração mínima. A integração agora oferece:

  • Configuração 10x mais rápida - A pré-integração com o ElevenLabs reduz o tempo de configuração de voz de 400 linhas de código para apenas 40.
  • Desempenho de baixa latência - A rápida geração de voz do ElevenLabs, combinada com a rede global de borda da Stream, garante uma resposta que parece natural e humana.
  • Experiência escalável para desenvolvedores - Os SDKs da Stream simplificam o processo de criação, teste e implementação de agentes multimodais.

Construindo o futuro da IA multimodal

Os Vision Agents da Stream demonstram como os modelos da ElevenLabs estão expandindo o que é possível em IA multimodal. Ao combinar compreensão visual com Text to Speech, os desenvolvedores podem criar agentes que não apenas veem, mas também falam e ouvem com fluência quase humana.

Quer construir com Text to Speech? Entre em contato aqui.

Explore artigos da equipe ElevenLabs

ElevenLabs

Crie com o áudio IA da mais alta qualidade