
Graydon Carter’s Air Mail, now in audio
We’re adding audio to Air Mail magazine, so readers can follow it anywhere
Construindo experiências de IA controladas através de arquitetura inteligente e diretrizes
IA empresarial bem-sucedida não se trata apenas de ter a tecnologia mais recente—é sobre ter a arquitetura certa e controles construídos sobre primitivas de IA. LLMs prontos para uso são poderosos, mas carecem de conhecimento profundo sobre como seguir a lógica de negócios, diretrizes de marca e princípios de segurança. Essa experiência personalizada só pode ser alcançada arquitetando e testando cuidadosamente um sistema de prompts, LLMs, diretrizes, ferramentas e outros blocos de construção para guiar o comportamento da IA generativa a seguir regras empresariais.
Ao construir IA de Voz Conversacional, desenvolvedores podem trabalhar com modelos multimodais, de voz para voz, ou podem juntar as partes componentes de ASR (transcrição), LLMs e TTS. Para empresas com casos de uso específicos, a última opção pode ser mais prática.
"Em um ambiente empresarial, a IA muitas vezes não pode ser feita apenas com LLMs”, explica Felix Su, Chefe de Engenharia da Plataforma GenAI da Scale. “Um sistema complexo precisa ser projetado para seguir a lógica de negócios, manter a imagem da marca e operar dentro de diretrizes rígidas. Esses comportamentos são personalizados para cada empresa, então é mais prático implementar esses sistemas sobre LLMs, em vez de depender puramente de seu comportamento latente. Embora capacidades multimodais tenham sido recentemente incorporadas diretamente nos modelos, a adoção desses modelos em casos de uso críticos de produção tem sido mais lenta do que o esperado. Isso se deve à falta de controle entre a geração e as entradas e saídas em sua modalidade. No caso da TIME AI, usar STT e TTS nos permitiu controlar as entradas para LLMs baseados em texto e proteger as saídas do nosso sistema usando diretrizes personalizadas. Essa técnica pode ser mais prática do que usar diretamente LLMs multimodais."
Ao construir a experiência TIME AI, a Scale indexou o corpus de artigos da TIME em bases de conhecimento para recuperação sob demanda, codificou a lógica de negócios em uma série de prompts de sistema e protegeu as saídas do GenAI contra alucinações e violações tanto de segurança quanto de diretrizes de marca. Além desse sistema, eles deram vida à experiência com uma voz da plataforma de orquestração de IA Conversacional da ElevenLabs.
O recente lançamento da TIME AI permite que os leitores participem de conversas naturais sobre o jornalismo da TIME, incluindo sua icônica cobertura de Person of the Year. O que diferencia essa implementação de inúmeros outros chatbots não é apenas seu conhecimento—é a voz.
"Usar a voz realmente deu um toque especial," reflete Su. "Sem ela, se perde na multidão como apenas mais um chatbot. Queríamos que o agente parecesse um parceiro de leitura ao vivo, disponível para mergulhos profundos em conversas fora do roteiro." A implementação combina a expertise da Scale AI em desenvolvimento de IA com a plataforma de IA Conversacional da ElevenLabs, criando uma experiência que parece notavelmente humana enquanto mantém controle rigoroso sobre o conteúdo e a voz da marca.
Para empresas que desejam implantar IA conversacional em escala, colaborar com a Scale AI e a ElevenLabs oferece um caminho comprovado. A Scale AI traz profunda expertise em construir sistemas de IA multimodais controlados e seguros com diretrizes robustas, enquanto a ElevenLabs fornece tecnologia de voz de ponta que pode ser integrada perfeitamente a esses sistemas.
Embora a implementação da TIME se concentre no jornalismo, a mesma arquitetura pode ser aplicada em vários casos de uso empresarial, particularmente em atendimento e suporte ao cliente. Os clientes estão se cansando de chatbots básicos à medida que exigem interações mais envolventes e humanas.
Obrigado a Felix por contribuir para este post. Você pode encontrar Felix Su no LinkedIn & X, e você pode experimentar a experiência de voz de IA Conversacional que ele construiu com a TIME em seu Person of the Year 2024, assim como Person of the Year de 2021, 2022 e 2023.
Desenvolvedores podem começar com IA Conversacional usando nossos documentos, e empresas que desejam implantar soluções de Voz Conversacional confiáveis em produção podem entrar em contato com a equipe de soluções Empresariais na ElevenLabs e Scale.
We’re adding audio to Air Mail magazine, so readers can follow it anywhere
Startup Grants are now available for 12 months, with every recipient receiving 33 million free credits to use across our platform, equivalent to over 680 hours of Conversational AI audio. That’s a full year of free access to ElevenLabs’ AI audio, giving founders the runway to prototype, iterate, and scale.
Desenvolvido por ElevenLabs Conversational AI