Hoje, a ElevenLabs está animada em anunciar uma melhoria significativa em nossa plataforma de Conversational AI: a introdução da verdadeira multimodalidade de texto e voz. Nossos agentes de IA agora podem entender e processar linguagem falada e entradas de texto digitado simultaneamente. Essa capacidade foi projetada para criar interações mais naturais, flexíveis e eficazes para uma ampla gama de casos de uso.
Abordando Limitações em Interações Apenas por Voz
Embora a voz ofereça um meio poderoso e intuitivo de comunicação,
- Inacurácias de Transcrição: Capturar dados alfanuméricos específicos como endereços de e-mail, IDs ou números de rastreamento perfeitamente apenas por voz pode ser difícil. Erros podem levar a problemas significativos, como buscar registros de clientes incorretos.
- Experiência do Usuário para Entradas Complexas: Solicitar que os usuários forneçam verbalmente sequências longas de números, como detalhes de cartão de crédito, pode ser uma experiência frustrante e propensa a erros.
O Poder da Multimodalidade: Texto e Voz Juntos
Ao permitir que agentes processem tanto texto quanto voz, capacitamos os usuários a escolher o método de entrada mais adequado à informação que precisam transmitir. Essa abordagem híbrida permite conversas mais suaves e robustas. Os usuários podem falar naturalmente e, quando a precisão é essencial ou digitar é mais conveniente, mudar para a entrada de texto na mesma interação.
Benefícios Principais
A introdução da multimodalidade de texto e voz oferece várias vantagens principais:
- Maior Precisão de Interação: Permite que os usuários digitem informações difíceis de articular ou propensas a erros de transcrição.
- Experiência do Usuário Aprimorada: Oferece flexibilidade, tornando as interações mais naturais e menos restritas, especialmente para entrada de dados sensíveis ou complexos.
- Melhores Taxas de Conclusão de Tarefas: Reduz erros e frustrações, levando a resultados mais bem-sucedidos.
- Fluxo Conversacional Mais Natural: Permite transições sem esforço entre tipos de entrada, imitando a adaptabilidade conversacional humana.
Características Principais
Nossa Conversational AI multimodal inclui as seguintes funcionalidades:
- Processamento Simultâneo: Agentes podem interpretar e responder a uma combinação de entradas de voz e texto em tempo real.
- Configuração Fácil: A entrada de texto pode ser ativada com uma configuração simples no widget.
- Modo Apenas Texto: Agentes podem ser configurados para operar como chatbots tradicionais baseados em texto, se necessário.
Integração e Implantação Sem Costura
Essa nova funcionalidade multimodal é suportada nativamente em toda a nossa plataforma:
- Widget: Implantável com uma única linha de HTML.
- SDKs: Suporte completo para desenvolvedores que desejam integrar profundamente.
- WebSocket: Comunicação bidirecional em tempo real com capacidades multimodais.
Construindo em uma Plataforma Líder
Interações multimodais se beneficiam de todas as inovações existentes em nossa plataforma de Conversational AI:
- Vozes Líderes do Setor: Acesso às vozes de mais alta qualidade em mais de 32 idiomas.
- Modelos de Fala Avançados: Aproveitando nossas tecnologias de ponta de speech-to-text e text-to-speech.
- Infraestrutura Global: Já implantada em todos os lugares com infraestrutura de Twilio e SIP trunking.
Começando
Para começar a usar a multimodalidade de texto e voz com seus
- Navegue até as configurações de configuração do seu widget.
- Ative a opção "Permitir Entrada de Texto".
Acreditamos que a multimodalidade texto+voz irá melhorar significativamente as capacidades e a experiência do usuário de