Salta al contenido

Presentamos la IA Conversacional Multimodal

Nuestros agentes con IA ahora pueden procesar palabras habladas y texto al mismo tiempo, lo que permite interacciones más naturales, eficientes y fluidas.

Multimodal

Hoy en ElevenLabs anunciamos una mejora importante en nuestra plataforma de Conversational AI: la llegada de la verdadera multimodalidad entre texto y voz. Nuestros agentes con IA ahora entienden y procesan tanto el lenguaje hablado como el texto escrito de forma simultánea. Esta capacidad está pensada para crear interacciones más naturales, flexibles y efectivas en todo tipo de casos de uso.

Superando los límites de las interacciones solo por voz

Aunque la voz es una forma de comunicación potente e intuitiva, los agentes de IA solo por voz pueden encontrar dificultades en ciertas situaciones. Hemos detectado problemas habituales en entornos empresariales, como:

  • Errores de transcripción: Captar datos alfanuméricos como direcciones de correo, identificadores o números de seguimiento solo por voz puede ser complicado. Los errores pueden provocar problemas importantes, como buscar registros de clientes incorrectos.
  • Experiencia de usuario con datos complejos: Pedir a los usuarios que dicten largas secuencias de números, como los de una tarjeta de crédito, puede resultar frustrante y propenso a errores.

La fuerza de la multimodalidad: texto y voz juntos

Al permitir que los agentes procesen texto y voz, damos a los usuarios la libertad de elegir el método de entrada que mejor se adapte a la información que quieren compartir. Este enfoque híbrido permite conversaciones más fluidas y robustas. Puedes hablar de forma natural y, cuando necesites precisión o te resulte más cómodo, cambiar al texto en la misma interacción.

Ventajas principales

La llegada de la multimodalidad entre texto y voz aporta varias ventajas clave:

  • Mayor precisión en las interacciones: Permite escribir información difícil de decir o que suele dar errores de transcripción.
  • Mejor experiencia de usuario: Ofrece flexibilidad y hace que las interacciones sean más naturales y menos rígidas, sobre todo al introducir datos sensibles o complejos.
  • Más tareas completadas con éxito: Reduce errores y frustraciones, logrando mejores resultados.
  • Conversaciones más naturales: Permite cambiar de forma sencilla entre voz y texto, adaptándose como en una conversación humana.

Funciones principales

Nuestra IA Conversacional multimodal incluye estas funcionalidades:

  • Procesamiento simultáneo: Los agentes pueden interpretar y responder a combinaciones de voz y texto en tiempo real.
  • Configuración sencilla: Puedes activar la entrada de texto fácilmente desde la configuración del widget.
  • Modo solo texto: Los agentes pueden funcionar como chatbots tradicionales solo con texto si lo necesitas.

Integración y despliegue sin complicaciones

Esta nueva funcionalidad multimodal está disponible de forma nativa en toda nuestra plataforma:

  • Widget: Se puede implementar con una sola línea de HTML.
  • SDKs: Soporte completo para desarrolladores que quieran una integración avanzada.
  • WebSocket: Comunicación bidireccional en tiempo real con capacidades multimodales.

Sobre una plataforma líder

Las interacciones multimodales aprovechan todas las innovaciones de nuestra plataforma de Conversational AI:

  • Voces de referencia en el sector: Acceso a voces de máxima calidad en más de 32 idiomas.
  • Modelos de voz avanzados: Aprovechamos nuestras tecnologías punteras de texto a voz y voz a texto.
  • Infraestructura global: Ya disponible en todo el mundo con infraestructura Twilio y SIP trunking.

Cómo empezar

Para usar la multimodalidad de texto y voz con tus agentes de Conversational AI:

  1. Ve a la configuración de tu widget.
  2. Activa la opción "Permitir entrada de texto".

Creemos que la multimodalidad texto+voz mejorará mucho las capacidades y la experiencia de usuario de IA conversacional. Nos encantará ver cómo aprovechas esta nueva función.

Descubre artículos del equipo de ElevenLabs

Crea con el audio IA de la más alta calidad