Presentamos Eleven v3 Alpha

Prueba v3

Asistente de Voz de OpenAI

Y su rumoreada integración en el iOS 18 de Apple

OpenAI ha estado ampliando su cartera con nuevos productos, y uno de los más comentados es su tecnología de Asistente de Voz. Está destinado a revolucionar cómo interactuamos con las máquinas usando la voz, aunque mucho sobre su despliegue general sigue siendo un misterio.

Supuestamente, OpenAI está desarrollando una tecnología que integra capacidades de reconocimiento de audio, texto e imagen en un solo producto. Esta tecnología podría, por ejemplo, ayudar a los niños con sus deberes de matemáticas o proporcionar a los usuarios información práctica sobre su entorno inmediato, como traducción de idiomas o guías de reparación de vehículos.

¿Qué es el Asistente de Voz de OpenAI?

El rumoreado Asistente de Voz está diseñado para interactuar naturalmente con los usuarios a través del habla. Aprovecha los avances en Reconocimiento Automático de Voz (ASR), Modelos de Lenguaje de Gran Escala (LLMs), y Text to Speech) sistemas de TTS. La integración de estas tecnologías permite al Asistente de Voz entender la entrada hablada, procesar la información contextualmente y responder con una voz natural y humana.

Casi todos los sistemas de voz IA siguen tres pasos:

  1. Reconocimiento de Voz ("ASR"): Esto convierte el audio hablado en texto. Un ejemplo de tecnología es Whisper.
  2. Procesamiento del Modelo de Lenguaje: Aquí, un modelo de lenguaje determina la respuesta adecuada, transformando el texto inicial en un texto de respuesta.
  3. Síntesis de Voz ("TTS"): Este paso convierte el texto de respuesta de nuevo en audio hablado, con tecnologías como ElevenLabs o VALL-E como ejemplos.

Seguir estrictamente estas tres etapas puede llevar a retrasos significativos. Si los usuarios tienen que esperar cinco segundos por cada respuesta, la interacción se vuelve engorrosa y poco natural, disminuyendo la experiencia del usuario incluso si el audio suena realista.

El diálogo natural efectivo no opera secuencialmente:

  • Pensamos, escuchamos y hablamos simultáneamente.
  • Intercalamos naturalmente afirmaciones como "sí" o "hmm".
  • Anticipamos cuándo alguien terminará de hablar y respondemos de inmediato.
  • Podemos interrumpir o hablar sobre alguien de manera no ofensiva.
  • Manejamos las interrupciones con fluidez.
  • Podemos participar en conversaciones con varias personas sin esfuerzo.

Mejorar el diálogo en tiempo real no se trata solo de acelerar cada proceso de red neuronal; requiere un rediseño fundamental de todo el sistema. Necesitamos maximizar la superposición de estos componentes y aprender a hacer ajustes en tiempo real de manera efectiva.

Aplicaciones y posible integración con el iOS de Apple

Las aplicaciones potenciales de esta tecnología son vastas, desde usos personales y empresariales hasta ayudar a trabajadores de salud comunitarios a proporcionar mejores servicios interactuando en idiomas locales o asistiendo a personas con discapacidades del habla.

Los rumores sugieren que esta tecnología podría integrarse potencialmente en sistemas como el iOS de Apple, ofreciendo una experiencia de usuario más fluida e interactiva que Siri. Sin embargo, los detalles sobre tales colaboraciones o las capacidades completas del Asistente de Voz no han sido confirmados oficialmente.

Voz IA de ElevenLabs

Algo que seguramente estará presente en cualquier asistente de voz avanzado es la voz IA de última generación. Los modelos de ElevenLabs combinan métodos propios para la conciencia de contexto y alta compresión para ofrecer un habla ultra-realista y vívida en una variedad de emociones e idiomas. Nuestro modelo de texto a voz contextual está diseñado para entender las relaciones entre palabras y ajusta la entonación según el contexto. Además, no tiene características predefinidas, lo que significa que puede predecir dinámicamente miles de características de voz mientras genera el habla. Nuestros modelos están optimizados para aplicaciones particulares, como la generación de discursos largos y multilingües o tareas sensibles a la latencia.

Regístrate para acceder a un kit de herramientas de audio IA profesional y empieza a crear contenido o desarrollar aplicaciones ahora mismo!

A blue and silver abstract spherical shape next to a gray microphone icon.

Automatiza locuciones de vídeo, lecturas de anuncios, pódcasts y mucho más, con tu propia voz

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión