Asistente de Voz de OpenAI

13 may 2024 • 5 minutos de lectura

Y su rumoreada integración en el iOS 18 de Apple

OpenAI ha estado ampliando su cartera con nuevos productos, y uno de los más comentados es su tecnología de Asistente de Voz. Está destinado a revolucionar cómo interactuamos con las máquinas usando la voz, aunque mucho sobre su despliegue general sigue siendo un misterio.

Supuestamente, OpenAI está desarrollando una tecnología que integra capacidades de reconocimiento de audio, texto e imagen en un solo producto. Esta tecnología podría, por ejemplo, ayudar a los niños con sus deberes de matemáticas o proporcionar a los usuarios información práctica sobre su entorno inmediato, como traducción de idiomas o guías de reparación de vehículos.

¿Qué es el Asistente de Voz de OpenAI?

El rumoreado Asistente de Voz está diseñado para interactuar naturalmente con los usuarios a través del habla. Aprovecha los avances en Reconocimiento Automático de Voz (ASR), Modelos de Lenguaje de Gran Escala (LLMs), y Text to Speech) sistemas de TTS. La integración de estas tecnologías permite al Asistente de Voz entender la entrada hablada, procesar la información contextualmente y responder con una voz natural y humana.

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

Casi todos los sistemas de voz IA siguen tres pasos:

Reconocimiento de Voz ("ASR"): Esto convierte el audio hablado en texto. Un ejemplo de tecnología es Whisper.
Procesamiento del Modelo de Lenguaje: Aquí, un modelo de lenguaje determina la respuesta adecuada, transformando el texto inicial en un texto de respuesta.
Síntesis de Voz ("TTS"): Este paso convierte el texto de respuesta de nuevo en audio hablado, con tecnologías como ElevenLabs o VALL-E como ejemplos.

Seguir estrictamente estas tres etapas puede llevar a retrasos significativos. Si los usuarios tienen que esperar cinco segundos por cada respuesta, la interacción se vuelve engorrosa y poco natural, disminuyendo la experiencia del usuario incluso si el audio suena realista.

El diálogo natural efectivo no opera secuencialmente:

Pensamos, escuchamos y hablamos simultáneamente.
Intercalamos naturalmente afirmaciones como "sí" o "hmm".
Anticipamos cuándo alguien terminará de hablar y respondemos de inmediato.
Podemos interrumpir o hablar sobre alguien de manera no ofensiva.
Manejamos las interrupciones con fluidez.
Podemos participar en conversaciones con varias personas sin esfuerzo.

Mejorar el diálogo en tiempo real no se trata solo de acelerar cada proceso de red neuronal; requiere un rediseño fundamental de todo el sistema. Necesitamos maximizar la superposición de estos componentes y aprender a hacer ajustes en tiempo real de manera efectiva.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

Aplicaciones y posible integración con el iOS de Apple

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024

Las aplicaciones potenciales de esta tecnología son vastas, desde usos personales y empresariales hasta ayudar a trabajadores de salud comunitarios a proporcionar mejores servicios interactuando en idiomas locales o asistiendo a personas con discapacidades del habla.

Los rumores sugieren que esta tecnología podría integrarse potencialmente en sistemas como el iOS de Apple, ofreciendo una experiencia de usuario más fluida e interactiva que Siri. Sin embargo, los detalles sobre tales colaboraciones o las capacidades completas del Asistente de Voz no han sido confirmados oficialmente.

Voz IA de ElevenLabs

Algo que seguramente estará presente en cualquier asistente de voz avanzado es la voz IA de última generación. Los modelos de ElevenLabs combinan métodos propios para la conciencia de contexto y alta compresión para ofrecer un habla ultra-realista y vívida en una variedad de emociones e idiomas. Nuestro modelo de texto a voz contextual está diseñado para entender las relaciones entre palabras y ajusta la entonación según el contexto. Además, no tiene características predefinidas, lo que significa que puede predecir dinámicamente miles de características de voz mientras genera el habla. Nuestros modelos están optimizados para aplicaciones particulares, como la generación de discursos largos y multilingües o tareas sensibles a la latencia.