
Automatiza locuciones de vídeo, lecturas de anuncios, pódcasts y mucho más, con tu propia voz
Presentamos Eleven v3 Alpha
Prueba v3OpenAI ha estado ampliando su cartera con nuevos productos, y uno de los más comentados es su tecnología de Asistente de Voz. Está destinado a revolucionar cómo interactuamos con las máquinas usando la voz, aunque mucho sobre su despliegue general sigue siendo un misterio.
Supuestamente, OpenAI está desarrollando una tecnología que integra capacidades de reconocimiento de audio, texto e imagen en un solo producto. Esta tecnología podría, por ejemplo, ayudar a los niños con sus deberes de matemáticas o proporcionar a los usuarios información práctica sobre su entorno inmediato, como traducción de idiomas o guías de reparación de vehículos.
El rumoreado Asistente de Voz está diseñado para interactuar naturalmente con los usuarios a través del habla. Aprovecha los avances en Reconocimiento Automático de Voz (ASR), Modelos de Lenguaje de Gran Escala (LLMs), y Text to Speech) sistemas de TTS. La integración de estas tecnologías permite al Asistente de Voz entender la entrada hablada, procesar la información contextualmente y responder con una voz natural y humana.
OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?
— Jim Fan (@DrJimFan) May 12, 2024
Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
Casi todos los sistemas de voz IA siguen tres pasos:
Seguir estrictamente estas tres etapas puede llevar a retrasos significativos. Si los usuarios tienen que esperar cinco segundos por cada respuesta, la interacción se vuelve engorrosa y poco natural, disminuyendo la experiencia del usuario incluso si el audio suena realista.
El diálogo natural efectivo no opera secuencialmente:
Mejorar el diálogo en tiempo real no se trata solo de acelerar cada proceso de red neuronal; requiere un rediseño fundamental de todo el sistema. Necesitamos maximizar la superposición de estos componentes y aprender a hacer ajustes en tiempo real de manera efectiva.
OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
— Ananay (@ananayarora) May 11, 2024
(1/n) pic.twitter.com/KT8Hb54DwA
Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)
— Bindu Reddy (@bindureddy) May 13, 2024
Guess Apple decided that it couldn't make it on its own 🤷
The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
Las aplicaciones potenciales de esta tecnología son vastas, desde usos personales y empresariales hasta ayudar a trabajadores de salud comunitarios a proporcionar mejores servicios interactuando en idiomas locales o asistiendo a personas con discapacidades del habla.
Los rumores sugieren que esta tecnología podría integrarse potencialmente en sistemas como el iOS de Apple, ofreciendo una experiencia de usuario más fluida e interactiva que Siri. Sin embargo, los detalles sobre tales colaboraciones o las capacidades completas del Asistente de Voz no han sido confirmados oficialmente.
Algo que seguramente estará presente en cualquier asistente de voz avanzado es la voz IA de última generación. Los modelos de ElevenLabs combinan métodos propios para la conciencia de contexto y alta compresión para ofrecer un habla ultra-realista y vívida en una variedad de emociones e idiomas. Nuestro modelo de texto a voz contextual está diseñado para entender las relaciones entre palabras y ajusta la entonación según el contexto. Además, no tiene características predefinidas, lo que significa que puede predecir dinámicamente miles de características de voz mientras genera el habla. Nuestros modelos están optimizados para aplicaciones particulares, como la generación de discursos largos y multilingües o tareas sensibles a la latencia.
Regístrate para acceder a un kit de herramientas de audio IA profesional y empieza a crear contenido o desarrollar aplicaciones ahora mismo!
Automatiza locuciones de vídeo, lecturas de anuncios, pódcasts y mucho más, con tu propia voz
Learn how ElevenLabs and Cartesia compare based on features, price, voice quality and more.
Unlocking the Power of AI Voiceovers for eLearning