Assistant vocal OpenAI

13 mai 2024 • 5 minutes de lecture

Et son intégration supposée dans iOS 18 d'Apple

OpenAI a élargi son portefeuille avec de nouveaux produits, et l'un des plus discutés est leur technologie d'assistant vocal. Elle est prête à révolutionner notre interaction avec les machines par la voix, bien que beaucoup de détails sur son déploiement restent secrets.

Il semblerait qu'OpenAI développe une technologie qui intègre des capacités de reconnaissance audio, texte et image en un seul produit. Cette technologie pourrait, par exemple, aider les enfants avec leurs devoirs de mathématiques ou fournir aux utilisateurs des informations pratiques sur leur environnement immédiat, comme la traduction de langues ou des conseils de réparation de véhicules.

Qu'est-ce que l'assistant vocal d'OpenAI ?

L'assistant vocal supposé est conçu pour interagir naturellement avec les utilisateurs par la parole. Il utilise les avancées en reconnaissance automatique de la parole (ASR), les grands modèles de langage (LLMs), et Text to Speech (TTS). L'intégration de ces technologies permet à l'assistant vocal de comprendre les entrées vocales, de traiter l'information contextuellement et de répondre avec une voix naturelle et humaine.

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

Presque tous les systèmes de voix IA suivent trois étapes :

Reconnaissance vocale ("ASR"): Cela convertit l'audio parlé en texte. Une technologie exemple est Whisper.
Traitement par modèle de langage: Ici, un modèle de langage détermine la réponse appropriée, transformant le texte initial en texte de réponse.
Synthèse vocale ("TTS"): Cette étape convertit le texte de réponse en audio parlé, avec des technologies comme ElevenLabs ou VALL-E en exemples.

Suivre strictement ces trois étapes peut entraîner des délais importants. Si les utilisateurs doivent attendre cinq secondes pour chaque réponse, l'interaction devient lourde et peu naturelle, diminuant l'expérience utilisateur même si l'audio semble réaliste.

Un dialogue naturel efficace ne fonctionne pas de manière séquentielle :

Nous pensons, écoutons et parlons simultanément.
Nous intercalons naturellement des affirmations comme "oui" ou "hmm".
Nous anticipons quand quelqu'un va finir de parler et répondons immédiatement.
Nous pouvons interrompre ou parler par-dessus quelqu'un de manière non offensante.
Nous gérons les interruptions avec fluidité.
Nous pouvons participer à des conversations impliquant plusieurs personnes sans effort.

Améliorer le dialogue en temps réel ne consiste pas seulement à accélérer chaque processus de réseau neuronal ; cela nécessite une refonte fondamentale de tout le système. Nous devons maximiser le chevauchement de ces composants et apprendre à faire des ajustements en temps réel efficacement.

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

Applications et intégration potentielle avec iOS d'Apple

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024

Les applications potentielles de cette technologie sont vastes, allant des usages personnels et professionnels à l'aide aux travailleurs de la santé communautaire pour fournir de meilleurs services en interagissant dans les langues locales ou en aidant les personnes ayant des troubles de la parole.

Des rumeurs suggèrent que cette technologie pourrait être intégrée dans des systèmes comme iOS d'Apple, offrant une expérience utilisateur plus fluide et interactive que Siri. Cependant, les détails sur de telles collaborations ou les capacités complètes de l'assistant vocal n'ont pas été officiellement confirmés.

Voix IA d'ElevenLabs

Une chose qui est certaine dans tout assistant vocal avancé est la voix IA de pointe. Les modèles ElevenLabs combinent des méthodes propriétaires pour la conscience contextuelle et une haute compression pour offrir une parole ultra-réaliste et vivante à travers une gamme d'émotions et de langues. Notre modèle de text to speech contextuel est conçu pour comprendre les relations entre les mots et ajuste la livraison en fonction du contexte. Il n'a également aucune fonctionnalité codée en dur, ce qui signifie qu'il peut prédire dynamiquement des milliers de caractéristiques vocales tout en générant la parole. Nos modèles sont optimisés pour des applications particulières, telles que la génération de discours long format et multilingue ou les tâches sensibles à la latence.

Inscrivez-vous pour accéder à une boîte à outils audio IA professionnelle et commencez à créer du contenu ou à développer des applications dès maintenant !