WaveForms AI annonce sa mission de réussir le test de Turing vocal
Nouvelle start-up fondée par des vétérans d'OpenAI et de Google partage des plans ambitieux pour l'audio IA, avec des produits encore en développement
Aujourd'hui, WaveForms AI, fondée par d'anciens vétérans d'OpenAI et de Google, a annoncé sa mission de développer des systèmes audio IA capables d'imiter la parole humaine de manière indiscernable. Le PDG Alexis Conneau a souligné leur objectif de réussir le « test de Turing vocal », visant un score de préférence de 50 % où les utilisateurs ne peuvent pas discerner entre la parole humaine et celle générée par l'IA. L'entreprise est actuellement en phase de développement, avec des plans pour révéler des produits spécifiques l'année prochaine.
Note : WaveForms AI a partagé des plans pour l'audio IA, avec des produits encore en développement. Pendant ce temps, l'audio IA d'ElevenLabs est disponible aujourd'hui, offrant une qualité de production.
Qu'est-ce que le test de Turing vocal ?
Le test de Turing vocal est une référence pour les systèmes audio IA, mesurant si les humains peuvent distinguer entre la parole générée par l'IA et la parole humaine. Un système réussit ce test lorsqu'il atteint un score de préférence de 50 %, ce qui signifie que les auditeurs ne peuvent pas dire s'ils entendent une personne ou une IA.ElevenLabs a déjà fait des progrès significatifs pour atteindre ce niveau d'indiscernabilité, avec des voix largement reconnues pour leur réalisme humain.
Comment WaveForms AI aborde le test de Turing vocal
WaveForms AI, fondée par d'anciens vétérans d'OpenAI et de Google, vise à créer des systèmes audio IA capables de communiquer de manière fluide et humaine. Dirigée par Alexis Conneau, la start-up se concentre sur le développement de modèles qui non seulement reproduisent la parole humaine mais capturent également les nuances émotionnelles, rendant les interactions plus naturelles et engageantes.Les modèles
Créez des voix humaines avec notre système de Text to Speech (TTS), conçu pour une narration de haute qualité, le jeu, la vidéo et l'accessibilité. Des voix expressives, un support multilingue et une intégration API facilitent le passage des projets personnels aux workflows d'entreprise.
Qu'est-ce qu'un score de préférence dans les systèmes de parole IA ?
Le score de préférence évalue l'indiscernabilité de la parole générée par l'IA par rapport à la parole humaine. Un score de 50 % signifie que les auditeurs ne montrent aucune préférence claire, marquant effectivement la parité entre les deux.ElevenLabs a constamment atteint des scores de préférence élevés, avec une adoption leader dans l'industrie par les créateurs, les médias, et les organisations d'accessibilité.
Pourquoi les nuances émotionnelles sont-elles importantes dans l'audio IA ?
Les systèmes de voix IA actuels perdent souvent les subtilités émotionnelles, limitant leur capacité à exprimer de l'empathie ou à engager de manière significative. WaveForms AI affirme résoudre ce problème avec leurs LLM audio, qui traitent l'audio de manière native pour capturer le contexte et l'émotion, permettant une communication plus riche.ElevenLabs a déjà démontré l'importance des nuances émotionnelles, offrant des outils qui permettent aux utilisateurs d'affiner le ton, l'expressivité et le rythme pour convenir à n'importe quel contexte.
Votre flux de travail complet pour éditer des vidéos et des audios, ajouter des voix off et de la musique, transcrire en texte et publier des productions narrées et sous-titrées
En quoi WaveForms AI est-elle différente des systèmes audio IA existants ?
Contrairement aux systèmes traditionnels de ElevenLabs a été le pionnier des percées dans profondeur émotionnelle et flexibilitéElevenLabs a été pionnier dans les avancées en
Quels défis accompagnent la réussite du test de Turing vocal ?
Développer des systèmes de parole IA indiscernables pose des défis techniques et éthiques. Conneau souligne des risques tels que les utilisateurs formant des attachements aux personnages IA et les implications sociétales plus larges du réalisme croissant de l'IA. Aborder ces questions de manière responsable est un axe clé pour WaveForms AI.ElevenLabs a mis en place des garde-fous, tels que des politiques de voix « no-go » et une modération rigoureuse du contenu, pour naviguer de manière responsable dans ces défis tout en offrant une technologie de pointe.
Applications des systèmes IA conçus pour réussir le test de Turing vocal
WaveForms AI envisage que leur technologie soit utilisée dans un large éventail d'applications, y compris l'éducation, le support client et le divertissement. La capacité à créer des interactions vocales humaines ouvre des possibilités pour des expériences plus immersives et empathiques dans ces domaines.ElevenLabs alimente déjà des applications dans ces domaines, des outils éducatifs accessibles à la localisation de médias multilingues, montrant ce qui est possible avec la technologie d'aujourd'hui.
Traduisez l'audio et la vidéo tout en préservant l'émotion, le timing, le ton et les caractéristiques uniques de chaque intervenant
L'avenir des systèmes audio IA
Bien que les produits de WaveForms AI soient encore en développement, leur ambition de redéfinir les interactions audio IA a attiré une attention significative, y compris 40 millions de dollars en financement initial dirigé par Andreessen Horowitz. Alors que l'entreprise travaille à résoudre le test de Turing vocal, son potentiel pour remodeler notre interaction avec la technologie est immense.ElevenLabs continue de mener la transformation de l'avenir de l'audio IA, offrant des solutions qui transforment les industries et répondent aux besoins des utilisateurs dès maintenant.
Créez des agents vocaux pour votre entreprise avec notre IA conversationnelle
Comment l'audio de WaveForms AI se compare-t-il à ElevenLabs
Cherchant à soutenir de nombreux cas d'utilisation de génération audio à l'avenir, WaveForms AI semble pouvoir devenir une bonne boîte à outils audio IA polyvalente. Pour l'instant, cela reste une annonce de produit. ElevenLabs, en revanche, est disponible aujourd'hui, offrant une qualité de production et de personnalisation.
Évaluons brièvement comment WaveForms AI se compare dans des domaines clés comme Text-to-Speech et la génération de son.
Text-to-Speech
ElevenLabs est le leader incontesté de l'industrie dans la technologie
Support pour plus de 70 langues avec des accents authentiques et des nuances culturelles
Intelligence émotionnelle avancée qui répond au contexte textuel
Contrôle des caractéristiques de la voix
Parole de haute qualité, semblable à celle d'un humain, qui maintient la cohérence sur du contenu long
ElevenLabs offre déjà une approche plus simplifiée et précise de la génération de sound effect. ElevenLabs propose :
Génération instantanée de quatre échantillons différents pour chaque demande
Contrôle précis grâce à des descriptions textuelles détaillées
Sortie de haute qualité adaptée aux projets commerciaux
Une bibliothèque complète d'effets sonores courants
La capacité de créer des effets distinctifs directement à partir de descriptions textuelles
ElevenLabs offre une excellence spécialisée dans la génération de voix et d'effets sonores. En tant que l'un des meilleurs générateurs d'effets sonores IA, il produit un résultat fiable et prêt pour la production qui répond mieux aux besoins des créateurs de contenu professionnels.
Comment utiliser ElevenLabs pour le Text-to-Speech
Transformez votre contenu en voix off de qualité professionnelle avec ces étapes simples :
Choisissez votre voix : Sélectionnez parmi une bibliothèque diversifiée de voix naturelles
Entrez votre texte : Collez ou tapez votre script dans l'interface
Personnalisez les paramètres : Ajustez la vitesse, le ton et l'accentuation pour répondre à vos besoins
Prévisualisez et générez : Écoutez un échantillon et générez votre sortie audio finale
Téléchargez : Téléchargez votre voix off de haute qualité
Dernières réflexions
L'émergence d'outils audio IA comme WaveForms et ElevenLabs marque une évolution passionnante dans la création de contenu. Cependant, bien que WaveForms AI ait annoncé des ambitions impressionnantes dans la génération de sons expérimentaux et la manipulation audio, elle n'est pas encore disponible.
ElevenLabs, en revanche, est disponible et de qualité production. C'est également la solution leader actuellement sur le marché pour la génération de voix et d'effets sonores
Prêt à tester la technologie IA d'ElevenLabs ? Inscrivez-vous aujourd'hui pour commencer.
Créez des voix humaines avec notre système de Text to Speech (TTS), conçu pour une narration de haute qualité, le jeu, la vidéo et l'accessibilité. Des voix expressives, un support multilingue et une intégration API facilitent le passage des projets personnels aux workflows d'entreprise.
FAQs
Pas encore. WaveForms AI est encore en phase de développement, se concentrant sur la création de modèles audio avancés capables d'interactions en temps réel et émotionnellement résonnantes.
Le test de Turing vocal mesure si les utilisateurs peuvent distinguer entre la parole humaine et celle générée par l'IA. WaveForms AI vise à réussir ce test en créant un système qui correspond à l'intonation, l'émotion et les nuances humaines.
La mission de l'entreprise est de résoudre le test de Turing vocal et de développer l'intelligence générale émotionnelle (EGI), permettant à l'IA de comprendre et de répondre aux émotions humaines de manière naturelle et significative.
Contrairement aux systèmes traditionnels de Text-to-Speech, WaveForms AI construit des modèles audio de bout en bout qui traitent le son de manière native. Cette approche vise à capturer toute la profondeur émotionnelle et contextuelle des conversations humaines. L'audio IA contextuel d'ElevenLabs est en ligne depuis janvier 2023.
WaveForms AI a été cofondée par Alexis Conneau, un ancien ingénieur d'OpenAI, et Coralie Lemaitre, qui a précédemment travaillé dans la stratégie produit chez Google. Ensemble, ils apportent une expertise en IA et en développement de produits à l'entreprise.