Présentation du Hackathon IA multimodal (23Labs)

9 oct. 2023 • 9 minutes de lecture

Réunir des esprits créatifs et des technologies innovantes les 14 et 15 octobre

Introduction

Bienvenue dans le monde passionnant de l'IA Multimodale ! Le23Labs Hackathon, organisé par Cerebral Valley, Eleven Labs et Twelve Labs, se tiendra les 14 et 15 octobre à Shack 15, situé dans le bâtiment historique Ferry Building à San Francisco. Cet événement vise à réunir des esprits créatifs et des technologies innovantes pour explorer le potentiel de l'IA Multimodale, un domaine en plein essor qui combine voix, vidéo et autres modalités pour créer des applications révolutionnaires.

Les participants auront accès à l'API de Eleven Labs, Twelve Labs, et d'autres partenaires (Weaviate, Baseten, Pika Labs, et Omneky), leur permettant de créer des outils axés sur la créativité avec le soutien des équipes derrière ces start-ups de pointe. Avec plus de 10 000 $ en prix et crédits à gagner, ce hackathon promet d'être une expérience inoubliable pour tous les participants.

Aperçu de ElevenLabs et Twelve Labs

Fondée en 2022, ElevenLabs est une entreprise de recherche en technologie vocale développant des logiciels de synthèse vocale de pointe pour les éditeurs et créateurs. La mission de l'entreprise est de rendre le contenu universellement accessible.

Voici les principales caractéristiques du logiciel développé par ElevenLabs :

Technologie de synthèse vocale utilisant des voix synthétiques préfabriquées
Outils professionnels de clonage de voix
La capacité de concevoir de nouvelles voix IA
La capacité de 'parler' du texte dans jusqu'à 30 langues
Outils pour générer et éditer de l'audio long format

Fondée en 2021, Twelve Labs construit une plateforme de compréhension vidéo qui utilise l'IA pour alimenter de nombreuses tâches en aval, telles que la recherche en langage naturel, la classification zéro-shot et la génération de texte à partir de vidéos. Ces capacités reposent sur le modèle de fondation multimodal de pointe de la plateforme pour les vidéos. La vision de l'entreprise est d'aider les développeurs à créer des programmes capables de voir, écouter et comprendre le monde comme nous le faisons en leur fournissant l'infrastructure de compréhension vidéo la plus puissante.

Voici les principales caractéristiques de la plateforme Twelve Labs :

Capturez le contexte avec l'API d'indexation: Indexez une fois, faites tout. Créez des embeddings vidéo contextuels pour rechercher, classer et résumer le contenu en quelques secondes.
Trouvez tout avec l'API de recherche: Utilisez un langage courant pour des recherches ultra-rapides et contextuelles qui identifient les scènes exactes dont vous avez besoin.
Catégorisez les vidéos avec l'API de classification: Triez et catégorisez instantanément le contenu. Classez le contenu avec toute taxonomie de votre choix. Aucune formation requise.
Générez du texte avec l'API de génération: Générez du texte sur vos vidéos en les incitant. Demandez au modèle d'écrire des rapports, d'obtenir des résumés et de proposer des chapitres - tout ce dont vous avez besoin.

Repousser les frontières de l'IA multimodale

Le modèle de synthèse vocale d'ElevenLabs

Les équipes de recherche d'ElevenLabs ont été pionnières dans les capacités de synthèse vocale de pointe qui se concentrent sur la combinaison de nouvelles approches pour synthétiser la parole afin d'obtenir une livraison ultra-réaliste. Le modèle ElevenLabs est capable de comprendre la relation entre les mots et d'ajuster la livraison en fonction du contexte, permettant de transmettre nuances et émotions. Cela signifie que les voix IA ne sonnent pas robotiques, mais humaines. Cela représente une avancée mondiale pour la technologie de synthèse vocale.

Les algorithmes traditionnels de génération de parole produisaient des énoncés phrase par phrase. Cela est moins exigeant sur le plan informatique mais semble immédiatement robotique. Les émotions et l'intonation doivent souvent s'étendre et résonner sur plusieurs phrases pour lier un fil de pensée particulier. Le ton et le rythme transmettent l'intention, ce qui rend la parole humaine en premier lieu. Plutôt que de générer chaque énoncé séparément, notre modèle prend en compte le contexte environnant, maintenant un flux et une prosodie appropriés sur l'ensemble du matériel généré. Cette profondeur émotionnelle, couplée à une qualité audio de premier ordre, offre aux utilisateurs l'outil de narration le plus authentique et captivant qui soit.

TEXT TO SPEECH

A blue sphere with a black arrow pointing to the right, next to a white card with a blue and black abstract wave design.

Créez des voix humaines avec notre système de Text to Speech (TTS), conçu pour une narration de haute qualité, le jeu, la vidéo et l'accessibilité. Des voix expressives, un support multilingue et une intégration API facilitent le passage des projets personnels aux workflows d'entreprise.

Le modèle de langage multimodal de Twelve Labs

Lorsque vous regardez un film, vous utilisez généralement plusieurs sens pour l'expérimenter. Par exemple, vous utilisez vos yeux pour voir les acteurs et les objets à l'écran et vos oreilles pour entendre les dialogues et les sons. En utilisant un seul sens, vous manqueriez des détails essentiels comme le langage corporel ou la conversation. C'est similaire à la façon dont la plupart des grands modèles de langage fonctionnent - ils sont généralement entraînés à comprendre uniquement le texte. Cependant, ils ne peuvent pas intégrer plusieurs formes d'information et comprendre ce qui se passe dans une scène.

Lorsqu'un modèle de langage traite une forme d'information, comme un texte, il génère une représentation numérique compacte qui définit le sens de cet input spécifique. Ces représentations numériques sont appelées embeddings unimodaux et prennent la forme de vecteurs à valeurs réelles dans un espace multidimensionnel. Ils permettent aux ordinateurs d'effectuer diverses tâches en aval telles que la traduction, la réponse à des questions ou la classification.

Diagram showing a process flow with input, language model, text embeddings, and downstream tasks.

En revanche, lorsqu'un modèle de langage multimodal traite une vidéo, il génère un embedding multimodal qui représente le contexte global de toutes les sources d'information, telles que les images, les sons, la parole ou le texte affiché à l'écran, et comment ils se rapportent les uns aux autres. Ce faisant, le modèle acquiert une compréhension complète de la vidéo. Une fois les embeddings multimodaux créés, ils sont utilisés pour diverses tâches en aval telles que la réponse à des questions visuelles, la classification ou l'analyse des sentiments.

Diagram of a multimodal language model processing video input with visual, audio, and text embeddings to perform downstream tasks.

Twelve Labs a développé une technologie de compréhension vidéo multimodale qui crée des embeddings multimodaux pour vos vidéos. Ces embeddings sont très efficaces en termes de stockage et de besoins informatiques. Ils contiennent tout le contexte d'une vidéo et permettent une exécution rapide et évolutive des tâches sans stocker la vidéo entière.

Le modèle a été entraîné sur une grande quantité de données vidéo, et il peut reconnaître des entités, actions, motifs, mouvements, objets, scènes et autres éléments présents dans les vidéos. En intégrant des informations de différentes modalités, le modèle peut être utilisé pour plusieurs tâches en aval, telles que la recherche à l'aide de requêtes en langage naturel, effectuer une classification zéro-shot, et générer des résumés de texte basés sur le contenu vidéo.

La parole et la vidéo accélèrent l'IA multimodale

L'IA multimodale est une direction de recherche qui se concentre sur la compréhension et l'exploitation de plusieurs modalités pour construire des modèles d'IA plus complets et précis. Les avancées récentes dans les modèles de fondation, tels que les grands modèles de langage pré-entraînés, ont permis aux chercheurs de s'attaquer à des problèmes plus complexes et sophistiqués en combinant les modalités. Ces modèles sont capables d'apprentissage de représentation multimodale pour une large gamme de modalités, y compris l'image, le texte, la parole et la vidéo. En conséquence, l'IA multimodale est utilisée pour s'attaquer à une large gamme de tâches, de la réponse à des questions visuelles et la génération de texte à image à la compréhension vidéo et la traduction texte-parole.

Lorsqu'elles sont combinées, les technologies de ElevenLabs et Twelve Labs peuvent élever l'IA multimodale au grand public, offrant une compréhension plus complète de la communication et de l'interaction humaines. En exploitant la puissance des modalités de parole et de vidéo, les développeurs peuvent créer des applications innovantes qui repoussent les limites de ce qui est possible en IA, transformant finalement notre façon d'interagir avec la technologie et le monde numérique.

Idées d'applications IA pour le Hackathon

Pendant le 23Labs Hackathon, les participants auront l'opportunité de créer des applications IA innovantes qui exploitent les API de ElevenLabs et Twelve Labs. Voici quelques idées inspirantes :

Résumé vidéo avec voix off: Créez une solution qui génère automatiquement des résumés concis de longues vidéos (en utilisant l'API Generate de Twelve Labs) et ajoute une voix off (en utilisant le générateur de voix IA de ElevenLabs). Cela peut être utile pour les mises à jour d'actualités, les vidéos éducatives et les présentations de conférences - économisant du temps pour les spectateurs et améliorant l'accessibilité.
Publicité vidéo intelligente: Développez une plateforme publicitaire basée sur l'IA qui analyse le contenu des publicités vidéo (en utilisant l'API Classify de Twelve Labs), obtient les thèmes communs des publicités à haut ROI (en utilisant l'API Generate de Twelve Labs), et génère des publicités audio ciblées (en exploitant la technologie de synthèse vocale de ElevenLabs). Cela peut aider les annonceurs à atteindre leur public cible plus efficacement et améliorer l'expérience utilisateur globale.
Traduction vidéo multilingue: Construisez un système qui traduit le contenu vidéo en plusieurs langues. Combinez l'API Generate de Twelve Labs avec le support audio multilingue de ElevenLabs pour fournir des sous-titres traduits synchronisés et des voix off, permettant aux utilisateurs de consommer le contenu vidéo dans leur langue préférée. Cela peut être bénéfique pour les conférences internationales, les cours en ligne et la communication mondiale.
Modération de contenu vidéo avec avertissements audio: Créez une solution alimentée par l'IA qui détecte et filtre automatiquement le contenu inapproprié ou sensible dans les vidéos. Utilisez l'API Classify de Twelve Labs pour identifier le contenu inapproprié ou offensant dans les vidéos. Ensuite, utilisez la technologie de synthèse vocale de ElevenLabs pour fournir des avertissements audio pour ce contenu. Cela peut aider à garantir une expérience de visionnage plus sûre et inclusive pour les utilisateurs.
Assistant d'apprentissage des langues par vidéo: Développez un outil interactif d'apprentissage des langues qui utilise le contenu vidéo pour aider les utilisateurs à améliorer leurs compétences linguistiques. Utilisez l'API Search de Twelve Labs pour identifier et extraire la parole des vidéos. Ensuite, utilisez le support audio multilingue de ElevenLabs pour générer des guides de prononciation, des leçons de vocabulaire ou des exercices d'écoute. Cela peut rendre l'apprentissage des langues plus engageant et efficace.

Ressources pour les participants au Hackathon

Les participants peuvent se référer à la documentation API, aux tutoriels et aux articles de blog de ElevenLabs et Twelve Labs ci-dessous pour se préparer au hackathon.

De ElevenLabs

De Twelve Labs

Conclusion

Le 23Labs Hackathon offre une opportunité unique pour les développeurs, créateurs et passionnés d'IA de plonger dans le monde de l'IA Multimodale et de créer des solutions innovantes qui repoussent les limites de ce qui est possible. En combinant l'expertise de Eleven Labs et Twelve Labs, les participants auront accès à des technologies de pointe en IA vocale et vidéo, leur permettant de créer des applications qui peuvent véritablement transformer notre façon d'interagir avec le contenu numérique.

Ne manquez pas votre chance de faire partie de cet événement révolutionnaire et d'explorer les opportunités passionnantes qui s'offrent à vous dans le domaine de l'IA Multimodale. Inscrivez-vous maintenant et rejoignez-nous au 23Labs Hackathon pour transformer vos idées en réalité !

Découvrez les articles de l'équipe ElevenLabs

Creative Platform Stories

Pickford creates real-time interactive cinema experiences with ElevenLabs

Elevating audience-driven storytelling through AI voice

Agents Platform Stories

Agents Platform Stories

BLACKBOX chooses ElevenLabs Agents over OpenAI to power Logger and Robocoder

Delivering more natural conversations, broader voice coverage, and scalable deployment for over 30 million developers.

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter

Propulsé par ElevenLabs Agents