
How to Create AI Characters with HeyGen Avatar IV and ElevenLabs Voice Changer
Create studio-quality AI characters by animating images with HeyGen's Avatar IV and enhancing voiceovers with ElevenLabs Voice Changer.
Learn how ElevenLabs created SB1, an infinite soundboard powered by their text-to-sound effects AI audio model, allowing users to generate any sound on demand.
Imagine a soundboard that can generate unlimited sounds on demand. That’s exactly what we built at ElevenLabs — meet SB1, our infinite soundboard. On the surface, it looks like a typical grid of pads you trigger with clicks or keyboard shortcuts. Under the hood, it’s powered by our text-to-sound effects AI audio model.
To use it you simply describe any sound you can think of, and SB1 will generate it. There are also some predefined default sounds, but even they can be replaced.
Nous avons commencé par une simple question : et si vous pouviez taper une description, comme « sons doux de forêt ambiante » ou « gasp dramatique du public », et obtenir un effet sonore prêt à l'emploi ?
Les tables de mixage traditionnelles reposent sur des bibliothèques MP3 statiques que vous devez chercher en ligne. Même si vous trouvez un son approprié, souvent il n'est pas 'exactement' ce que vous vouliez. Mais avec l'IA générative, ce n'est plus un problème. Vous n'êtes plus limité.
Avant de plonger dans le code, nous nous sommes tournés vers Lovable pour créer une version prototype basique de ce qui deviendrait SB1. Pas encore connecté à l'API, cela nous a permis d'expérimenter les choix de design et les emplacements des boutons, avant que notre brillante équipe ne crée l'interface finale et le code.
Nous voulions du contenu dynamique — n'importe quel son, généré à la volée. Le cœur de notre solution est l'API SFX d'ElevenLabs. L'API se trouve derrière un seul point de terminaison :
1 | POST https://api.elevenlabs.io/v1/sound-generation |
Vous envoyez une charge utile JSON avec votre prompt, le nombre de variations souhaitées (nous en proposons quatre par défaut), et votre clé API dans l'en-tête Authorization.
La réponse renvoie un tableau d'URLs pointant vers des fichiers WAV générés. À partir de là, vous pouvez diffuser ou télécharger et assigner chaque clip à un pad. Vous pouvez même définir des boucles. Utilisez des prompts descriptifs pour plus de détails.
/v1/sound-effects/generate
Authorization: Bearer YOUR_API_KEY
Content-Type: application/json
prompt
(string) : description du sonn
(integer) : nombre de variations (1–10)format
(string, optionnel) : wav ou mp3 (par défaut wav)Une requête d'exemple ressemble à ceci :
1 | { |
2 | "prompt": "rain hitting the roof of a tent", |
3 | "n": 4, |
4 | "format": "wav" |
5 | } |
6 |
Et vous recevrez un tableau de quatre URLs. Nous avons conçu l'API pour qu'elle s'adapte à tout cas d'utilisation — de la création de table de mixage ad hoc à la génération en masse pour les ressources de jeu.
Avec l'API en place, nous nous sommes tournés vers le front-end. SB1 est une application web construite avec React et Tailwind CSS. Chaque composant de pad a deux modes :
Lorsque vous cliquez sur un pad vide en mode personnalisé, une boîte de dialogue de prompt apparaît. Vous tapez votre description, appuyez sur Générer, et l'API renvoie quatre options. Vous les écoutez en ligne, choisissez votre préférée, et le pad se met à jour immédiatement. Les raccourcis clavier vous permettent de déclencher les pads avec des pressions de touches, pour jouer des rythmes ou des signaux sonores en direct.
Nous avons également ajouté des contrôles de boucle. Il suffit d'appuyer sur le bouton de boucle, de taper le son que vous voulez boucler et il continuera à jouer jusqu'à ce que vous le relâchiez. Cela rend SB1 utile non seulement pour les blagues — pensez aux boîtes à rythmes et aux ambiances sonores — mais aussi pour le podcasting, les signaux sonores en direct et les méditations guidées.
Nous avons généré chacun en envoyant des prompts comme « pluie légère tombant sur des feuilles » et « vagues douces roulant sur le rivage ». Ensuite, nous avons réglé ces pads pour boucler, créant un fond pour la concentration ou la méditation.
Vous n'avez pas besoin d'échantillons audio d'une bibliothèque de percussions. Il suffit de décrire « 808 kick très basse » ou « claquement de caisse claire serré », et l'API vous donne quatre versions à écouter. Nous les avons mappées aux touches A, S et D pour une démonstration de performance en direct.
Si vous voulez vraiment pousser le modèle, vous pouvez aussi l'utiliser pour créer de courts extraits vocaux dans le son d'un personnage. Vous spécifiez simplement le personnage puis mettez les mots entre crochets.
Vous pouvez enregistrer et nommer vos propres préréglages — par exemple, « FX de livestream » avec des sons de surprise, de rire et d'applaudissements. Après avoir construit votre tableau, cliquez sur Partager pour copier un lien ou publier directement sur les réseaux sociaux. Toute personne ayant le lien charge votre configuration SB1 et peut jouer vos sons sélectionnés.
Pour commencer vous-même, consultez notre documentation. Vous y trouverez des exemples de code en JavaScript, Python et cURL qui montrent comment intégrer l'API SFX dans vos projets.
SB1 n'est qu'une démonstration de ce que notre modèle d'effets sonores peut faire. Nous explorons des plugins pour OBS et des stations de travail audio numériques, afin que vous puissiez générer de nouveaux sons sans quitter votre logiciel de streaming ou de production. Nous affinons également le modèle pour améliorer les performances sur les prompts liés à la musique — pensez à des percussions exotiques ou des textures de synthétiseur.
Si vous créez quelque chose de cool, nous voulons le voir. Identifiez-nous sur les réseaux sociaux ou partagez votre lien de préréglage. Que vous soyez streamer, podcasteur, développeur de jeux ou simplement quelqu'un qui aime jouer avec le son, SB1 et l'API SFX mettent une créativité audio illimitée à portée de main.
Essayez-le gratuitement dès aujourd'hui — pas besoin de bibliothèque MP3.
Create studio-quality AI characters by animating images with HeyGen's Avatar IV and enhancing voiceovers with ElevenLabs Voice Changer.
Impact Voice Lab connects people who’ve lost their voice with volunteers who clean and prepare audio recordings to help restore it
Propulsé par ElevenLabs IA conversationnelle