
Voice Design - Die erste generative KI für Audio
- Kategorie
- Produkte
- Datum
Fotografieren Sie eine Statue. Identifizieren Sie die dargestellten Figuren. Führen Sie dann ein Echtzeit-Gespräch mit ihnen – jede Figur spricht mit einer eigenen, zeittypischen Stimme.
Das können Sie mit den Voice Design- und Agent-APIs von ElevenLabs entwickeln. In diesem Beitrag zeigen wir die Architektur einer mobilen Web-App, die Computer Vision mit Sprachgenerierung kombiniert, um öffentliche Denkmäler in interaktive Erlebnisse zu verwandeln. Alles ist mit den untenstehenden APIs und Codebeispielen umsetzbar.
Die gesamte App unten wurde aus einem einzigen Prompt erstellt und erfolgreich getestet in Cursor mit Claude Opus 4.5 (high) aus einem leeren NextJS-Projekt. Wenn Sie direkt loslegen möchten, fügen Sie Folgendes in Ihren Editor ein:
Sie können auch dieElevenLabs Agenten-Fähigkeiten nutzen, anstatt direkt auf die Dokumentation zuzugreifen. Diese basieren auf der Dokumentation und liefern oft noch bessere Ergebnisse.
Im Folgenden erklären wir, was dieser Prompt erzeugt.
Die Pipeline besteht aus fünf Schritten:
Wenn ein Nutzer eine Statue fotografiert, wird das Bild an ein OpenAI-Modell mit Vision-Fähigkeit gesendet. Ein strukturierter System-Prompt extrahiert den Namen des Kunstwerks, Standort, Künstler, Datum und – entscheidend – eine detaillierte Stimm-Beschreibung für jede Figur. Der System-Prompt enthält das erwartete JSON-Ausgabeformat:
Für ein Foto der Boudica-Statue auf der Westminster Bridge in London sieht die Antwort so aus:
Die Qualität der Stimm-Beschreibung bestimmt direkt die Qualität der generierten Stimme. Der Voice Design Prompting Guide erklärt dies im Detail. Wichtige Attribute sind: Marker für Audioqualität („Perfekte Audioqualität.“), Alter und Geschlecht, Ton/Timbre (tief, resonant, rau), ein präziser Akzent („starker keltisch-britischer Akzent“ statt nur „britisch“) und Sprechtempo. Je genauer die Beschreibung, desto besser das Ergebnis – „eine müde New Yorkerin in ihren 60ern mit trockenem Humor“ liefert immer bessere Resultate als „eine ältere weibliche Stimme“.
Einige Hinweise aus dem Guide: Verwenden Sie „stark“ statt „kräftig“ für die Akzentbeschreibung, vermeiden Sie vage Begriffe wie „fremd“ und schlagen Sie bei fiktiven oder historischen Figuren reale Akzente als Inspiration vor (z. B. „eine keltische Königin mit starkem britischen Akzent, würdevoll und bestimmend“).
DieVoice Design API erzeugt neue synthetische Stimmen aus Textbeschreibungen – ohne Sprachproben oder Klonen. Das ist ideal für historische Persönlichkeiten, von denen keine Originalaufnahmen existieren.
Der Prozess besteht aus zwei Schritten.
Der Textparameter ist entscheidend. Längere, charaktergerechte Beispieltexte (50+ Wörter) liefern stabilere Ergebnisse – passen Sie den Text an die Figur an, statt eine allgemeine Begrüßung zu verwenden. Der Voice Design Prompting Guide geht darauf ausführlich ein.
Sobald Vorschauen generiert sind, wählen Sie eine aus und erstellen eine permanente Stimme:
Bei Statuen mit mehreren Figuren läuft die Stimmenerstellung parallel. Die Stimmen von fünf Figuren werden in etwa der gleichen Zeit generiert wie eine:
Sind die Stimmen erstellt, folgt die Konfiguration einesElevenLabs Agent, der in Echtzeit zwischen den Charakterstimmen wechseln kann.
Das supportedVoices-Array gibt dem Agent an, welche Stimmen verfügbar sind. Die Agents-Plattform übernimmt das Umschalten automatisch – erkennt das LLM, dass eine andere Figur spricht, leitet die TTS-Engine diesen Abschnitt an die richtige Stimme weiter.
Damit mehrere Figuren wie eine echte Gruppe wirken – und nicht wie eine Abfolge von Fragen und Antworten – ist gezieltes Prompt-Design nötig:
Der letzte Schritt ist die Client-Verbindung. ElevenLabs Agents unterstützen WebRTC für latenzarme Sprachgespräche – deutlich schneller als WebSocket-basierte Verbindungen, was für einen natürlichen Gesprächsfluss entscheidend ist.
Der useConversation-Hook übernimmt Audioaufnahme, Streaming, Spracherkennung und Wiedergabe.
Für Nutzer, die vor dem Gespräch mehr historischen Kontext wünschen, kann ein erweiterter Recherchemodus mit dem Websuche-Tool von OpenAI integriert werden:
Dieses Projekt zeigt: Durch die Kombination verschiedener KI-Modalitäten – Text, Recherche, Vision und Audio – entstehen Erlebnisse, die digitale und reale Welt verbinden. In multimodalen Agents steckt viel ungenutztes Potenzial, das wir gerne für Bildung, Arbeit und Unterhaltung weiter erforscht sehen würden.
Die in diesem Projekt verwendeten APIs –Voice Design,ElevenAgents und OpenAI – sind alle bereits verfügbar.



