Sprechen Sie mit einer Statue: Entwicklung einer multimodalen App mit ElevenAgents
- Verfasst von
- Joe Reeve
- Veröffentlicht
- Zuletzt aktualisiert
AnhörenArtikel anhören
Fotografieren Sie eine Statue. Identifizieren Sie die dargestellten Figuren. Führen Sie dann ein Echtzeit-Gespräch mit ihnen – jede Figur spricht mit einer eigenen, zeittypischen Stimme.
Das können Sie mit den Voice Design- und Agent-APIs von ElevenLabs entwickeln. In diesem Beitrag zeigen wir die Architektur einer mobilen Web-App, die Computer Vision mit Sprachgenerierung kombiniert, um öffentliche Denkmäler in interaktive Erlebnisse zu verwandeln. Alles ist mit den untenstehenden APIs und Codebeispielen umsetzbar.
Tutorial überspringen – alles in einem Prompt bauen
Die gesamte App unten wurde aus einem einzigen Prompt erstellt und erfolgreich getestet in Cursor mit Claude Opus 4.5 (high) aus einem leeren NextJS-Projekt. Wenn Sie direkt loslegen möchten, fügen Sie Folgendes in Ihren Editor ein:
Sie können auch dieElevenLabs Agenten-Fähigkeiten nutzen, anstatt direkt auf die Dokumentation zuzugreifen. Diese basieren auf der Dokumentation und liefern oft noch bessere Ergebnisse.
Im Folgenden erklären wir, was dieser Prompt erzeugt.
So funktioniert es
Die Pipeline besteht aus fünf Schritten:
- Bild aufnehmen
- Kunstwerk und Figuren identifizieren (OpenAI)
- Historische Hintergründe recherchieren (OpenAI)
- Individuelle Stimmen für jede Figur generieren (ElevenAPI)
- Echtzeit-Sprachgespräch über WebRTC starten (ElevenAgents)
Die Statue per Vision identifizieren
Wenn ein Nutzer eine Statue fotografiert, wird das Bild an ein OpenAI-Modell mit Vision-Fähigkeit gesendet. Ein strukturierter System-Prompt extrahiert den Namen des Kunstwerks, Standort, Künstler, Datum und – entscheidend – eine detaillierte Stimm-Beschreibung für jede Figur. Der System-Prompt enthält das erwartete JSON-Ausgabeformat:
Für ein Foto der Boudica-Statue auf der Westminster Bridge in London sieht die Antwort so aus:
Effektive Stimm-Beschreibungen verfassen
Die Qualität der Stimm-Beschreibung bestimmt direkt die Qualität der generierten Stimme. Der Voice Design Prompting Guide erklärt dies im Detail. Wichtige Attribute sind: Marker für Audioqualität („Perfekte Audioqualität.“), Alter und Geschlecht, Ton/Timbre (tief, resonant, rau), ein präziser Akzent („starker keltisch-britischer Akzent“ statt nur „britisch“) und Sprechtempo. Je genauer die Beschreibung, desto besser das Ergebnis – „eine müde New Yorkerin in ihren 60ern mit trockenem Humor“ liefert immer bessere Resultate als „eine ältere weibliche Stimme“.
Einige Hinweise aus dem Guide: Verwenden Sie „stark“ statt „kräftig“ für die Akzentbeschreibung, vermeiden Sie vage Begriffe wie „fremd“ und schlagen Sie bei fiktiven oder historischen Figuren reale Akzente als Inspiration vor (z. B. „eine keltische Königin mit starkem britischen Akzent, würdevoll und bestimmend“).
Charakterstimmen mit Voice Design erstellen
DieVoice Design API erzeugt neue synthetische Stimmen aus Textbeschreibungen – ohne Sprachproben oder Klonen. Das ist ideal für historische Persönlichkeiten, von denen keine Originalaufnahmen existieren.
Der Prozess besteht aus zwei Schritten.
Vorschau generieren
Der Textparameter ist entscheidend. Längere, charaktergerechte Beispieltexte (50+ Wörter) liefern stabilere Ergebnisse – passen Sie den Text an die Figur an, statt eine allgemeine Begrüßung zu verwenden. Der Voice Design Prompting Guide geht darauf ausführlich ein.
Stimme speichern
Sobald Vorschauen generiert sind, wählen Sie eine aus und erstellen eine permanente Stimme:
Bei Statuen mit mehreren Figuren läuft die Stimmenerstellung parallel. Die Stimmen von fünf Figuren werden in etwa der gleichen Zeit generiert wie eine:
Einen ElevenLabs Agent mit mehreren Stimmen bauen
Sind die Stimmen erstellt, folgt die Konfiguration einesElevenLabs Agent, der in Echtzeit zwischen den Charakterstimmen wechseln kann.
Mehrstimmiges Umschalten
Das supportedVoices-Array gibt dem Agent an, welche Stimmen verfügbar sind. Die Agents-Plattform übernimmt das Umschalten automatisch – erkennt das LLM, dass eine andere Figur spricht, leitet die TTS-Engine diesen Abschnitt an die richtige Stimme weiter.
Prompt-Design für Gruppengespräche
Damit mehrere Figuren wie eine echte Gruppe wirken – und nicht wie eine Abfolge von Fragen und Antworten – ist gezieltes Prompt-Design nötig:
Echtzeit-Sprachübertragung mit WebRTC
Der letzte Schritt ist die Client-Verbindung. ElevenLabs Agents unterstützen WebRTC für latenzarme Sprachgespräche – deutlich schneller als WebSocket-basierte Verbindungen, was für einen natürlichen Gesprächsfluss entscheidend ist.
Server: Konversationstoken abrufen
Client: Sitzung starten
Der useConversation-Hook übernimmt Audioaufnahme, Streaming, Spracherkennung und Wiedergabe.
Mehr Recherche-Tiefe durch Websuche
Für Nutzer, die vor dem Gespräch mehr historischen Kontext wünschen, kann ein erweiterter Recherchemodus mit dem Websuche-Tool von OpenAI integriert werden:
Was wir gelernt haben
Dieses Projekt zeigt: Durch die Kombination verschiedener KI-Modalitäten – Text, Recherche, Vision und Audio – entstehen Erlebnisse, die digitale und reale Welt verbinden. In multimodalen Agents steckt viel ungenutztes Potenzial, das wir gerne für Bildung, Arbeit und Unterhaltung weiter erforscht sehen würden.
Jetzt starten
Die in diesem Projekt verwendeten APIs –Voice Design,ElevenAgents und OpenAI – sind alle bereits verfügbar.




