
Voice Design - Den första generativa AI:n för ljud
- Kategori
- Produkt
- Datum
Fotografera en staty. Identifiera personerna som avbildas. Ha sedan ett samtal med dem i realtid – varje karaktär talar med en unik, tidstypisk röst.
Det här är vad du kan skapa med ElevenLabs Voice Design och Agent API:er. I det här inlägget går vi igenom hur en mobil webbapp är uppbyggd som kombinerar datorseende med röstgenerering för att göra offentliga monument till interaktiva upplevelser. Allt här kan återskapas med API:erna och kodexemplen nedan.
Hela appen nedan byggdes från en enda prompt, testad och fungerade direkt iMarkör med Claude Opus 4.5 (high) från ett tomt NextJS-projekt. Om du vill hoppa direkt till bygget, klistra in detta i din editor:
Du kan också använda ElevenLabs Agent-färdigheter istället för att länka till dokumentationen. De bygger på dokumentationen och kan ge ännu bättre resultat.
Resten av inlägget förklarar vad prompten gör.
Flödet har fem steg:
När en användare fotograferar en staty skickas bilden till en OpenAI-modell med bildigenkänning. En strukturerad systemprompt tar fram konstverkets namn, plats, konstnär, datum och – viktigast – en detaljerad röstbeskrivning för varje karaktär. Systemprompten innehåller det förväntade JSON-formatet:
För ett foto av Boudica-statyn vid Westminster Bridge i London ser svaret ut så här:
Kvaliteten på röstbeskrivningen avgör direkt kvaliteten på den genererade rösten. Guiden för Voice Design-promptar går igenom detta i detalj, men viktiga saker att ta med är: ljudkvalitet ("Perfekt ljudkvalitet."), ålder och kön, ton/klang (djup, resonant, skrovlig), exakt accent ("kraftig keltisk brittisk accent" istället för bara "brittisk"), och tempo. Ju mer beskrivande prompt, desto bättre resultat – "en trött New York-bo i 60-årsåldern med torr humor" ger alltid bättre resultat än "en äldre kvinnlig röst".
Några tips från guiden: använd "kraftig" istället för "stark" när du beskriver accent, undvik vaga ord som "utländsk", och för fiktiva eller historiska karaktärer kan du föreslå verkliga accenter som inspiration (t.ex. "en uråldrig keltisk drottning med kraftig brittisk accent, kunglig och bestämd").
Voice Design API skapar nya syntetiska röster utifrån textbeskrivningar – inga röstprover eller kloning krävs. Det passar perfekt för historiska personer där inget original-ljud finns.
Processen har två steg.
Textparametern är viktig. Längre, karaktärsanpassad text (50+ ord) ger stabilare resultat – matcha dialogen till karaktären istället för att använda ett generiskt hälsningsmeddelande. Guiden för Voice Design-promptar går igenom detta mer i detalj.
När förhandslyssningarna är klara, välj en och skapa en permanent röst:
För statyer med flera karaktärer skapas rösterna parallellt. Fem karaktärers röster genereras på ungefär samma tid som en:
När rösterna är klara är nästa steg att konfigurera enElevenLabs Agent som kan växla mellan karaktärsröster i realtid.
Arrayen supportedVoices talar om för agenten vilka röster som finns tillgängliga. Agents-plattformen hanterar röstväxlingen automatiskt – när LLM:ens svar visar att en annan karaktär talar, skickas den delen till rätt röst i TTS-motorn.
För att flera karaktärer ska kännas som en riktig grupp – och inte bara en rad frågor och svar – krävs genomtänkt promptdesign:
Sista steget är klientanslutningen. ElevenLabs Agents stödjer WebRTC för röstsamtal med låg fördröjning – märkbart snabbare än WebSocket-baserade anslutningar, vilket är viktigt för naturliga samtal.
Hooken useConversation hanterar ljudinspelning, streaming, röstaktivitetsdetektion och uppspelning.
För användare som vill ha mer historisk bakgrund innan samtalet kan du lägga till ett utökat forskningsläge med OpenAI:s webbsökningsverktyg:
Det här projektet visar att när vi kombinerar olika AI-modaliteter – text, forskning, bild och ljud – kan vi skapa upplevelser som kopplar ihop den digitala och verkliga världen. Det finns mycket outforskad potential i multimodala agenter som vi gärna ser fler utforska för utbildning, arbete och nöje.
API:erna som används i det här projektet –Voice Design,ElevenAgents och OpenAI – finns tillgängliga redan nu.



