
Online Conversational Agent Hackathon
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.
Presenterar Eleven v3 Alpha
Prova v3Skapa kontrollerade AI-upplevelser genom smart arkitektur och skyddsräcken
Framgångsrik företags-AI handlar inte bara om att ha den senaste tekniken—det handlar om att ha rätt arkitektur och kontroller byggda på AI-primitiver. Färdiga LLM:er är kraftfulla, men saknar djup kunskap om hur man följer affärslogik, varumärkesriktlinjer och säkerhetsprinciper. Denna skräddarsydda upplevelse kan bara uppnås genom att noggrant designa och testa ett system av prompts, LLM:er, skyddsräcken, verktyg och andra byggstenar för att styra generativ AI att följa företagsregler.
När man bygger Conversational Voice AI, kan utvecklare antingen arbeta med multimodala, röst-till-röst-modeller, eller så kan de sätta ihop komponentdelarna av ASR (transkription), LLM:er och TTS. För företag med specifika användningsområden kan det senare ofta vara mer praktiskt.
"I en företagsmiljö kan AI ofta inte göras med bara LLM:er” förklarar Felix Su, chef för ingenjörskonst på Scales GenAI-plattform. “Ett komplext system behöver designas för att följa affärslogik, upprätthålla varumärkesimage och fungera inom strikta skyddsräcken. Dessa beteenden är skräddarsydda för varje företag, så det är mer praktiskt att implementera dessa system ovanpå LLM:er, snarare än att förlita sig enbart på deras latenta beteende. Medan multimodala kapaciteter nyligen har bakats in direkt i modeller, har antagandet av dessa modeller i kritiska produktionsanvändningsfall varit långsammare än väntat. Detta beror på brist på kontroll mellan genereringen och in- och utgångarna i deras modalitet. I fallet med TIME AI, genom att använda STT och TTS kunde vi både kontrollera inmatningarna till textbaserade LLM:er och skydda utgångarna från vårt system med anpassade skyddsräcken. Denna teknik kan ofta vara mer praktisk än att direkt använda multimodala LLM:er."
När man byggde TIME AI-upplevelsen indexerade Scale TIMEs artikelkorpus till kunskapsbaser för efterfrågestyrd hämtning, kodade affärslogik i en serie systemprompts och skyddade GenAI-utgångar mot hallucinationer och brott mot både säkerhet och varumärkesriktlinjer. Ovanpå detta system levandegjorde de upplevelsen med en röst från ElevenLabs Conversational AI-orkestreringsplattform.
Den senaste lanseringen av TIME AI låter läsare delta i naturliga samtal om TIMEs journalistik, inklusive deras ikoniska Årets Person-bevakning. Det som skiljer denna implementation från otaliga andra chatbots är inte bara dess kunskap—det är rösten.
"Att använda rösten gav verkligen en trevlig, slagkraftig känsla," reflekterar Su. "Utan den försvinner det i mängden som bara en annan chatbot. Vi ville att agenten skulle kännas som en levande läspartner, tillgänglig för spontana samtalsdjupdykningar." Implementationen kombinerar Scale AIs expertis inom AI-utveckling med ElevenLabs' Conversational AI-plattform, och skapar en upplevelse som känns anmärkningsvärt mänsklig samtidigt som den bibehåller strikt kontroll över innehåll och varumärkesröst.
För företag som vill implementera conversational AI i stor skala erbjuder samarbetet med Scale AI och ElevenLabs en beprövad väg. Scale AI har djup expertis i att bygga kontrollerade, säkra multimodala AI-system med robusta skyddsräcken, medan ElevenLabs tillhandahåller förstklassig röstteknologi som kan integreras sömlöst i dessa system.
Medan TIMEs implementation fokuserar på journalistik, kan samma arkitektur tillämpas på olika företagsanvändningsfall, särskilt inom kundservice och support. Kunder tröttnar på grundläggande chatbots eftersom de kräver mer engagerande, mänskliga interaktioner.
Tack till Felix för att ha bidragit till detta inlägg. Du kan hitta Felix Su på LinkedIn & X, och du kan uppleva den Conversational AI-röstupplevelse han byggde med TIME på deras Årets Person 2024, samt Årets Person för 2021, 2022 och 2023.
Utvecklare kan komma igång med Conversational AI med våra dokument, och företag som vill implementera pålitliga Conversational Voice-lösningar i produktion kan kontakta Enterprise-lösningsteamet på ElevenLabs och Scale.
To celebrate 1 million agents created, build the best agent you can in 2 hours and compete for $20k+ in prizes.
Seamlessly switch accents mid-sentence with Eleven v3 Audio Tags. Emulate American, British, French, and more for dynamic, culturally rich AI speech.