
Beyond search: a voice-enabled hub for AI in Education
AiED Certified is using a free ElevenLabs-powered voice agent to help schools tackle accessibility, equity, and teacher workload.
Tips från latenskänsliga RAG-system i produktion
RAG förbättrar noggrannheten för AI-agenter genom att grunda LLM-svar i stora kunskapsbaser. Istället för att skicka hela kunskapsbasen till LLM, bäddar RAG in frågan, hämtar den mest relevanta informationen och skickar den som kontext till modellen. I vårt system lägger vi till ett steg för frågeomskrivning först, där dialoghistoriken sammanfattas till en exakt, självständig fråga innan hämtning.
För mycket små kunskapsbaser kan det vara enklare att skicka allt direkt i prompten. Men när kunskapsbasen växer blir RAG avgörande för att hålla svaren korrekta utan att överbelasta modellen.
Många system behandlar RAG som ett externt verktyg, men vi har byggt in det direkt i begäransflödet så att det körs på varje fråga. Detta säkerställer konsekvent noggrannhet men skapar också en latensrisk.
De flesta användarförfrågningar refererar till tidigare turer, så systemet behöver sammanfatta dialoghistoriken till en exakt, självständig fråga.
Till exempel:
Omskrivningen förvandlar vaga referenser som “de där gränserna” till självständiga frågor som hämtningssystem kan använda, vilket förbättrar kontexten och noggrannheten i det slutliga svaret. Men att förlita sig på en enda externt värd LLM skapade ett starkt beroende av dess hastighet och tillgänglighet. Detta steg stod ensamt för mer än 80% av RAG-latensen.
Vi omdesignade frågeomskrivningen för att köras som ett lopp:
.webp&w=3840&q=95)
Denna nya arkitektur halverade median RAG-latens, från 326ms till 155ms. Till skillnad från många system som utlöser RAG selektivt som ett externt verktyg, kör vi det på varje fråga. Med medianlatens nere på 155ms är överkostnaden för detta försumbar.
Latens före och efter:

Arkitekturen gjorde också systemet mer motståndskraftigt mot modellvariabilitet. Medan externt värda modeller kan sakta ner under högtrafiktimmar, förblir våra interna modeller relativt konsekventa. Modellracing jämnar ut denna variabilitet, vilket förvandlar oförutsägbar individuell modellprestanda till mer stabilt systembeteende.
Till exempel, när en av våra LLM-leverantörer upplevde ett avbrott förra månaden, fortsatte samtalen sömlöst på våra egenvärda modeller. Eftersom vi redan driver denna infrastruktur för andra tjänster är den extra beräkningskostnaden försumbar.
Sub-200ms RAG-frågeomskrivning tar bort en stor flaskhals för konversationsagenter. Resultatet är ett system som förblir både kontextmedvetet och i realtid, även när det arbetar över stora företagskunskapsbaser. Med hämtningsöverhuvudet reducerat till nästan försumbar nivå kan konversationsagenter skala utan att kompromissa med prestandan.

AiED Certified is using a free ElevenLabs-powered voice agent to help schools tackle accessibility, equity, and teacher workload.

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Drivs av ElevenLabs Agenter