
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Dicas de sistemas RAG sensíveis à latência em produção
O RAG melhora a precisão para agentes de IA ao basear as respostas de LLM em grandes bases de conhecimento. Em vez de enviar toda a base de conhecimento para o LLM, o RAG incorpora a consulta, recupera as informações mais relevantes e as passa como contexto para o modelo. Em nosso sistema, adicionamos primeiro uma etapa de reescrita de consultas, colapsando o histórico de diálogo em uma consulta precisa e autossuficiente antes da recuperação.
Para bases de conhecimento muito pequenas, pode ser mais simples passar tudo diretamente no prompt. Mas, uma vez que a base de conhecimento cresce, o RAG se torna essencial para manter as respostas precisas sem sobrecarregar o modelo.
Muitos sistemas tratam o RAG como uma ferramenta externa, no entanto, nós o incorporamos diretamente no pipeline de solicitações para que ele funcione em todas as consultas. Isso garante precisão consistente, mas também cria um risco de latência.
A maioria das solicitações dos usuários faz referência a turnos anteriores, então o sistema precisa colapsar o histórico de diálogo em uma consulta precisa e autossuficiente.
Por exemplo:
A reescrita transforma referências vagas como “esses limites” em consultas autossuficientes que os sistemas de recuperação podem usar, melhorando o contexto e a precisão da resposta final. Mas depender de um único LLM hospedado externamente criou uma dependência rígida de sua velocidade e tempo de atividade. Esta etapa sozinha representava mais de 80% da latência do RAG.
Redesenhamos a reescrita de consultas para funcionar como uma corrida:
.webp&w=3840&q=95)
Esta nova arquitetura reduziu a latência média do RAG pela metade, de 326ms para 155ms. Ao contrário de muitos sistemas que acionam o RAG seletivamente como uma ferramenta externa, nós o executamos em todas as consultas. Com a latência média reduzida para 155ms, o custo adicional de fazer isso é insignificante.
Latência antes e depois:

A arquitetura também tornou o sistema mais resiliente à variabilidade dos modelos. Enquanto modelos hospedados externamente podem desacelerar durante horas de pico, nossos modelos internos permanecem relativamente consistentes. A corrida dos modelos suaviza essa variabilidade, transformando o desempenho imprevisível de modelos individuais em um comportamento de sistema mais estável.
Por exemplo, quando um de nossos provedores de LLM sofreu uma interrupção no mês passado, as conversas continuaram sem problemas em nossos modelos auto-hospedados. Como já operamos essa infraestrutura para outros serviços, o custo adicional de computação é insignificante.
A reescrita de consultas RAG abaixo de 200ms remove um grande gargalo para agentes conversacionais. O resultado é um sistema que permanece tanto consciente do contexto quanto em tempo real, mesmo ao operar sobre grandes bases de conhecimento empresariais. Com a sobrecarga de recuperação reduzida a níveis quase insignificantes, agentes conversacionais podem escalar sem comprometer o desempenho.

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Supporting 10,000+ research conversations with natural, trustworthy voices
Desenvolvido por ElevenLabs Agentes