
Le Walk brings cities to life with ElevenLabs
Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session
Consejos de sistemas RAG sensibles a la latencia en producción
RAG mejora la precisión de los agentes de IA al basar las respuestas de LLM en grandes bases de conocimiento. En lugar de enviar toda la base de conocimiento al LLM, RAG incrusta la consulta, recupera la información más relevante y la pasa como contexto al modelo. En nuestro sistema, añadimos primero un paso de reescritura de consultas, colapsando el historial de diálogo en una consulta precisa y autónoma antes de la recuperación.
Para bases de conocimiento muy pequeñas, puede ser más sencillo pasar todo directamente al prompt. Pero una vez que la base de conocimiento crece, RAG se vuelve esencial para mantener las respuestas precisas sin sobrecargar el modelo.
Muchos sistemas tratan a RAG como una herramienta externa, sin embargo, lo hemos integrado directamente en la canalización de solicitudes para que se ejecute en cada consulta. Esto asegura una precisión constante pero también crea un riesgo de latencia.
La mayoría de las solicitudes de los usuarios hacen referencia a turnos anteriores, por lo que el sistema necesita colapsar el historial de diálogo en una consulta precisa y autónoma.
Por ejemplo:
La reescritura convierte referencias vagas como “esos límites” en consultas autónomas que los sistemas de recuperación pueden usar, mejorando el contexto y la precisión de la respuesta final. Pero depender de un único LLM alojado externamente creó una fuerte dependencia de su velocidad y tiempo de actividad. Este paso por sí solo representaba más del 80% de la latencia de RAG.
Rediseñamos la reescritura de consultas para que se ejecute como una carrera:
.webp&w=3840&q=95)
Esta nueva arquitectura redujo la latencia media de RAG a la mitad, de 326ms a 155ms. A diferencia de muchos sistemas que activan RAG selectivamente como una herramienta externa, lo ejecutamos en cada consulta. Con una latencia media reducida a 155ms, el costo adicional de hacerlo es insignificante.
Latencia antes y después:

La arquitectura también hizo que el sistema fuera más resistente a la variabilidad de los modelos. Mientras que los modelos alojados externamente pueden ralentizarse durante las horas de mayor demanda, nuestros modelos internos se mantienen relativamente consistentes. La carrera de modelos suaviza esta variabilidad, convirtiendo el rendimiento impredecible de modelos individuales en un comportamiento del sistema más estable.
Por ejemplo, cuando uno de nuestros proveedores de LLM experimentó una interrupción el mes pasado, las conversaciones continuaron sin problemas en nuestros modelos autoalojados. Dado que ya operamos esta infraestructura para otros servicios, el costo adicional de computación es insignificante.
La reescritura de consultas RAG por debajo de 200ms elimina un gran cuello de botella para los agentes conversacionales. El resultado es un sistema que sigue siendo consciente del contexto y en tiempo real, incluso cuando opera sobre grandes bases de conocimiento empresariales. Con la sobrecarga de recuperación reducida a niveles casi insignificantes, los agentes conversacionales pueden escalar sin comprometer el rendimiento.

Demand for digital tour guides rises with 10k+ tours taken and an average of 53 minutes listening time per session

Supporting 10,000+ research conversations with natural, trustworthy voices
Desarrollado por ElevenLabs Agentes