Apna escala 7.5 millones de minutos de entrevistas con IA usando ElevenLabs

Creando entrevistas simuladas realistas para millones de buscadores de empleo en toda India

Apna Blog 1x1.

La preparación para entrevistas en India ha estado rota durante mucho tiempo: genérica, desconectada e inaccesible para la mayoría de los buscadores de empleo.

Apna, la principal plataforma de búsqueda de empleo y carreras de India, se propuso cambiar eso haciendo que cada entrevista simulada se sienta real, personalizada para cada rol, empresa y candidato.

Con más de 60 millones de usuarios y 10,000+ empresas en más de 30,000 roles, la visión de Apna requería más que módulos de entrenamiento. Demandaba conversación: sincronización realista, empatía y profundidad de dominio a gran escala.

Para lograr esto, Apna diseñó uno de los ecosistemas de entrevistas con IA más avanzados, impulsado por ElevenLabs Texto a Voz and Blue Machines’ voice orchestration platform. Together, these systems have delivered over 1.5 million AI interviews, totaling 7.5 million voice minutes, with sub-300 ms latency.

Por qué Apna eligió ElevenLabs

Para que las simulaciones de entrevistas se sientan naturales, la calidad de la voz y la capacidad de respuesta son inseparables. Cualquier retraso audible o tono robótico rompe la inmersión y la confianza.

Apna seleccionó ElevenLabs por tres razones principales:

  • Rendimiento de transmisión de baja latencia - las respuestas comienzan a reproducirse en 150–180 ms.
  • Capacidad multilingüe - síntesis fluida en inglés indio, hindi y habla mixta.
  • Matiz emocional - modulación de tono que refleja empatía y desafío humano.

Estas cualidades permiten a Apna preservar el ritmo de una conversación real mientras mantiene la credibilidad emocional a gran escala.

Orquestando realismo humano en tiempo real a gran escala

Para hacer posibles estas entrevistas realistas, Apna tuvo que resolver un desafío complejo de orquestación. Ofrecer una entrevista simulada que se sienta real requiere más que un diálogo guionizado; necesita una precisión sincronizada en voz, latencia, empatía y contexto, todo funcionando en armonía a velocidad de máquina.

Cada empresa entrevista de manera diferente. El rol de un product manager podría evaluarse en razonamiento de métricas; el de un oficial de crédito bancario en lógica de cumplimiento; y el de un líder de plataforma de comercio electrónico en optimización de rutas.

Detrás de escena, la plataforma de orquestación de Apna, Blue Machines, creó un gráfico de Generación Aumentada por Recuperación (RAG) para cada intersección de rol × empresa:Blue Machines built a Retrieval-Augmented Generation (RAG) graph for each role × company intersection: 

● 10 000 + empresas × 50–100 roles = ~500 millones de micro-modelos.
● Cada modelo anclado a rúbricas, tono y vocabulario específicos de la empresa.

They integrated ElevenLabs’ streaming TTS directly into its conversational loop. Each turn begins with candidate speech, processed by multilingual ASR and NLU models, followed by workflow logic that evaluates intent, emotional tone, and role-specific context. The system then retrieves relevant domain data, composes the next question, and plays it back through ElevenLabs — all within roughly 300 milisegundos de extremo a extremo.

“Cada respuesta sintetizada comienza a reproducirse en ~150–180 ms, gracias a las APIs de baja latencia de ElevenLabs integradas directamente en Apna y la capa de orquestación de Blue Machines”, dijo Abhishek Ranjan, CTO, Apna

At 300 ms, the human brain perceives speech as continuous rather than delayed - the threshold where realism begins. 

Function
Edge ingress
Regional gateways + smart routing
ASR + NLU
Streaming multilingual recognition
Workflow logic + persona
Role logic + empathy modulation
Context retrieval + evaluation
Domain data fetch + validation
TTS playback
ElevenLabs voice synthesis start
Total
Time (ms)
Edge ingress
30
ASR + NLU
90
Workflow logic + persona
40
Context retrieval + evaluation
40
TTS playback
100
Total
≈300 ms

The result is a system that balances technical precision with emotional depth. Thousands of interviews run concurrently across Indian English, Hindi, and code-mixed speech, each maintaining the rhythm, empathy, and credibility of a real human exchange.


Impact at scale

Result
Mock AI interviews conducted
1.5 million+
Voice minutes
7.5 million+
Average latency
<300 ms
Role–company models
500 million+

Igualando el acceso a oportunidades

A 24-year-old candidate from Pune shared:

El entrevistador con IA conocía mi currículum, cambiaba entre hindi e inglés, y me desafiaba como un panel real del banco HDFC. Conseguí el trabajo en mi siguiente intento.

Por primera vez, los candidatos pueden practicar entrevistas que se sienten realmente reales, adaptadas a su currículum, empresa y rol soñado.

La preparación de entrevistas con IA de Apna muestra cómo la tecnología de voz puede democratizar las oportunidades, dando a millones de buscadores de empleo el mismo nivel de preparación que antes estaba reservado para unos pocos privilegiados.

Para muchos, practicar con un entrevistador realista construye una confianza real antes de su primera entrevista humana.

Al combinar voz en tiempo real con contexto adaptativo y empatía, Apna ha convertido la preparación en participación, dando a todos, independientemente de su origen o idioma, una oportunidad igual de éxito.

Desbloqueando la próxima frontera del aprendizaje

La preparación de entrevistas con IA de Apna define la próxima generación de aprendizaje e entrevistas impulsadas por IA.

Voces realistas y receptivas impulsadas por la API de Texto a Voz de ElevenLabs permiten a los candidatos experimentar retroalimentación personalizada, sincronización natural y fluidez bilingüe que la práctica basada en texto nunca podría ofrecer.

A través de esta colaboración, Apna ha redefinido cómo suena el aprendizaje escalable, demostrando que la IA basada en voz puede extender las oportunidades humanas, no reemplazarlas.

El éxito de Apna demuestra cómo la voz de alta fidelidad puede transformar la educación, la empleabilidad y el acceso a oportunidades a escala nacional.

Si estás creando herramientas de aprendizaje conversacional, entrevistadores con IA o cualquier sistema donde el realismo y la empatía importen, descubre lo que es posible con ElevenLabs Conversational Agents Platform.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión