Apna atteint 7,5 millions de minutes d'entretiens IA avec ElevenLabs

Créer des simulations d'entretiens réalistes pour des millions de chercheurs d'emploi en Inde

Apna Blog 1x1.

La préparation aux entretiens en Inde a longtemps été problématique - générique, déconnectée et inaccessible pour la plupart des chercheurs d'emploi.

Apna, la principale plateforme de recherche d'emploi et de carrière en Inde, a décidé de changer cela en rendant chaque simulation d'entretien aussi réaliste qu'un vrai - personnalisée pour chaque rôle, entreprise et candidat.

Avec plus de 60 millions d'utilisateurs et 10 000+ entreprises à travers 30 000+ rôles, la vision d'Apna nécessitait plus que des modules de formation. Elle demandait une conversation - un timing réaliste, de l'empathie et une profondeur de domaine - à grande échelle.

Pour y parvenir, Apna a conçu l'un des écosystèmes d'entretiens IA les plus avancés, propulsé par ElevenLabs Text to Speech and Blue Machines’ voice orchestration platform. Together, these systems have delivered over 1.5 million AI interviews, totaling 7.5 million voice minutes, with sub-300 ms latency.

Pourquoi Apna a choisi ElevenLabs

Pour que les simulations d'entretien paraissent naturelles, la qualité de la voix et la réactivité sont indissociables. Tout retard audible ou ton robotique brise l'immersion et la confiance.

Apna a choisi ElevenLabs pour trois raisons principales :

  • Performance de streaming à faible latence - les réponses commencent à être lues en 150–180 ms.
  • Capacité multilingue - synthèse fluide en anglais indien, hindi et discours mixte.
  • Nuance émotionnelle - modulation du ton qui reflète l'empathie et le défi humains.

Ces qualités permettent à Apna de préserver le rythme d'une vraie conversation tout en maintenant une crédibilité émotionnelle à grande échelle.

Orchestrer le réalisme humain en temps réel à grande échelle

Pour rendre ces interviews réalistes possibles, Apna a dû résoudre un défi d'orchestration complexe. Offrir une simulation d'entretien qui semble réelle nécessite plus qu'un dialogue scripté ; cela demande une précision synchronisée entre la voix, la latence, l'empathie et le contexte – le tout fonctionnant en harmonie à la vitesse de la machine.

Chaque entreprise mène ses entretiens différemment. Le rôle d'un chef de produit peut être évalué sur le raisonnement des métriques ; celui d'un responsable de crédit bancaire sur la logique de conformité ; et celui d'un responsable de plateforme e-commerce sur l'optimisation des itinéraires.

En coulisses, la plateforme d'orchestration d'Apna, Blue Machines, a construit un graphe de génération augmentée par récupération (RAG) pour chaque intersection rôle × entreprise :Blue Machines built a Retrieval-Augmented Generation (RAG) graph for each role × company intersection: 

● 10 000 + entreprises × 50–100 rôles = ~500 millions de micro-modèles.
● Chaque modèle ancré à des critères, un ton et un vocabulaire spécifiques à l'entreprise.

They integrated ElevenLabs’ streaming TTS directly into its conversational loop. Each turn begins with candidate speech, processed by multilingual ASR and NLU models, followed by workflow logic that evaluates intent, emotional tone, and role-specific context. The system then retrieves relevant domain data, composes the next question, and plays it back through ElevenLabs — all within roughly 300 millisecondes de bout en bout.

« Chaque réponse synthétisée commence à être lue en ~150–180 ms, grâce aux API à faible latence d'ElevenLabs intégrées directement dans la couche d'orchestration d'Apna et de Blue Machines », a déclaré Abhishek Ranjan, CTO, Apna

At 300 ms, the human brain perceives speech as continuous rather than delayed - the threshold where realism begins. 

Function
Edge ingress
Regional gateways + smart routing
ASR + NLU
Streaming multilingual recognition
Workflow logic + persona
Role logic + empathy modulation
Context retrieval + evaluation
Domain data fetch + validation
TTS playback
ElevenLabs voice synthesis start
Total
Time (ms)
Edge ingress
30
ASR + NLU
90
Workflow logic + persona
40
Context retrieval + evaluation
40
TTS playback
100
Total
≈300 ms

The result is a system that balances technical precision with emotional depth. Thousands of interviews run concurrently across Indian English, Hindi, and code-mixed speech, each maintaining the rhythm, empathy, and credibility of a real human exchange.


Impact at scale

Result
Mock AI interviews conducted
1.5 million+
Voice minutes
7.5 million+
Average latency
<300 ms
Role–company models
500 million+

Égaliser l'accès aux opportunités

A 24-year-old candidate from Pune shared:

L'intervieweur IA connaissait mon CV, passait de l'hindi à l'anglais, et me mettait au défi comme un vrai panel de la banque HDFC. J'ai décroché le poste à ma prochaine tentative.

Pour la première fois, les candidats peuvent s'entraîner à des entretiens qui semblent vraiment réels - adaptés à leur CV, entreprise et rôle de rêve.

La préparation aux entretiens IA d'Apna montre comment la technologie vocale peut démocratiser les opportunités - offrant à des millions de chercheurs d'emploi le même niveau de préparation autrefois réservé à quelques privilégiés.

Pour beaucoup, s'entraîner avec un intervieweur réaliste renforce la confiance avant leur premier entretien humain.

En combinant la voix en temps réel avec un contexte adaptatif et de l'empathie, Apna a transformé la préparation en participation - offrant à chacun, quel que soit son parcours ou sa langue, une chance égale de réussir.

Déverrouiller la prochaine frontière de l'apprentissage

La préparation aux entretiens IA d'Apna définit la prochaine génération d'apprentissage et d'entretiens pilotés par l'IA.

Des voix réalistes et réactives propulsées par l'API Text to Speech d'ElevenLabs permettent aux candidats de bénéficier de retours personnalisés, d'un timing naturel et d'une fluidité bilingue que la pratique textuelle ne pourrait jamais offrir.

Grâce à cette collaboration, Apna a redéfini ce à quoi ressemble l'apprentissage à grande échelle - prouvant que l'IA vocale peut étendre les opportunités humaines, sans les remplacer.

Le succès d'Apna démontre comment une voix haute fidélité peut transformer l'éducation, l'employabilité et l'accès aux opportunités à l'échelle nationale.

Si vous développez des outils d'apprentissage conversationnel, des intervieweurs IA, ou tout système où le réalisme et l'empathie comptent, découvrez ce qui est possible avec ElevenLabs Conversational Agents Platform.

Découvrez les articles de l'équipe ElevenLabs

ElevenLabs

Créez avec l'audio AI de la plus haute qualité.

Se lancer gratuitement

Vous avez déjà un compte ? Se connecter