Apna atteint 7,5 millions de minutes d'entretiens IA avec ElevenLabs

Rédigé par: Tauseef Khan; Ruta Bhatt
Publié: 7 nov. 2025

ÉcouterÉcouter cet article

0:00

0:000:00

La préparation aux entretiens en Inde a longtemps été problématique - générique, déconnectée et inaccessible pour la plupart des chercheurs d'emploi.

Apna, la principale plateforme de recherche d'emploi et de carrière en Inde, a décidé de changer cela en rendant chaque simulation d'entretien aussi réaliste qu'un vrai - personnalisée pour chaque rôle, entreprise et candidat.

Avec plus de 60 millions d'utilisateurs et 10 000+ entreprises à travers 30 000+ rôles, la vision d'Apna nécessitait plus que des modules de formation. Elle demandait une conversation - un timing réaliste, de l'empathie et une profondeur de domaine - à grande échelle.

Pour y parvenir, Apna a conçu l'un des écosystèmes d'entretiens IA les plus avancés, propulsé par ElevenLabs Text to Speech and Blue Machines’ voice orchestration platform. Together, these systems have delivered over 1.5 million AI interviews, totaling 7.5 million voice minutes, with sub-300 ms latency.

Pourquoi Apna a choisi ElevenLabs

Pour que les simulations d'entretien paraissent naturelles, la qualité de la voix et la réactivité sont indissociables. Tout retard audible ou ton robotique brise l'immersion et la confiance.

Apna a choisi ElevenLabs pour trois raisons principales :

Performance de streaming à faible latence - les réponses commencent à être lues en 150–180 ms.
Capacité multilingue - synthèse fluide en anglais indien, hindi et discours mixte.
Nuance émotionnelle - modulation du ton qui reflète l'empathie et le défi humains.

Ces qualités permettent à Apna de préserver le rythme d'une vraie conversation tout en maintenant une crédibilité émotionnelle à grande échelle.

Orchestrer le réalisme humain en temps réel à grande échelle

Pour rendre ces interviews réalistes possibles, Apna a dû résoudre un défi d'orchestration complexe. Offrir une simulation d'entretien qui semble réelle nécessite plus qu'un dialogue scripté ; cela demande une précision synchronisée entre la voix, la latence, l'empathie et le contexte – le tout fonctionnant en harmonie à la vitesse de la machine.

Chaque entreprise mène ses entretiens différemment. Le rôle d'un chef de produit peut être évalué sur le raisonnement des métriques ; celui d'un responsable de crédit bancaire sur la logique de conformité ; et celui d'un responsable de plateforme e-commerce sur l'optimisation des itinéraires.

En coulisses, la plateforme d'orchestration d'Apna, Blue Machines, a construit un graphe de génération augmentée par récupération (RAG) pour chaque intersection rôle × entreprise :Blue Machines built a Retrieval-Augmented Generation (RAG) graph for each role × company intersection:

● 10 000 + entreprises × 50–100 rôles = ~500 millions de micro-modèles.
● Chaque modèle ancré à des critères, un ton et un vocabulaire spécifiques à l'entreprise.

They integrated ElevenLabs’ streaming TTS directly into its conversational loop. Each turn begins with candidate speech, processed by multilingual ASR and NLU models, followed by workflow logic that evaluates intent, emotional tone, and role-specific context. The system then retrieves relevant domain data, composes the next question, and plays it back through ElevenLabs — all within roughly 300 millisecondes de bout en bout.

« Chaque réponse synthétisée commence à être lue en ~150–180 ms, grâce aux API à faible latence d'ElevenLabs intégrées directement dans la couche d'orchestration d'Apna et de Blue Machines », a déclaré Abhishek Ranjan, CTO, Apna

At 300 ms, the human brain perceives speech as continuous rather than delayed - the threshold where realism begins.

Function

Edge ingress

Regional gateways + smart routing

ASR + NLU

Streaming multilingual recognition

Workflow logic + persona

Role logic + empathy modulation

Context retrieval + evaluation

Domain data fetch + validation

TTS playback

ElevenLabs voice synthesis start

Total

—

Time (ms)

Edge ingress

ASR + NLU

Workflow logic + persona

Context retrieval + evaluation

TTS playback

100

Total

≈300 ms

Stage

Function

Time (ms)

Edge ingress

Regional gateways + smart routing

ASR + NLU

Streaming multilingual recognition

Workflow logic + persona

Role logic + empathy modulation

Context retrieval + evaluation

Domain data fetch + validation

TTS playback

ElevenLabs voice synthesis start

100

Total

—

≈300 ms

The result is a system that balances technical precision with emotional depth. Thousands of interviews run concurrently across Indian English, Hindi, and code-mixed speech, each maintaining the rhythm, empathy, and credibility of a real human exchange.

Impact at scale

Result

Mock AI interviews conducted

1.5 million+

Voice minutes

7.5 million+

Average latency

<300 ms

Role–company models

500 million+

Metrics

Result

Mock AI interviews conducted

1.5 million+

Voice minutes

7.5 million+

Average latency

<300 ms

Role–company models

500 million+

Égaliser l'accès aux opportunités

A 24-year-old candidate from Pune shared:

L'intervieweur IA connaissait mon CV, passait de l'hindi à l'anglais, et me mettait au défi comme un vrai panel de la banque HDFC. J'ai décroché le poste à ma prochaine tentative.

Pour la première fois, les candidats peuvent s'entraîner à des entretiens qui semblent vraiment réels - adaptés à leur CV, entreprise et rôle de rêve.

La préparation aux entretiens IA d'Apna montre comment la technologie vocale peut démocratiser les opportunités - offrant à des millions de chercheurs d'emploi le même niveau de préparation autrefois réservé à quelques privilégiés.

Pour beaucoup, s'entraîner avec un intervieweur réaliste renforce la confiance avant leur premier entretien humain.

En combinant la voix en temps réel avec un contexte adaptatif et de l'empathie, Apna a transformé la préparation en participation - offrant à chacun, quel que soit son parcours ou sa langue, une chance égale de réussir.

Déverrouiller la prochaine frontière de l'apprentissage

La préparation aux entretiens IA d'Apna définit la prochaine génération d'apprentissage et d'entretiens pilotés par l'IA.

Des voix réalistes et réactives grâce à ElevenLabs

Grâce à cette collaboration, Apna a redéfini ce à quoi ressemble l'apprentissage à grande échelle - prouvant que l'IA vocale peut étendre les opportunités humaines, sans les remplacer.

Le succès d'Apna démontre comment une voix haute fidélité peut transformer l'éducation, l'employabilité et l'accès aux opportunités à l'échelle nationale.

Si vous développez des outils d'apprentissage conversationnel, des intervieweurs IA, ou tout système où le réalisme et l'empathie comptent, découvrez ce qui est possible avec Plateforme d’agents conversationnels ElevenLabs.

Apna atteint 7,5 millions de minutes d'entretiens IA avec ElevenLabs

Pourquoi Apna a choisi ElevenLabs

Orchestrer le réalisme humain en temps réel à grande échelle

Impact at scale

Égaliser l'accès aux opportunités

Déverrouiller la prochaine frontière de l'apprentissage

Articles similaires

Meesho offre un support client multilingue en temps réel avec des agents vocaux

Cars24 utilise les Agents ElevenLabs pour gérer la plus grande opération de vente automobile vocale en Inde

Zen Educate propose un accompagnement après les heures de bureau pour les enseignants grâce à ElevenAgents

Résumé du webinaire : Comment Nana utilise les agents IA pour transformer l’expérience client