Apna、ElevenLabsを使用して750万分のAI面接を実現

インド全土の数百万の求職者のために人間らしい模擬面接を構築

Apna Blog 1x1.

インドでの面接準備は長い間、一般的で断片的で、多くの求職者にとってアクセスしにくいものでした。

Apna、インドの主要な求人・キャリアプラットフォームは、役割、会社、候補者に合わせてパーソナライズされた本物のような模擬面接を提供することで、それを変えようとしています。

6000万人以上のユーザーと10,000以上の企業、30,000以上の役割を持つApnaのビジョンは、単なるトレーニングモジュールを超えたものでした。それは、リアルなタイミング、共感、ドメインの深さを持つ会話を大規模に求めていました。

これを実現するために、ApnaはElevenLabsによって強化された最先端のAI面接エコシステムを構築しました。Text to Speech and Blue Machines’ voice orchestration platform. Together, these systems have delivered over 1.5 million AI interviews, totaling 7.5 million voice minutes, with sub-300 ms latency.

ApnaがElevenLabsを選んだ理由

面接シミュレーションを自然に感じさせるためには、音声の質と応答性が不可分です。聞こえる遅延やロボットのような音は没入感と信頼を損ないます。

ApnaがElevenLabsを選んだ3つの主な理由:

  • 低レイテンシーのストリーミングパフォーマンス - 応答は150〜180ms以内に再生を開始します。
  • 多言語対応 - インド英語、ヒンディー語、コードミックススピーチをシームレスに合成。
  • 感情のニュアンス - 人間の共感や挑戦を反映するトーンの調整。

これらの特性により、Apnaはリアルな会話のリズムを維持しながら、感情的な信頼性を大規模に保つことができます。

リアルタイムでの人間らしさの大規模オーケストレーション

これらのリアルなインタビューを実現するために、Apnaは複雑なオーケストレーションの課題を解決する必要がありました。リアルに感じられる模擬インタビューを提供するには、スクリプト化された対話以上のものが必要です。音声、遅延、共感、コンテキストを機械の速度で調和させる精密な同期が求められます。

各企業は異なる方法で面接を行います。プロダクトマネージャーの役割はメトリクスの推論でテストされるかもしれませんし、銀行のクレジットオフィサーの役割はコンプライアンスの論理で、eコマースプラットフォームのリードはルート最適化でテストされるかもしれません。

舞台裏では、ApnaのオーケストレーションプラットフォームであるBlue Machinesが、各役割×会社の交差点に対して、Retrieval-Augmented Generation(RAG)グラフを構築しました。Blue Machines built a Retrieval-Augmented Generation (RAG) graph for each role × company intersection: 

● 10,000以上の企業 × 50〜100の役割 = 約5億のマイクロモデル。
● 各モデルは企業固有のルーブリック、トーン、語彙に基づいています。

They integrated ElevenLabs’ streaming TTS directly into its conversational loop. Each turn begins with candidate speech, processed by multilingual ASR and NLU models, followed by workflow logic that evaluates intent, emotional tone, and role-specific context. The system then retrieves relevant domain data, composes the next question, and plays it back through ElevenLabs — all within roughly 300ミリ秒 エンドツーエンド。

「各合成応答はElevenLabsの低レイテンシーAPIのおかげで、ApnaとBlue Machinesのオーケストレーションレイヤーに直接統合され、約150〜180ms以内に再生を開始します」とApnaのCTO、Abhishek Ranjan氏は述べています。

At 300 ms, the human brain perceives speech as continuous rather than delayed - the threshold where realism begins. 

Function
Edge ingress
Regional gateways + smart routing
ASR + NLU
Streaming multilingual recognition
Workflow logic + persona
Role logic + empathy modulation
Context retrieval + evaluation
Domain data fetch + validation
TTS playback
ElevenLabs voice synthesis start
Total
Time (ms)
Edge ingress
30
ASR + NLU
90
Workflow logic + persona
40
Context retrieval + evaluation
40
TTS playback
100
Total
≈300 ms

The result is a system that balances technical precision with emotional depth. Thousands of interviews run concurrently across Indian English, Hindi, and code-mixed speech, each maintaining the rhythm, empathy, and credibility of a real human exchange.


Impact at scale

Result
Mock AI interviews conducted
1.5 million+
Voice minutes
7.5 million+
Average latency
<300 ms
Role–company models
500 million+

機会へのアクセスの平等化

A 24-year-old candidate from Pune shared:

AI面接官は私の履歴書を知っていて、ヒンディー語と英語を切り替え、本物のHDFC銀行のパネルのように私に挑戦しました。次の試みで仕事を得ることができました。

初めて、候補者は履歴書、会社、夢の役割に合わせた本当にリアルな面接を練習できます。

ApnaのAI面接準備は、音声技術がどのように機会を民主化できるかを示しています。かつては特権的な少数にしか提供されなかった準備を、数百万の求職者に提供します。

多くの人にとって、リアルな面接官との練習は、最初の人間の面接前に本当の自信を築きます。

リアルタイムの音声と適応的なコンテキスト、共感を組み合わせることで、Apnaは準備を参加に変え、背景や言語に関係なく、誰にでも成功する平等なチャンスを提供しています。

学習の次のフロンティアを開く

ApnaのAI面接準備は、AI駆動の学習と面接の次世代を定義します。

ElevenLabsのテキスト読み上げAPIによって強化されたリアルで応答性のある音声は、候補者にパーソナライズされたフィードバック、自然なタイミング、テキストベースの練習では提供できないバイリンガルの流暢さを体験させます。

このコラボレーションを通じて、Apnaはスケーラブルな学習がどのように聞こえるかを再定義し、音声ベースのAIが人間の機会を拡大できることを証明しました。

Apnaの成功は、高忠実度の音声が教育、雇用可能性、機会へのアクセスを国規模でどのように変革できるかを示しています。

会話型学習ツール、AI面接官、またはリアリズムと共感が重要なシステムを構築している場合、ElevenLabs Conversational Agents Platformで可能性を発見してください。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン