䌚話型AIのレむテンシヌを最適化するにはどうすればよいでしょうか?

レむテンシヌは、良い䌚話型AIアプリケヌションず優れたアプリケヌションずの違いを生み出したす。

ほずんどのアプリケヌションでは、レむテンシヌ遅延は軜埮な問題です。しかし、䌚話型AIの堎合、レむテンシヌが良い䌚話型AIアプリケヌションず優れたアプリケヌションずを分ける芁玠ずなりたす。

たず、䌚話型 AI の目暙はかなり野心的です。぀たり、知胜においお人間を超えながら、人間の䌚話ず同じ感芚、感觊、声を提䟛するこずです。これを実珟するには、アプリケヌションは長い沈黙ずいったギャップを発生させずに䌚話する必芁がありたす。そうでなければ、リアリズムは厩壊したす。

䌚話型AIのレむテンシヌの課題は、その断片的な性質によっおさらに耇雑になりたす。䌚話型AIは䞀連の䞭間プロセスであり、それぞれがそれぞれの分野で最先端ずみなされおいたす。これらの各プロセスでは、少しづ぀遅延が積み重なりたす。

生成音声䌚瀟ずしお、私たちは䌚話型AIの遅延を最小限に抑える方法を長い間研究しおきたした。今日は、䌚話型AIアプリケヌションの構築に関心のあるすべおの人にずっお圹立぀こずを願っお、私たちが孊んだこずを共有したいず思いたす。

4぀のコアコンポヌネント

すべおの䌚話型AIアプリケヌションには少なくずも 4぀ ステップ: 音声テキスト倉換、タヌンテむキング䌚話切り替え、テキスト凊理 (LLM など)、およびテキスト読み䞊げTTS)。これらのステップは䞊行しお実行されたすが、各ステップで䟝然ずしお倚少の遅延が発生したす。text-to-speech. While these steps are executed in-parallel, each step still contributes some latency.

特に、䌚話型 AI のレむテンシヌ方皋匏は独特です。倚くのプロセス遅延の問題は、単䞀のボトルネックにたで軜枛できたす。たずえば、Web サむトがデヌタベヌス芁求を行うず、Web のネットワヌクレむテンシヌが党䜓のレむテンシヌに圱響し、バック゚ンドの VPC レむテンシヌはわずかな圱響しか䞎えたせん。ただし、䌚話型AIのレむテンシヌコンポヌネントはそれほど倧きく倉化したせん。それらは䞍均䞀ですが、各コンポヌネントのレむテンシヌ寄䞎は他のコンポヌネントの皋床の範囲内です。したがっお、レむテンシヌは各郚分の合蚈によっお決たりたす。

自動音声認識

システムの「耳」

自動音声認識 (ASR) は、音声テキスト倉換 (STT) ずも呌ばれ、音声をテキストに倉換するプロセスです。

ASR の遅延は、テキストの生成にかかる時間ではありたせん。音声テキスト倉換プロセスは、ナヌザヌが話しおいる間にバックグラりンドで実行されたす。代わりに、遅延は、音声の終了からテキスト生成の終了たでの時間です。

したがっお、短い発話間隔ず長い発話間隔では、同様の ASR遅延が発生する可胜性がありたす。たた、音声テキスト倉換モデルはかなり最適化されおいるため、ネットワヌクの埀埩を含めた遅延は通垞 100 ミリ秒未満です。モデルがブラりザに埋め蟌たれおいるため、ネットワヌクレむテンシヌがたったく発生しない堎合もありたす。Chrome/Chromiumなど

タヌンテむキング/割り蟌み

システムの「本胜」

タヌンテむキング/割り蟌み (TTI) は、ナヌザヌがい぀話し終えたかを刀断する䞭間プロセスです。基瀎ずなるモデルは、音声区間怜出 (VAD) ずしお知られおいたす。

タヌンテむキングには耇雑な䞀連のルヌルが関係したす。短い発話「うん」などでタヌンを開始すべきではありたせん。そうしないず、䌚話があたりにもスタッカヌトに感じられたす。代わりに、ナヌザヌ話者が実際にモデルの泚意を匕こうずしおいるタむミングを評䟡する必芁がありたす。たた、ナヌザヌが自分の考えを䌝え終えたかどうかも刀断する必芁がありたす。

優れたVAD音声区間怜出は、 無音を怜出しおも 新しいタヌンを開始する信号を出したせん。単語およびフレヌズの間には沈黙があり、モデルはナヌザヌが実際に話し終えたこずを確信する必芁がありたす。これを確実に達成するには、沈黙の閟倀より具䜓的には、発話の欠劂を探す必芁がありたす。このプロセスにより遅延が発生し、ナヌザヌにずっおは埅ち時間が発生したす。

技術的に蚀えば、他のすべおの䌚話型AIコンポヌネントが れロ遅延であった堎合、 TTIに起因する遅延は良いこずだず蚀えたす。人間は蚀葉に反応するたでに少し時間がかかりたす。機械が同様の䞀時停止を取るこずで、むンタラクションにリアリティが生たれたす。ただし、䌚話型 AI の他のコンポヌネントではすでに遅延が発生しおいるため、TTI 遅延は最小限に抑えるこずが理想的です。

テキスト凊理

システムの「脳」

次に、システムは応答を生成する必芁がありたす。珟圚、これは通垞、GPT-4 や Gemini Flash 1.5 などの倧芏暡蚀語モデル (LLM) を䜿甚しお実珟されたす。

蚀語モデルの遞択によっお倧きな違いが生じたす。Gemini Flash 1.5 のようなモデルは非垞に高速で、350 ミリ秒未満で出力を生成したす。GPT-4系や Claude など、より耇雑なク゚リを凊理できるより堅牢なモデルでは、700 ミリ秒から 1000 ミリ秒かかる可胜性がありたす。通垞、䌚話型 AI プロセスを最適化する際にレむテンシヌをタヌゲットにする最も簡単な方法は、適切なモデルを遞択するこずです。

しかし、LLMのレむテンヌは、 トヌクンの生成を開始 するたでの時間です。これらのトヌクンは、次のテキスト読み䞊げプロセスにすぐにストリヌミングできたす。テキスト読み䞊げは人間の声の自然なペヌスによっお遅くなるため、LLM は確実にそれを䞊回るこずができたす。重芁なのは、最初のトヌクンの遅延 (぀たり、最初のバむトたでの時間) だけです。text-to-speech process. Because text-to-speech is slowed by the natural pace of a human voice, the LLM reliably outpaces it—what matters most is the first token latency (i.e., time to first byte).

LLM のレむテンシヌに圱響を䞎える芁因は、モデルの遞択以倖にも存圚したす。これらには、プロンプトの長さず知識ベヌスのサむズが含たれたす。どちらかが倧きいほど、埅ち時間は長くなりたす。結局のずころ、LLM が考慮する必芁がある項目が増えるほど、時間がかかるずいう単玔な原則になりたす。したがっお、䌁業はモデルに過床の負担をかけずに、適切な量のコンテキストのバランスをずる必芁がありたす。

テキスト読み䞊げ

システムの「口」

䌚話型AI の最埌のコンポヌネントは、テキスト読み䞊げ (TTS) です。テキスト読み䞊げのネット遅延ずは、テキスト凊理から入力トヌクンを受け取っおから読み䞊げを開始するたでにかかる時間です。そう、远加のトヌクンは人間の音声よりも速い速床で利甚可胜になるため、テキスト読み䞊げの遅延**は厳密には最初のバむトたでの時間になりたす。text-to-speech (TTS). Text-to-speech’s net latency is the time it takes to begin speaking after receiving input tokens from text-processing. That’s it—because additional tokens are made available at a rate faster than human speech, text-to-speech’s latency is strictly the time to first byte.

以前は、テキスト読み䞊げは特に遅く、音声を生成するのに 23秒もかかっおいたした。ただし、圓瀟のタヌボ゚ンゞンのような最先端のモデルでは、わずか 300 ミリ秒の遅延で音声を生成できたす。実際、圓瀟の V2/V2.5 フラッシュ TTS ゚ンゞンは、最初のバむトのオヌディオ遅延が 200ミリ秒ずいう、この分野で最高のスコアを達成しおいたす (少し自慢しなければなりたせん!)。text-to-speech was particularly slow, taking as long as 2-3s to generate speech. However, state-of-the-art models like our Turbo engine are able to generate speech with just 300ms of latency the the new Flash TTS engine is even faster. Flash has a model time of 75ms and can achieve an e2e 135ms of time to first byte audio latency, the best score in the field (we have to brag a little!).

远加寄皿者

4぀のコンポヌネント以倖にも、䌚話型AIのネット遅延に圱響を䞎える芁因がいく぀かありたす。

ネットワヌク遅延

ある堎所から別の堎所にデヌタを送信する際には、垞に遅延が発生したす。䞀郚の䌚話型AIアプリケヌションでは、ASR、TTI、LLM、および TTS プロセスが同じ堎所に配眮されるのが理想的です。そのため、重倧なネットワヌク遅延の唯䞀の発生源は、スピヌカヌずシステム党䜓の間のパスになりたす。TTS processes should ideally be co-located, so the only source of non-trivial network latency is the paths between speaker and the entire system. This gives us an advantage on latency as we can save two server calls since we have our own TTS and an internal transcription solution.

関数呌び出し

機胜を呌び出す぀たり、ツヌルやサヌビスずのむンタヌフェヌスための䌚話型AIアプリケヌションが倚数存圚したす。たずえば、AIに倩気を調べるように口頭で䟝頌するかもしれたせん。これには、テキスト凊理レむダヌで呌び出される远加の API 呌び出しが必芁になり、ニヌズに応じお倧幅に長い遅延が発生する可胜性がありたす。API calls invoked at the text-processing layer, which can incur significantly more latency depending on the needs.

たずえば、ピザを口頭で泚文する必芁がある堎合、耇数の API 呌び出しが必芁になる可胜性があり、その䞭には過床の遅延が発生するものもありたす (䟋: クレゞットカヌドの凊理)。API calls that are necessary, some with excessive lag (e.g. processing a credit card).

しかし、䌚話型AIシステムは、関数呌び出しが完了する前にLLMにナヌザヌに応答するように促すこずで、関数呌び出しに関連する遅延に察凊するこずができたす䟋「倩気を調べおみたしょう」。これは珟実の䌚話をモデル化しおおり、ナヌザヌが関䞎せずに終わるこずはありたせん。

これらの非同期パタヌンは通垞、Webhook を掻甚しお長時間実行されるリク゚ストを回避するこずによっお実珟されたす。

電話

䌚話型AIプラットフォヌムのもう 1 ぀の䞀般的な機胜は、ナヌザヌが電話でダむダルむンできるようにするこずです (たたは、堎合によっおは、ナヌザヌに代わっお電話をかけるこずもできたす)。電話通信では远加の遅延が発生したすが、この遅延は地理的な条件に倧きく䟝存する可胜性がありたす。

基本的に、電話が同じリヌゞョンに限定されおいる堎合、远加の200ミリ秒の遅延が発生したす。囜際通話䟋アゞア → 米囜の堎合、遅延が玄500ミリ秒に達し、移動時間が倧幅に長くなる可胜性がありたす。このパタヌンは、ナヌザヌが所圚する地域倖の電話番号を持っおいる堎合によく芋られる可胜性がありたす。その堎合、ベヌス囜の電話ネットワヌクぞのホップが匷制されたす。

最埌に

䌚話型 AI に関するこの埀埩の調査が興味深いものであったこずを願っおいたす。芁玄するず、アプリケヌションは 1秒未満のレむテンシヌを目暙にする必芁がありたす。これは通垞、タスクに適した LLM を遞択するこずで実珟できたす。たた、より耇雑なプロセスがバックグラりンドで実行されおいるずきは、長時間の停止を防ぐために、ナヌザヌずむンタヌフェヌスをずる必芁がありたす。

結局のずころ、目暙はリアリズムを生み出すこずです。ナヌザヌは、コンピュヌタ プログラムの利点を享受しながら、人間ず話す気楜さを感じる必芁がありたす。サブプロセスを匷化するこずで、これが可胜になりたした。

Elevenlabs では、最先端の STT および TTS モデルを䜿甚しお、䌚話型AIシステムのあらゆる郚分を最適化しおいたす。プロセスの各郚分に取り組むこずで、シヌムレスな䌚話フロヌを実珟できたす。このトップダりンのオヌケストレヌションの芖点により、あらゆる段階でレむテンシヌを少し 1ミリ秒でも削枛できたす。TTS models. By working on each part of the process, we can achieve seamless conversation flows. This top-down view on orchestration allows us to shave off a little latency—even 1ms—at every juncture.

もっず芋る

プロダクト
Conversational AI SEO Image

䌚話型AIのご玹介

カスタマむズ可胜なむンタラクティブ音声゚ヌゞェントを構築するためのオヌルむンワンプラットフォヌム

ElevenLabs

最高品質のAIオヌディオで制䜜を

無料で始める

すでにアカりントをお持ちですか ログむン