OpenAIボイスアシスタント

2024年5月13日 • 3 分で読めます

そしてAppleのiOS 18への統合の噂

OpenAIは新しいプロダクトでポートフォリオを拡大しており、その中でも特に注目されているのがボイスアシスタント技術です。音声を使って機械とやり取りする方法を革新することが期待されていますが、その広範な展開についてはまだ多くが明らかにされていません。

OpenAIは、音声、テキスト、画像認識機能を一つのプロダクトに統合する技術を開発していると言われています。この技術は、例えば子供の数学の宿題を手伝ったり、ユーザーに周囲の環境についての実用的な情報を提供したり、言語翻訳や車の修理ガイドを提供することができます。

OpenAIのボイスアシスタントとは？

噂のボイスアシスタントは、音声を通じて自然にユーザーと対話するように設計されています。自動音声認識（ASR）、大規模言語モデル（LLM）、Text to Speech（TTS）システムの進歩を活用しています。これらの技術の統合により、ボイスアシスタントは音声入力を理解し、文脈に応じて情報を処理し、自然で人間らしい声で応答します。

OpenAI is expected to demo a real-time voice assistant tomorrow. What does it take to deliver an immersive, or even magical experience?

Almost all voice AI go through 3 stages:
1. Speech recognition or "ASR": audio -> text1, think Whisper;
2. LLM that plans what to say next:… pic.twitter.com/q41KlGKM42
— Jim Fan (@DrJimFan) May 12, 2024

ほとんどの音声AIシステムは次の3つのステップを踏みます：

音声認識（「ASR」）：これは音声をテキストに変換します。例としてはWhisperがあります。
言語モデル処理：ここで、言語モデルが適切な応答を決定し、初期のテキストを応答テキストに変換します。
音声合成（「TTS」）：このステップでは、応答テキストを再び音声に変換します。ElevenLabsやVALL-Eのような技術が例です。

これらの3つのステージを厳密に守ると、重大な遅延が発生する可能性があります。ユーザーが各応答に5秒待たなければならない場合、やり取りが面倒で不自然になり、音声がリアルに聞こえてもユーザー体験が損なわれます。

効果的な自然対話は順次進行しません：

私たちは同時に考え、聞き、話します。
「はい」や「うーん」といった肯定を自然に挟みます。
誰かが話し終えるタイミングを予測し、すぐに応答します。
失礼にならないように中断したり、話をかぶせたりできます。
中断をスムーズに処理します。
複数人が関わる会話にも簡単に参加できます。

リアルタイム対話を強化するには、各ニューラルネットワークプロセスを高速化するだけでなく、システム全体の根本的な再設計が必要です。これらのコンポーネントの重なりを最大化し、リアルタイムで効果的に調整する方法を学ぶ必要があります。

OpenAI seems to be working on having phone calls inside of chatGPT. This is probably going to be a small part of the event announced on Monday.
(1/n) pic.twitter.com/KT8Hb54DwA
— Ananay (@ananayarora) May 11, 2024

AppleのiOSとのアプリケーションと潜在的な統合

Apparently, the Apple - OpenAI deal just closed! One day before the voice assistant announcement :)

Guess Apple decided that it couldn't make it on its own 🤷

The new Siri will be from OpenAI pic.twitter.com/Yfr6oCJiwQ
— Bindu Reddy (@bindureddy) May 13, 2024

この技術の潜在的な応用範囲は広く、個人やビジネスでの利用から、地域の言語でやり取りすることでコミュニティの健康労働者がより良いサービスを提供したり、発話障害を持つ人々を支援したりすることができます。

この技術がAppleのiOSのようなシステムに統合され、Siriよりもシームレスでインタラクティブなユーザー体験を提供する可能性があるという噂があります。しかし、そのような協力やボイスアシスタントの完全な機能については公式には確認されていません。

ElevenLabsの音声AI

高度なボイスアシスタントに欠かせないのは最先端の音声AIです。ElevenLabsのモデルは、文脈認識と高圧縮の独自手法を組み合わせ、さまざまな感情や言語で超リアルな自然な音声を提供します。私たちの文脈的テキスト読み上げモデルは、単語の関係を理解し、文脈に基づいて発話を調整します。また、ハードコーディングされた機能がないため、音声を生成する際に数千の音声特性を動的に予測できます。私たちのモデルは、長文や多言語の音声生成、または遅延に敏感なタスクなど、特定のアプリケーションに最適化されています。