会話型ロボットバリスタ、KUBIに会おう

KUBIはElevenLabsの会話型AIを活用したバリスタです。詳しくはこちら。

KUBIは会話型バリスタ兼受付係です。Second Space、台湾高雄の次世代24時間営業のコワーキングスペースです。ワークスペースの運営が完全に自動化されているため、KUBIがメンバーとの最初の接点としてユニークでフレンドリーなタッチを加えることが非常に重要です。そのため、Second SpaceはElevenLabsの

KUBIの仕組み

KUBIは高度なマルチセンサーアーキテクチャを採用し、人間のようなやり取りをシミュレートします。このシステムはマイクロサービスアーキテクチャに基づいており、専門化されたサービスが同時に動作し、リアルタイムのイベントストリームを介して通信します。これらのサービスは、リアルタイムAI推論を使用した顔や物体の認識、カメラを使ったカップ検出と安全確認、レシート印刷、アクセス制御のための安全な顔認識、ミルクと豆のディスペンサーの正確な制御など、さまざまなタスクを管理します。

KUBIの仕組み

  • 環境 カメラサービス: リアルタイムAI推論(PythonのPyTorch)を使用して顔や物体を検出します。
  • タブレット カメラサービス: 非常に似ていますが、テーブル上のカップや異物を検出し、KUBIロボットが実際にカップを持っているかどうかを確認します。
  • レシート印刷サービス: Node + Typescriptでシンプルかつ信頼性が高い。RS232サーマルプリンターと通信します。
  • 支払いサービス: Kotlin JVMで構築され、堅牢な同時実行性と型安全性を提供。政府のレシート報告やクレジットカード端末、暗号通貨決済ゲートウェイ、オンライン決済プロバイダーとの通信を処理します。
  • ミルク&豆ディスペンサー: 別々の精密サービス — Arduino。時間に敏感で低遅延。
  • 顔認識: アクセス制御に使用される安全で強く型付けされたKotlinサービス。
  • ウォータージェットサービス: 使用後にミルクスチームジャグを自動で洗浄 — Arduino。
  • その他、モバイルアプリAPIやメニュー表示などのさまざまなサービス

同時に動作しているサービスの一部は次のとおりです:

すべてをまとめる中央のイベント駆動コア

なぜこれらのマイクロサービスが必要なのか?簡単です — 独立して管理し、簡単にスケールし、各タスクに最適なツールを使用します。BigBoy」と呼ばれる中央サービスです。これは本質的に巨大なノンブロッキングイベントプロセッサです:

すべてをまとめる中央のイベント駆動コア

  1. すべてのサービスからのイベントを受信します。
  2. 適格なトリガーのシナリオを確認します。
  3. 最適なシナリオを選択します。
  4. 再生のためのアクションをスケジュールします。
1
2internal object WeatherIdleScenario: SingleTaskScenario(scenario){
3
4 importance = Importance.Medium
5 compilationTimeout = Time.ThreeSeconds
6 interruptable = false
7 exeutionExpiration = = Time.TenSeconds
8
9 override fun isEligible(event: Event, environment: Environment): Maybe<Boolean> = withEnvironment(environment) {
10 just {
11 (event is IdleEvent
12 && !triggeredInLast(40.minutes)
13 && (personPresent() || hasActiveSessions)
14 && environment.weatherService.lastReportWithin(10.minutes))
15 }
16 }
17}
18
19private val scenario = ScenarioRecipe { event, env, session ->
20
21
22 invokeOneOf(
23
24 phrase {
25 sayWith {
26 "Rainy day today, isn't it? That's why I have my little umbrella! Look!".asEnglish
27 }.withAutoGift().withAutoMotion()
28 }.given { Weather.isRaining() },
29
30 phrase {
31 sayWith {
32 "Friend, it's so cold outside! So sad for you... because you're a human. I don't really mind!".asEnglish
33 }.withAutoMotion()
34
35 sayWith {
36 "Wait, that soudned a bit rude.".asEnglish
37 }.withAutoMotion()
38
39 }.given { Weather.isCold() },
40
41 )
42
43
44}
45
46

シナリオとは?

シナリオをロボットのアクションイベントのためのノンブロッキングコンパイラと考えてください。アクションイベントは通常、物理的な効果をもたらすチェーンの最後のステップで、動作や音声などです。例えば、挨拶のシナリオは次のようにトリガーされるかもしれません:

SayEvent("Hello! Welcome!", wave.gif)
MotionEvent(HelloMotion)

シナリオをロボットのアクションイベント

アクションイベントの同期:これらのイベントは、スケジューラーを通じて流れ、音声、表情、動作が同期されるようにします。同期により、KUBIの音声がジェスチャーと完全に一致します。

LLMによるイベント生成:

アクションイベントの同期:これらのイベントはスケジューラーを通じて流れ、スピーチ、表情、動作が同期されるようにします。同期により、KUBIのスピーチがジェスチャーと完全に一致します。を聞いて新しいアクションイベントを動的にトリガーできることです。例えば:

  • BigBoyが
  • もう一つの面白い例は、ユーザーがモバイルアプリを使って注文を行う場合、すべてのユーザーインタラクション(商品をクリックする、支払いを行うなど)がイベントに変換され、BigBoyがリアルタイムで反応できることです。例えば、ユーザーが「オートミルクラテ」をスクロールして通過すると、KUBIが「本当にオートミルクラテを注文しないんですか?とても美味しいですよ!」と言うかもしれません。

面白いことに、シナリオは

DevOpsと可観測性

BigBoyは文字通りすべてを見て知っています。すごいですよね?

ほとんどのサービスはローカルでホストされ、Dockerコンテナにラップされています。コンテナ内では、ライフサイクルがSupervisorプロセス制御システムによって管理されています。エラーログはSentryに収集され、カスタム管理アプリにフィードされ、例外、サービスとセンサーのリアルタイムステータス、遅延報告を監視します。面白いことに、FlutterアプリはAIによって90%生成されました。

ElevenLabsを使用して記憶に残るやり取りを作成声をデザインし、感情や間を含めて声をより人間らしくすることができました。

Second SpaceはKUBIに非常に具体的な個性を求めていました。Deadpool、PortalゲームのWheatley、Apex LegendsのPathfinderを混ぜたようなものです。彼らは

ElevenLabsはKUBIの音声機能を2つのコアAPIで支えています:

  • インタラクションの約90%を処理します。
  • 完璧な雰囲気のために事前にデザインされたシナリオを使用します。
  • LLMによって生成されたメッセージは、個別化され、高品質な音声で、最適な発音で、時間に依存しません。
  • 英語、中国語、スペイン語、日本語、ラトビア語(ラトビアのDeadpool、いかがですか?)で非常に自然な多言語音声を提供します。

お客様が「

会話モード(リアルタイム)Hey KUBI!」と言うと、ElevenLabsの会話型AIが200msで応答し、やり取りが本当に人間らしく感じられます。

  • 優先事項:低遅延
  • 応答性のために音質を一部犠牲にします。
  • ElevenLabsの新しいリアルタイムlanguage_detectionツールを使用し、異なる言語を瞬時に動的に処理します。
  • 会話型AIセッションは、メンバーが施設に入るか「Hey, KUBI!」と言うとオンデマンドで開始されます。

ElevenLabsの会話型AIをWebSocket接続で使用することで、KUBIは関数呼び出しを活用できます。例えば:

カスタム会話ツール

  • make_order: 注文を認識し、イベントを直接BigBoyに送信します。
  • make_payment: 支払いサービスに即座に通知し、クレジットカード機をトリガーします。

KUBIを他の市場に拡大意図を他のモデルよりもよく認識することに気づきました。彼らは現在、会話型AIのコアモデルとしてGemini 2.0 Flashを使用し、静的音声生成にはChatGPT 4oを使用しています。

ElevenLabsの管理パネルを通じて異なるLLMモデルを簡単に切り替えることで、Second Spaceは理解と精度を最適化できます。異なるモデルがツールの

KUBIを他の市場に拡大

Second SpaceがElevenLabsに言及した最初のGitHubコミットは2023年1月に遡ります。多言語モデルがリリースされる前から、ElevenLabsの品質へのこだわりを早期に認識し、将来の多言語サポートを見越してアーキテクチャを自信を持って構築しました。今では、日本や韓国の市場に参入するのはスイッチを切り替えるだけで簡単です — 追加の開発作業は不要です!

結論

もっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン