मिलिए KUBI से, कन्वर्सेशनल रोबोट बारिस्ता

KUBI एक कन्वर्सेशनल बारिस्ता है जो ElevenLabs के कन्वर्सेशनल AI के साथ काम करता है। जानिए कैसे।

KUBI is a conversational barista and receptionist at Second Space, जो कि काओशुंग, ताइवान में एक अगली पीढ़ी का 24/7 को-वर्किंग स्पेस है। चूंकि वर्कस्पेस का संचालन पूरी तरह से ऑटोमेटेड है, इसलिए KUBI के लिए — सदस्यों के साथ पहली बातचीत के रूप में — एक अनोखा दोस्ताना स्पर्श जोड़ना बहुत महत्वपूर्ण है। यही कारण है कि सेकंड स्पेस ने ElevenLabs के

How KUBI works

KUBI employs a sophisticated multi-sensory architecture to simulate human-like interaction. The system hinges on a microservices architecture, where specialized services operate concurrently and communicate via a real-time event stream. These services manage various tasks, including facial and object recognition using real-time AI inference, cup detection and sanity checks via cameras, receipt printing, secure facial recognition for access control, and precise control of milk and bean dispensers.

KUBI कैसे काम करता है

  • Environment Camera Service: Uses real-time AI inference (PyTorch in Python) to spot faces and objects.
  • Tablet Camera Service: Very similar, but detects cups on the table, and foreign objects and verifies sanity - such as, if KUBI robot is actually holding a cup.
  • Receipt Printing Service: Simple and reliable with Node + Typescript. Talks to an RS232 thermal printer.
  • Payment Service: Built with Kotlin JVM for solid concurrency and type safety. Handles government receipt reporting and communications with a credit card terminal, crypto payments gateway or online payments providers. 
  • Milk & Bean Dispensers: अलग-अलग सटीक सेवाएं — Arduino। समय-संवेदनशील, कम विलंबता।
  • Facial Recognition: Secure and strongly typed Kotlin Service, used for access control.
  • Water Jet Service: उपयोग के बाद दूध स्टीमिंग जग को स्वचालित रूप से साफ करता है — Arduino।
  • And various other services e.g. for mobile app API, menu display etc…

ये कुछ सेवाएं हैं जो एक साथ चल रही हैं:

A central event-drive core to tie it all together

सभी इन माइक्रोसर्विसेज का क्या फायदा? आसान — हम उन्हें स्वतंत्र रूप से प्रबंधित करते हैं, आसानी से स्केल करते हैं, और प्रत्येक कार्य के लिए सर्वोत्तम उपकरणों का उपयोग करते हैं।"BigBoy". It’s essentially a giant, non-blocking event processor:

इसे सब एक साथ जोड़ने के लिए एक केंद्रीय इवेंट-ड्राइव कोर

  1. Listens to incoming events from all services.
  2. Checks scenarios for eligible triggers.
  3. Selects the best scenario.
  4. Schedules actions for playback.
1
2internal object WeatherIdleScenario: SingleTaskScenario(scenario){
3
4 importance = Importance.Medium
5 compilationTimeout = Time.ThreeSeconds
6 interruptable = false
7 exeutionExpiration = = Time.TenSeconds
8
9 override fun isEligible(event: Event, environment: Environment): Maybe<Boolean> = withEnvironment(environment) {
10 just {
11 (event is IdleEvent
12 && !triggeredInLast(40.minutes)
13 && (personPresent() || hasActiveSessions)
14 && environment.weatherService.lastReportWithin(10.minutes))
15 }
16 }
17}
18
19private val scenario = ScenarioRecipe { event, env, session ->
20
21
22 invokeOneOf(
23
24 phrase {
25 sayWith {
26 "Rainy day today, isn't it? That's why I have my little umbrella! Look!".asEnglish
27 }.withAutoGift().withAutoMotion()
28 }.given { Weather.isRaining() },
29
30 phrase {
31 sayWith {
32 "Friend, it's so cold outside! So sad for you... because you're a human. I don't really mind!".asEnglish
33 }.withAutoMotion()
34
35 sayWith {
36 "Wait, that soudned a bit rude.".asEnglish
37 }.withAutoMotion()
38
39 }.given { Weather.isCold() },
40
41 )
42
43
44}
45
46

What are scenarios?

Think of scenarios as non-blocking compilers for robot action events. An action event is usually the most downstream event, that is the last step in a chain, resulting in a physical effect, such as motion or speech. For instance, a greeting scenario might trigger:

SayEvent("Hello! Welcome!", wave.gif)
MotionEvent(HelloMotion)

परिदृश्यों को रोबोट के लिए नॉन-ब्लॉकिंग कंपाइलर्स के रूप में सोचें क्रिया इवेंट्स

Synchronization of action events: These events then flow through a scheduler that ensures speech, facial expressions, and motions stay synchronized. Synchronization ensures KUBI’s speech matches its gestures perfectly.

LLM के साथ इवेंट जनरेशन:

क्रिया इवेंट्स का समन्वय: ये इवेंट्स फिर एक शेड्यूलर के माध्यम से प्रवाहित होते हैं जो सुनिश्चित करता है कि भाषण, चेहरे के भाव और गति समन्वित रहें। समन्वय यह सुनिश्चित करता है कि KUBI का भाषण उसकी इशारों से पूरी तरह मेल खाता है। and trigger new action events dynamically. For example:

  • यदि BigBoy
  • Another cool example is - if the user chooses our Mobile App to make an order, all user interactions (clicking on a product, making a payment etc) are converted into events and BigBoy can also react in real-time. For instance, if the user scrolls past “Oatmilk Latte”, KUBI might say “Are you sure you don’t want that Oatmilk Latte? It’s really good!”

मजेदार बात यह है कि, परिदृश्य भी

DevOps and Observability

बिगबॉय सचमुच सब कुछ देखता और जानता है। काफी अच्छा, है ना?

अधिकांश सेवाएं स्थानीय रूप से होस्ट की जाती हैं और एक डॉकर कंटेनर में लपेटी जाती हैं। कंटेनर में, उनके जीवनचक्र को सुपरवाइज़र प्रोसेस कंट्रोल सिस्टम द्वारा प्रबंधित किया जाता है। त्रुटि लॉग्स Sentry में एकत्र किए जाते हैं और किसी भी अपवाद, सेवाओं और सेंसर की रियल-टाइम स्थिति के साथ-साथ विलंबता रिपोर्टिंग की निगरानी के लिए एक कस्टम एडमिन ऐप में फीड किए जाते हैं। मजेदार बात यह है कि Flutter ऐप 90% AI द्वारा उत्पन्न किया गया था।

यादगार इंटरैक्शन बनाने के लिए ElevenLabs का उपयोगdesign the voice in 15 minutes complete with emotions and pauses that make the voice even more human. 

सेकंड स्पेस के पास KUBI के लिए एक बहुत ही विशिष्ट व्यक्तित्व था - Deadpool, Portal गेम से Wheatley और Apex Legends से Pathfinder का मिश्रण। उन्होंने

ElevenLabs KUBI की भाषण क्षमताओं को दो मुख्य API के माध्यम से शक्ति देता है:

  • Handles ~90% of our interactions.
  • Uses pre-designed scenarios for the perfect vibe.
  • Messages generated by LLMs can be personalized, with high-quality audio, the best pronunciation, not time-critical.
  • Offers incredibly natural multilingual speech in English, Chinese, Spanish, Japanese, and even Latvian (Latvian Deadpool, anyone?).

जब कोई ग्राहक कहता है,

कन्वर्सेशनल मोड (रियल-टाइम)"Hey KUBI!", Conversational AI from ElevenLabs is able to respond in 200ms, making the interaction feel truly human-like.

  • Priority: Low latency.
  • Trades some audio quality for responsiveness.
  • Uses ElevenLabs' new real-time language_detection tool, dynamically handling different languages instantly.
  • Conversational AI session started on demand when a member enters the facility or says “Hey, KUBI!”

ElevenLabs के कन्वर्सेशनल AI का उपयोग WebSocket कनेक्शन के माध्यम से करके, KUBI फ़ंक्शन कॉलिंग का लाभ उठा सकता है, उदाहरण के लिए:

कस्टम कन्वर्सेशनल टूल्स

  • make_order: Recognizes orders, sends events directly into BigBoy.
  • make_payment: Immediately notifies our PaymentService to trigger the credit card machine for payments.

KUBI को अतिरिक्त बाजारों में विस्तारित करनाintents better than others. They are currently using Gemini 2.0 Flash to be their core model for Conversational AI and ChatGPT 4o for the static speech generations.

ElevenLabs के एडमिन पैनल के माध्यम से विभिन्न LLM मॉडलों के बीच आसानी से स्विच करना सेकंड स्पेस को समझ और सटीकता को अनुकूलित करने में मदद करता है, क्योंकि हमने देखा कि विभिन्न मॉडल टूल

KUBI को अतिरिक्त बाजारों में विस्तारित करना

सेकंड स्पेस की पहली GitHub कमिट्स जो ElevenLabs का संदर्भ देती हैं, जनवरी 2023 की हैं - यहां तक कि बहुभाषी मॉडल जारी होने से पहले। उन्होंने गुणवत्ता के प्रति ElevenLabs की प्रतिबद्धता को जल्दी पहचान लिया और भविष्य के बहुभाषी समर्थन की उम्मीद करते हुए एक आर्किटेक्चर का आत्मविश्वास से निर्माण किया। अब, जापान और दक्षिण कोरिया जैसे बाजारों में प्रवेश करना एक स्विच फ्लिप करने जितना आसान है — कोई अतिरिक्त डेवलपमेंट कार्य की आवश्यकता नहीं है!

निष्कर्ष

और जानें

ElevenLabs

उच्चतम गुणवत्ता वाले AI ऑडियो के साथ बनाएं

फ़्री शुरू करें

क्या आपके पास पहले से खाता है? लॉग इन करें