.webp&w=3840&q=80)
Come ho creato un generatore di spot pubblicitari con ElevenLabs, Gemini e VEO 2
- Categoria
- ElevenAPI
- Data
KUBI è un barista conversazionale che lavora con la Conversational AI di ElevenLabs. Ecco come funziona.
KUBI è un robot barista e receptionist conversazionale presso Secondo Spazio, un workspace di nuova generazione aperto 24/7 a Kaohsiung, Taiwan. Poiché la gestione del workspace è completamente automatizzata, è fondamentale che KUBI — come primo punto di contatto con i membri — aggiunga un tocco unico e amichevole. Per questo Second Space ha scelto la IA conversazionale di ElevenLabs per creare interazioni divertenti e memorabili con i membri. Vediamo KUBI in azione.
KUBI utilizza un’architettura multisensoriale avanzata per simulare un’interazione simile a quella umana. Il sistema si basa su un’architettura a microservizi, in cui servizi specializzati operano in parallelo e comunicano tramite uno stream di eventi in tempo reale. Questi servizi gestiscono vari compiti, tra cui riconoscimento facciale e di oggetti tramite inferenza IA in tempo reale, rilevamento delle tazze e controlli tramite telecamere, stampa degli scontrini, riconoscimento facciale sicuro per il controllo accessi e controllo preciso dei distributori di latte e caffè.
Ecco alcuni dei servizi che funzionano in parallelo:
Perché tutti questi microservizi? Semplice — li gestiamo in modo indipendente, possiamo scalarli facilmente e usiamo gli strumenti migliori per ogni compito.
A coordinare tutti questi microservizi c’è un servizio centrale, chiamato con ironia "BigBoy". In pratica è un grande processore di eventi non bloccante:
Cosa sono gli scenari?
Pensa agli scenari come a compilatori non bloccanti per gli eventi di azione. Un evento di azione è di solito l’evento più a valle, cioè l’ultimo passo di una catena, che produce un effetto fisico, come un movimento o una frase. Ad esempio, uno scenario di saluto potrebbe attivare:
Generazione di eventi con LLM: Alcuni eventi di azione vengono generati automaticamente da un LLM, ad esempio con AutoMotion sceglie il movimento migliore da una lista predefinita in base al contesto. Mentre con AutoGif usa un LLM per generare il tag più adatto alla frase. Il tag viene usato per recuperare una GIF su Giphy, che poi viene mostrata sul volto di KUBI insieme alla frase.
Sincronizzazione degli eventi di azione: Questi eventi passano poi attraverso uno scheduler che garantisce la sincronizzazione tra parlato, espressioni facciali e movimenti. La sincronizzazione fa sì che il parlato di KUBI sia perfettamente coordinato con i suoi gesti.
La cosa interessante è che gli scenari possono anche ascoltare gli eventi di azione e attivare nuovi eventi di azione in modo dinamico. Ad esempio:
BigBoy vede e sa letteralmente tutto quello che succede. Niente male, vero?
La maggior parte dei servizi è fornita localmente e racchiusa in un container docker. All’interno del container, il loro ciclo di vita è gestito dal sistema di controllo Supervisor. I log di errore vengono raccolti in Sentry e inviati a un’app admin personalizzata per monitorare eventuali eccezioni, lo stato in tempo reale di servizi e sensori e i report di latenza. La cosa interessante è che il 90% dell’app Flutter è stato generato dall’IA.
Second Space aveva in mente una personalità molto precisa per KUBI: un mix tra Deadpool, Wheatley di Portal e un pizzico di Pathfinder di Apex Legends. Sono riusciti a progettare la voce in 15 minuti, completa di emozioni e pause che la rendono ancora più umana.
ElevenLabs alimenta le capacità vocali di KUBI tramite due API principali:
Si attiva quando un cliente dice: "Ehi KUBI!", la Conversational AI di ElevenLabs riesce a rispondere in 200 ms, rendendo l’interazione davvero naturale.
Usando la Conversational AI di ElevenLabs tramite connessione WebSocket, KUBI può sfruttare il function calling, ad esempio:
Passare facilmente tra diversi modelli LLM tramite il pannello admin di ElevenLabs aiuta Second Space a ottimizzare comprensione e accuratezza, dato che abbiamo notato che modelli diversi riconoscono le intenti meglio di altri. Attualmente usano Gemini 2.0 Flash come modello principale per la Conversational AI e ChatGPT 4o per la generazione di parlato statico.
I primi commit GitHub di Second Space che citano ElevenLabs risalgono a gennaio 2023 — ancora prima che fosse rilasciato il modello multilingue. Hanno riconosciuto subito l’attenzione di ElevenLabs per la qualità e hanno costruito un’architettura pronta per il supporto multilingue futuro. Ora, entrare in mercati come Giappone e Corea del Sud è semplice come premere un interruttore — senza bisogno di ulteriore lavoro di sviluppo!
Microservizi, eventi in tempo reale e la potente tecnologia vocale di ElevenLabs fanno sì che KUBI sembri davvero vivo e pronto a sorprendere il mondo, una tazza di caffè e una battuta alla volta.
.webp&w=3840&q=80)
.webp&w=3840&q=80)
.webp&w=3840&q=80)
