Piensa en los escenarios como compiladores no bloqueantes para eventos de acción
Sincronización de eventos de acción: Estos eventos luego fluyen a través de un programador que asegura que el habla, las expresiones faciales y los movimientos se mantengan sincronizados. La sincronización asegura que el habla de KUBI coincida perfectamente con sus gestos.
Generación de Eventos con LLM:
Sincronización de eventos de acción: Estos eventos luego fluyen a través de un programador que asegura que el habla, las expresiones faciales y los movimientos se mantengan sincronizados. La sincronización asegura que el habla de KUBI coincida perfectamente con sus gestos. y activar nuevos eventos de acción dinámicamente. Por ejemplo:
- Si BigBoy detecta
- Otro ejemplo genial es que si el usuario elige nuestra App Móvil para hacer un pedido, todas las interacciones del usuario (hacer clic en un producto, realizar un pago, etc.) se convierten en eventos y BigBoy también puede reaccionar en tiempo real. Por ejemplo, si el usuario pasa por “Oatmilk Latte”, KUBI podría decir “¿Estás seguro de que no quieres ese Oatmilk Latte? ¡Está muy bueno!”
Lo genial es que los escenarios pueden incluso escuchar
DevOps y Observabilidad
BigBoy literalmente ve y sabe todo lo que sucede. ¿Bastante genial, no?
La mayoría de los servicios se alojan localmente y están envueltos en un contenedor docker. En el contenedor, su ciclo de vida es gestionado por el sistema de control de procesos Supervisor. Los registros de errores se recopilan en Sentry y se alimentan a una aplicación de administración personalizada para monitorear cualquier excepción, el estado en tiempo real de los servicios y sensores, así como los informes de latencia. Lo genial es que la aplicación Flutter fue generada en un 90% por IA.
Usando ElevenLabs para crear interacciones memorablesdiseñar la voz en 15 minutos, completa con emociones y pausas que hacen que la voz sea aún más humana.
Second Space tenía en mente una personalidad muy específica para KUBI: una mezcla de Deadpool, Wheatley del juego Portal y un poco de Pathfinder de Apex Legends. Lograron
ElevenLabs potencia las capacidades de habla de KUBI a través de dos APIs principales:
- Maneja ~90% de nuestras interacciones.
- Utiliza escenarios prediseñados para el ambiente perfecto.
- Los mensajes generados por LLMs pueden ser personalizados, con audio de alta calidad, la mejor pronunciación, no críticos en tiempo.
- Ofrece un habla multilingüe increíblemente natural en inglés, chino, español, japonés e incluso letón (¿alguien dijo Deadpool letón?).
Se activa cuando un cliente dice,
Modo Conversacional (Tiempo Real)"¡Hey KUBI!", la IA conversacional de ElevenLabs es capaz de responder en 200ms, haciendo que la interacción se sienta verdaderamente humana.
- Prioridad: Baja latencia.
- Intercambia algo de calidad de audio por capacidad de respuesta.
- Utiliza la nueva herramienta de language_detection de ElevenLabs, manejando dinámicamente diferentes idiomas al instante.
- La sesión de IA conversacional se inicia bajo demanda cuando un miembro entra en la instalación o dice “¡Hey, KUBI!”
Usando la IA conversacional de ElevenLabs a través de una conexión WebSocket, KUBI puede aprovechar la llamada de funciones, por ejemplo:
Herramientas Conversacionales Personalizadas
- make_order: Reconoce pedidos, envía eventos directamente a BigBoy.
- make_payment: Notifica inmediatamente a nuestro PaymentService para activar la máquina de tarjetas de crédito para pagos.
Expandiendo KUBI a mercados adicionalesintenciones de la herramienta que otros. Actualmente están usando Gemini 2.0 Flash como su modelo principal para IA conversacional y ChatGPT 4o para las generaciones de habla estática.
Cambiar entre diferentes modelos LLM fácilmente a través del panel de administración de ElevenLabs ayuda a Second Space a optimizar la comprensión y precisión, ya que notamos que diferentes modelos reconocen mejor las
Expandiendo KUBI a mercados adicionales
Los primeros commits de GitHub de Second Space que hacen referencia a ElevenLabs datan de enero de 2023, incluso antes de que se lanzara el modelo multilingüe. Reconocieron la dedicación de ElevenLabs a la calidad desde el principio y construyeron con confianza una arquitectura anticipando el soporte multilingüe futuro. Ahora, entrar en mercados como Japón y Corea del Sur es tan simple como presionar un interruptor — ¡sin trabajo de desarrollo adicional requerido!
Conclusión