Dust añade voz multilingüe a los flujos de trabajo empresariales impulsados por IA usando ElevenLabs

Ampliando el acceso y la productividad con IA centrada en la voz

Dust logo

Dust, the operating system for AI-native enterprises, now includes multilingual voice input and output - powered by ElevenLabs. Designed to integrate models into everyday work, Dust needed voice capabilities that could operate across languages, devices, and contexts with low latency and high realism.

Esto no fue exploratorio. La voz se convirtió en una prioridad de producto tras repetidas solicitudes de clientes. El resultado: un sistema que admite interacción con agentes sin manos durante los desplazamientos, colaboración multilingüe en equipos globales y salidas de audio profesionales para flujos de trabajo asincrónicos.

Por qué la voz importa en la empresa

Dust identificó cuatro requisitos críticos para la voz en un contexto laboral:

  • Calidad natural que resista el escrutinio: La salida de voz debe sonar profesional y humana, adecuada para compartir en correos electrónicos a clientes, podcasts o demostraciones de productos.
  • Multilingüe por defecto: Los equipos operan en oficinas globales y en varios idiomas. Cambiar entre francés, inglés y alemán en una sola sesión no debería ser un caso excepcional.
  • Baja latencia: Tanto para entrada como salida, la velocidad de respuesta debe coincidir con el ritmo del pensamiento y la conversación.
  • Manejo de datos a nivel empresarial: Sin retención de datos, enrutamiento basado en regiones y cumplimiento con SOC2 y RGPD eran innegociables.

Por qué Dust eligió ElevenLabs

Tras evaluar proveedores como OpenAI, Google, Deepgram y AssemblyAI, Dust seleccionó ElevenLabs por su calidad superior y preparación para el despliegue:

  • Texto a Voz voces entregaron consistentemente alto realismo con un amplio rango emocional, crítico para las herramientas Speech Generator y Sound Studio de Dust.
  • Speech to Text soportó 99 idiomas de transcripción, con fuerte fidelidad entre idiomas.
  • Sin Retención de Datos y enrutamiento multirregional aseguraron el cumplimiento empresarial desde el primer momento.
  • SDKs y APIs de nivel producción permitieron una integración rápida y un rendimiento consistente en todas las plataformas.

Cómo Dust integró la voz

Dust construyó soporte de voz en dos flujos de trabajo principales:

1. Entrada de voz: hablar con agentes

Usando el modelo scribe_v1 de ElevenLabs, los usuarios ahora pueden hablar con agentes a través del micrófono. El sistema detecta automáticamente el idioma hablado, lo transcribe y dirige la solicitud en consecuencia, incluso infiriendo nombres de agentes a partir del habla natural.

La entrada de voz está disponible en móviles, alineándose con momentos en los que escribir es menos conveniente.

2. Salida de voz: audio generado por agentes

A través de Speech Generator, los agentes de Dust pueden crear contenido de audio usando los modelos eleven_multilingual_v2 y eleven_v3 de ElevenLabs. La salida incluye podcasts, informes y artefactos de audio narrativos, utilizados tanto para consumo interno como para compartir externamente.

Sound Studio, impulsado por Text to Sound Effects, añade capas de audio no verbal para casos de uso de formación y contenido.

Lo que Dust aprendió

  • El enrutamiento regional importa: Habilitar la selección de región UE/EE.UU. redujo la latencia y facilitó las conversaciones de cumplimiento.
  • La curación supera la abundancia: Un conjunto curado de 12 voces reduce la fatiga de decisión mientras cubre todas las necesidades básicas.
  • Calidad > velocidad: A pesar de que hay modelos más rápidos disponibles, los usuarios consistentemente eligieron voces de mayor fidelidad para contenido de producción.

Lo que esto permite

  • Productividad centrada en el móvil: Captura ideas y colabora en movimiento.
  • Colaboración multilingüe: Habla naturalmente en tu propio idioma, los agentes se encargan del resto.
    Flujos de trabajo accesibles y asincrónicos: Convierte la investigación en audio, reduce las barreras de entrada y apoya estilos de trabajo diversos.

Qué sigue

Dust está explorando agentes de voz conversacional en tiempo real, comprensión de audio más allá de la transcripción y soporte para entradas de formato largo como reuniones y presentaciones. Al integrar ElevenLabs, Dust hace que la voz sea una parte fluida de la IA empresarial., deeper audio understanding beyond transcription, and support for long-form inputs like meetings and presentations. By integrating ElevenLabs, Dust makes voice a seamless part of enterprise AI.

Descubre artículos del equipo de ElevenLabs

ElevenLabs

Crea con audio con IA de la más alta calidad

Empieza gratis

¿Ya tienes una cuenta? Inicia sesión