Novità: Experiments in ElevenAgents

Scritto da: Kacper Walentynowicz; Lauren Rothwell
Pubblicato: 19 feb 2026

AscoltaAscolta questo articolo

0:00

0:000:00

Oggi presentiamo Experiments in ElevenAgents - un modo controllato per eseguire test A/B sul traffico in produzione e misurare cosa funziona prima di applicare modifiche su larga scala.

Man mano che gli agenti conversazionali gestiscono workflow ad alto impatto in ambito supporto, vendite e operations, anche piccoli cambiamenti di configurazione possono influire concretamente sui risultati di business. Una struttura di prompt diversa, un ramo del workflow ottimizzato, una nuova voce o una protezione più rigida possono cambiare CSAT, containment, conversioni, latenza e costi.

Experiments offre ai team un modo strutturato per testare questi cambiamenti usando traffico reale e risultati misurabili, senza rinunciare a sicurezza o controllo.

Dai cambi di configurazione a risultati misurabili

Senza una sperimentazione strutturata, l’ottimizzazione si basa sull’intuizione. Una modifica al prompt "sembra" migliore. Un aggiustamento al workflow "dovrebbe" migliorare il containment. Un nuovo percorso di escalation "pare" più efficiente.

Experiments sostituisce le ipotesi con dati concreti. I team possono introdurre varianti controllate, esporle a una percentuale definita di interazioni reali con i clienti e misurare l’impatto su metriche di business e operative.

Questo porta le pratiche moderne di A/B testing anche agli agenti conversazionali, usando dati di produzione invece di valutazioni soggettive.

Come funziona Experiments

Experiments è integrato direttamente in ElevenLabs Agents e segue un workflow semplice e verificabile.

1. Crea una nuova variante

Parti da una versione esistente dell’agente e crea una variante.

Modifica prompt, workflow, strumenti, voce, knowledge base o protezioni. Ogni cambiamento è collegato a una configurazione specifica e versionata, con differenze e attribuzioni chiare.

2. Instrada una parte controllata del traffico

Definisci quale percentuale delle conversazioni in tempo reale deve essere indirizzata verso la nuova variante.

La suddivisione del traffico è controllata e verificabile, così i team possono testare in sicurezza senza disturbare la maggior parte degli utenti.

3. Misura l’impatto sulle metriche chiave

Confronta le prestazioni delle varianti usando conversazioni reali in produzione.

I team possono misurare risultati come:

CSAT
Tasso di containment
Conversioni
Tempo medio di gestione
Latenza mediana di risposta dell’agente
Costo per risoluzione dell’agente

Poiché i test avvengono su traffico reale, i risultati riflettono il comportamento effettivo degli utenti, non benchmark sintetici.

4. Promuovi la variante vincente

Quando una variante mostra un miglioramento misurabile, i team possono indirizzare più traffico verso la versione con prestazioni migliori.

La cronologia completa delle versioni viene conservata, permettendo rollback rapidi se necessario.

Casi d’uso per tutti i team

Experiments supporta l’ottimizzazione continua dei workflow rivolti ai clienti e delle operazioni interne.

I team CX possono testare se un nuovo flusso di escalation migliora il CSAT senza aumentare i tempi di gestione.
I team revenue possono verificare se un tono più diretto o una logica di qualificazione diversa aumentano le conversioni.
I team operations possono misurare se modifiche alla logica degli strumenti riducono il tempo medio di gestione o i costi infrastrutturali.

Ogni esperimento è collegato a una versione specifica dell’agente, così ogni variazione di performance è attribuibile a una modifica precisa di configurazione.

Progettato per l’enterprise

Experiments si basa sul versioning e sull’audit trail di ElevenLabs Agents.

Ogni esperimento include:

Instradamento del traffico controllato e verificabile.
Attribuzione chiara alle versioni specifiche dell’agente.
Rollback strutturati.
Cronologia completa delle conversazioni collegata allo stato della versione.

Così i team possono muoversi rapidamente mantenendo conformità, tracciabilità e governance.

Non serve più scegliere tra velocità e controllo: i team ottengono entrambi.

Ottimizzazione continua per agenti conversazionali

Gli agenti conversazionali non dovrebbero essere statici, ma migliorare costantemente grazie ai dati di produzione.

Con questo workflow, i team possono iterare in modo sistematico, quantificare l’impatto e distribuire agenti conversazionali più performanti con sicurezza.

Ora i team possono configurare, distribuire e ottimizzare agenti conversazionali più efficaci con sicurezza, usando dati reali di produzione.

Scopri di più: https://elevenlabs.io/docs/eleven-agents/operate/experiments