会話型エージェントが稼働する際、どのようにして大規模に監視しますか?意図通りに動作していないときはどうやって見つけますか?変更を加えた後、どのようにテストしますか?
これらの質問が私たちのEl、私たちのドキュメントアシスタントは、Conversational AI。Elが進化するにつれて、監視システムを構築しました。評価、そしてテストするためのシステムを構築しました。評価基準と会話シミュレーションに基づいています。
基盤の構築: 信頼性のある評価基準
エージェントを改善するには、まずその実際の動作を理解することが重要です。そのために評価基準を洗練し、エージェントのパフォーマンスを正確かつ信頼性のある方法で監視できるようにしました。失敗した会話とは、エージェントが誤った情報を提供したり、ユーザーの目標達成を助けられなかった場合を指します。
以下の評価基準を開発しました:
- インタラクション: これは有効な会話ですか?ユーザーは関連する質問をしましたか?会話は意味が通じましたか?
- ポジティブなインタラクション: ユーザーは満足して帰りましたか?それとも混乱したり、苛立ったりしましたか?
- 根本原因の理解: エージェントはユーザーの根本的な問題を正しく特定しましたか?
- ユーザーの問い合わせの解決: エージェントはユーザーの問題を解決しましたか?または代替のサポート方法を提供しましたか?
- 幻覚: エージェントは知識ベースにない情報を幻覚しましたか?
もしインタラクションが失敗した場合、会話自体が無効です。他の基準が失敗した場合は、さらに調査します。調査はエージェントの改善方法を導きます。時にはツールの使用法やタイミングの調整、また時にはサポートされていないアクションを防ぐためのガードレールの追加が必要です。
自信を持って繰り返す: 会話シミュレーションAPI
改善点を特定したら、次のステップはテストです。そこで会話シミュレーションAPIが登場します。現実的なユーザーシナリオをシミュレートし、エンドツーエンドおよびターゲットセグメントで結果を自動的に評価します。これは、プロダクションで適用するのと同じ基準を使用します。ツールのモックやカスタム評価をサポートし、特定の動作をテストするのに十分な柔軟性を持っています。
2つのアプローチを使用します:
- フルシミュレーション: 会話全体を最初から最後までテストします。
- 部分シミュレーション: 会話の途中から開始し、意思決定ポイントやサブフローを検証します。これはユニットテストのための主要な方法であり、迅速な反復とターゲットを絞ったデバッグを可能にします。
明確で焦点を絞ったシナリオにより、LLMがテストされる内容を制御し、エッジケース、ツールの使用、フォールバックロジックをカバーします。
スケールのための自動化: CI/CDへのテストの埋め込み
最後の要素は自動化。ElevenLabsのオープンAPIを使用して、GitHub DevOpsフローに接続し、評価とシミュレーションをCI/CDパイプラインに組み込みました。すべての更新はデプロイ前に自動的にテストされます。これにより、リグレッションを防ぎ、実際のパフォーマンスに関する迅速なフィードバックを得ることができます。
結果: より強く、賢いEl
このプロセスにより、Elの構築と維持方法が変わりました。実際の使用と構造化された評価、ターゲットテスト、自動検証を結びつけるフィードバックループを作成し、より迅速かつ自信を持って改善を提供できるようになりました。
そして、これは私たちが構築するすべてのエージェントに適用できるフレームワークです。