跳到内容

如何为对话式 AI 系统设计提示词

在对话式 AI 系统中,正确为大语言模型设计提示词至关重要。

A split image showing the interior of a circular parking garage on the left and a blue background with radiating black lines on the right.

如今,LLM 已成为对话式 AI 系统的核心。LLM 让对话式 AI不再局限于复杂的电话菜单,而是具备了动态功能,带来更自然的人机体验。但 LLM 并非万能,默认并未针对人类对话进行微调,因此需要专门的提示词设计。

开发者常见的错误是用培训人工客服的方式来设计 LLM 的提示词。虽然看似简单,但效果往往不佳。LLM 的假设和默认风格与人类不同,不适合直接用于语音交互。

今天,我们将分享如何为 LLM 设计提示词,打造高效的对话式 AI 系统。你也可以在ElevenLabs 开发者文档.

传统系统

在 LLM 出现之前,对话式 AI 系统主要依赖复杂的逻辑树,根据语音输入分流请求。这种方式常见于客服电话(如航空公司热线)和支付系统(如信用卡电话服务)。

这些老系统反应慢、机械感强,只能识别极少量的人类输入。你可能也有过类似经历,比如对着电话大喊“YES”来回答提示。糟糕的体验让很多用户想尽办法“绕过系统”,只为和真人客服对话。

不过,这些电话菜单也有优点——范围有限。对话路径有限,开发者可以轻松设置规则屏蔽不允许的输入。这种限制正是 LLM 的优缺点所在:LLM 能大幅拓展对话能力,但也更难预测,容易出现各种问题,比如做出无法实现的承诺、对用户发火或泄露敏感信息。

默认缺陷

如果只用给人类设计的手册来训练 LLM,效果往往一般,主要有以下几个核心问题。了解这些问题有助于你设计更有效的提示词:

语气不匹配

LLM 通过强化学习训练,依赖人类反馈来优化输出。结果是,LLM 的回复通常很长,包含大量项目符号、强调块和标题。

但在对话式 AI 场景下,LLM 需要模仿口语交流的简洁和直接。

假设偏差

LLM 往往会用推测的信息填补未知,而不是主动提问。这可能导致错误假设,误导用户,甚至造成损失(如承诺退款)。后文会介绍如何用知识库和规则约束,避免 LLM 做出错误承诺或执行不允许的操作。

响应延迟

LLM 可以自动调用函数,代表用户获取和写入数据。这是 LLM 的一大优势,但也意味着以往让客服“拖延时间”的培训方法已不再适用。不过,函数调用也不是即时完成,因此 LLM 需要在预计有延迟时提前告知用户(如“请稍等,我正在查询你的信息”)。

配置项

个性化

LLM 能较好地调整语气风格。可以设置为友好、幽默、简洁、正式或多种风格组合。设计提示词时,这一点非常重要。

例如,某航空客服对话式 AI 应用,面向不满的乘客,开发者可以这样设计提示词:

You are a friendly customer service agent who speaks in concise, clear, empathetic sentences.
American
Whispering
Mysterious
Gaming
Lively
Irish
Soothing
Audiobook

Nicole

回复格式

LLM 需要明确的回复指令。为避免输出多余内容,应为 LLM 提供清晰的结构,限定用户可见的回复内容。

例如,可以这样提示 LLM:

Respond exclusively with the string that should be read aloud to the user

这种结构能让 LLM 输出更适合语音播报的内容。

但有些细节容易被忽略,比如数字。LLM 可能直接输出邮编 10023,导致文本转语音模型读成“十万零二十三”。应明确提示 LLM 按位读数字,并说明含义,如“邮编是一零零二三”。

温度参数

温度是配置对话式 AI 时的重要参数。温度低时,回复更集中、可预测,适合任务型对话;温度高时,回复更有创意、变化更多。

对于需要一致回复的对话式 AI(如退款客服),建议用低温度。想让对话更生动、真实(如数字教练),则可用高温度:

Low Temperature: Thank you for calling ElevenLabs support. How can I help you?
High Temperature: Hey hey! You've landed at ElevenLabs support—ready to tackle your tech troubles! What's on your mind?

知识库

对接大规模知识库的对话式 AI,建议用知识库缩短提示词长度。实际应用中,通常通过向量数据库(如 Pinecone、Elasticsearch)或 LLM 提供商的知识存储实现。

知识库能让 LLM 回复基于真实、权威的信息。在搭建对话式 AI 时,应为 LLM 提供全面、准确、最新的产品、服务、政策和流程信息,避免 LLM 编造内容,保证回复一致可靠。

流程设计

LLM 经常代表用户调用功能,因此需要明确所需输入。例如,LLM 帮用户预约理发时,需要确保获取:

  1. 用户姓名
  2. 期望的日期和时间
  3. 用户地址
  4. 服务偏好

简单实现可能让 LLM 一次性询问所有信息。文本场景下没问题,但对话中会让用户觉得压力很大:

Support Agent: Could you please provide me with your name, your address, when you'd like your service to be, and what service you'd like?
Customer: My name is Mathew and anytime Wednesday afternoon works. What else did you ask for?

信息通常是逐步收集的,因此应引导 LLM 分步提问,让对话更自然:

Support Agent: Could you please provide me with your name?
Customer: My name is Mathew Pregasen.
Support Agent: Thanks Mathew. When would you like to make an appointment?
Customer: Anytime on Wednesday afternoon works fine.
Support Agent: Great. Now can I get your address to find the nearest location?
Customer: 555 West Main Street
Support Agent: Perfect. Now what service are you look for?
Customer: I'm looking for a haircut and if you could also do my beard that would be great!

安全规则

权限管理

分布式系统开发时,默认假设服务器会出错。同理,AI 系统也要假设 LLM 可能出错。为降低风险,应只授予必要的最低权限。常见做法包括:

  • 正确设置读写权限:如果 LLM 只需读取数据,应只开放只读接口。
  • 限制 API 访问范围:只允许 LLM 访问指定接口,禁止访问其他接口。
  • 人工审核流程:高风险操作可引入人工审核,需“经理批准”后再执行。

校验与验证

在构建对话式AI 语音智能体系统并通过工具执行操作时,建议加入校验和验证流程,确保收集到正确信息。现实中,人工客服会重复关键信息,确认无误。LLM 也应具备类似的错误检查机制:

Support Agent: Great. Now can I get your address to find the nearest location?
Customer: 555 West Main Street
Support Agent: I got five five five west main street. Did I miss anything?

校验时,应检查客户信息是否符合常规格式。例如,手机号位数是否正确、年龄是否合理、地址是否有效等。

Support Agent: What would a good callback number be for you?
Customer: 317-798-97289
Support Agent: I think I might have misheard you. I heard 11 numbers. Would you mind repeating that again?

可根据实际需求,选择校验所有信息或只校验未通过验证的部分,也可选择每获取一项就校验,或最后统一校验。

结语

成功为对话式AI 智能体系统设计提示词,需要合理配置参数和安全规则,让用户体验高效、自然的人机对话。这远不只是用旧培训资料来提示 LLM,而是要用专业结构和策略,获得可控、有效的结果。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作