
Eleven 多语言 v2
- 分类
- ElevenAPI
- 日期
如今,LLM 已成为对话式 AI 系统的核心。LLM 让对话式 AI不再局限于复杂的电话菜单,而是具备了动态功能,带来更自然的人机体验。但 LLM 并非万能,默认并未针对人类对话进行微调,因此需要专门的提示词设计。
开发者常见的错误是用培训人工客服的方式来设计 LLM 的提示词。虽然看似简单,但效果往往不佳。LLM 的假设和默认风格与人类不同,不适合直接用于语音交互。
今天,我们将分享如何为 LLM 设计提示词,打造高效的对话式 AI 系统。你也可以在ElevenLabs 开发者文档.
在 LLM 出现之前,对话式 AI 系统主要依赖复杂的逻辑树,根据语音输入分流请求。这种方式常见于客服电话(如航空公司热线)和支付系统(如信用卡电话服务)。
这些老系统反应慢、机械感强,只能识别极少量的人类输入。你可能也有过类似经历,比如对着电话大喊“YES”来回答提示。糟糕的体验让很多用户想尽办法“绕过系统”,只为和真人客服对话。
不过,这些电话菜单也有优点——范围有限。对话路径有限,开发者可以轻松设置规则屏蔽不允许的输入。这种限制正是 LLM 的优缺点所在:LLM 能大幅拓展对话能力,但也更难预测,容易出现各种问题,比如做出无法实现的承诺、对用户发火或泄露敏感信息。
如果只用给人类设计的手册来训练 LLM,效果往往一般,主要有以下几个核心问题。了解这些问题有助于你设计更有效的提示词:
LLM 通过强化学习训练,依赖人类反馈来优化输出。结果是,LLM 的回复通常很长,包含大量项目符号、强调块和标题。
但在对话式 AI 场景下,LLM 需要模仿口语交流的简洁和直接。
LLM 往往会用推测的信息填补未知,而不是主动提问。这可能导致错误假设,误导用户,甚至造成损失(如承诺退款)。后文会介绍如何用知识库和规则约束,避免 LLM 做出错误承诺或执行不允许的操作。
LLM 可以自动调用函数,代表用户获取和写入数据。这是 LLM 的一大优势,但也意味着以往让客服“拖延时间”的培训方法已不再适用。不过,函数调用也不是即时完成,因此 LLM 需要在预计有延迟时提前告知用户(如“请稍等,我正在查询你的信息”)。
LLM 能较好地调整语气风格。可以设置为友好、幽默、简洁、正式或多种风格组合。设计提示词时,这一点非常重要。
例如,某航空客服对话式 AI 应用,面向不满的乘客,开发者可以这样设计提示词:
Nicole
LLM 需要明确的回复指令。为避免输出多余内容,应为 LLM 提供清晰的结构,限定用户可见的回复内容。
例如,可以这样提示 LLM:
这种结构能让 LLM 输出更适合语音播报的内容。
但有些细节容易被忽略,比如数字。LLM 可能直接输出邮编 10023,导致文本转语音模型读成“十万零二十三”。应明确提示 LLM 按位读数字,并说明含义,如“邮编是一零零二三”。
温度是配置对话式 AI 时的重要参数。温度低时,回复更集中、可预测,适合任务型对话;温度高时,回复更有创意、变化更多。
对于需要一致回复的对话式 AI(如退款客服),建议用低温度。想让对话更生动、真实(如数字教练),则可用高温度:
对接大规模知识库的对话式 AI,建议用知识库缩短提示词长度。实际应用中,通常通过向量数据库(如 Pinecone、Elasticsearch)或 LLM 提供商的知识存储实现。
知识库能让 LLM 回复基于真实、权威的信息。在搭建对话式 AI 时,应为 LLM 提供全面、准确、最新的产品、服务、政策和流程信息,避免 LLM 编造内容,保证回复一致可靠。
LLM 经常代表用户调用功能,因此需要明确所需输入。例如,LLM 帮用户预约理发时,需要确保获取:
简单实现可能让 LLM 一次性询问所有信息。文本场景下没问题,但对话中会让用户觉得压力很大:
信息通常是逐步收集的,因此应引导 LLM 分步提问,让对话更自然:
分布式系统开发时,默认假设服务器会出错。同理,AI 系统也要假设 LLM 可能出错。为降低风险,应只授予必要的最低权限。常见做法包括:
在构建对话式AI 语音智能体系统并通过工具执行操作时,建议加入校验和验证流程,确保收集到正确信息。现实中,人工客服会重复关键信息,确认无误。LLM 也应具备类似的错误检查机制:
校验时,应检查客户信息是否符合常规格式。例如,手机号位数是否正确、年龄是否合理、地址是否有效等。
可根据实际需求,选择校验所有信息或只校验未通过验证的部分,也可选择每获取一项就校验,或最后统一校验。
成功为对话式AI 智能体系统设计提示词,需要合理配置参数和安全规则,让用户体验高效、自然的人机对话。这远不只是用旧培训资料来提示 LLM,而是要用专业结构和策略,获得可控、有效的结果。



