跳到内容

级联与融合模型:架构如何决定语音智能体是否适合企业应用

解析五种语音智能体架构,以及在可信度、可配置性和对话质量之间的权衡。

Linear pattern

大多数人认为语音智能体只用级联或融合架构构建。实际上,智能体的设计介于两者之间,常见的有五种架构,具体选择取决于应用场景。

智能体的架构决定了其在实际应用中的可靠性、对业务需求的适应能力,以及对话的自然程度。像 OpenAI Realtime 这样的融合架构在短对话中听起来非常逼真。但当团队需要合规防护、排查异常响应,或在新 LLM 发布时切换更强模型时,单一融合网络几乎无法满足这些需求。

在 ElevenLabs,我们采用先进的级联架构。通过专用组件实现语音识别、推理和语音生成,确保高智能和高可靠性。我们还加入上下文韵律、低延迟优化和智能轮流机制,让对话更自然流畅。之所以这样设计,是因为我们服务的企业和政府客户需要既真实又值得信赖、能胜任复杂任务的智能体。

本文将介绍五种主流架构,各自的优势、局限,以及我们如何看待关键工作流中智能体的基础架构选择。

团队在选择架构时关注什么

团队通常会从三个方面提问。

  1. 推理与工具调用: 智能体理解上下文、进行复杂推理,以及调用外部工具或 API 完成任务的能力。
  2. 可靠性:智能体行为的可预测性——包括能否设置防护机制、保持一致的语气和风格,并通过转录、测试结果和监控实现透明。
  3. 韵律:智能体理解和回应语音的自然度——是否能呈现正确的节奏、重音和语调,让交流更像真人。
  4. 响应延迟:智能体生成回复的速度。
  5. 轮流对话: 智能体准确判断何时应答、暂停或在语音重叠时让步的能力。

虽然团队也关注并发、集成和音质等因素,但上述维度更直接受架构影响。最成功的团队会根据具体场景,定制架构以优化这些关键点。

听起来是否自然?

级联架构通过串联专用模块构建:响应延迟:、大型语言模型,以及文本转语音。每个环节都可独立优化、测试和升级。

级联架构

Cascaded (Overview) Diagram

这种模块化设计让团队可以接入最新的 LLM 增强推理能力,在文本层设置防护机制,并通过上下文 TTS 精准控制语音表现。主要的权衡在于,级联架构往往会丢失更多韵律信息——如语调、节奏和情感——因为语音被转为文本再生成。虽然可以通过显式建模部分恢复,但自然度不如融合方案。其他维度如延迟和轮流对话,通常两种架构都能优化到相似水平。

级联与融合架构的权衡

融合模型

Sequential Fused Diagram

这种设计让融合架构能更好地保留和还原韵律,因为模型直接处理发音和语调。但融合模型难以测试和控制,中间结果不可见。通常还依赖更轻量的 LLM 核心,推理和工具调用能力不及可接入最强模型的级联方案。

这种模块化让级联架构成为大多数企业级智能体的基础。每个环节都能输出可检查的结果:STT 与 LLM 之间、LLM 与 TTS 之间都是可读文本。可以在文本层设置防护,集成最新前沿 LLM 而无需修改语音模型,出现问题时也能快速定位原因。

级联架构长期被诟病的一点是韵律信息丢失。语音被转为文本,语调、节奏和情感需在输出端重建。虽然可以通过建模部分恢复,但不如融合方式自然。其他方面如延迟和轮流机制,两种架构都能优化到相近水平。

1. 基础级联

Basic Cascaded Diagram

没有中间环节既是优势也是局限。融合架构能自然保留韵律信息,因为语音不会被转为文本。但很难设置防护、替换单独组件,或检查中间结果进行排查。也难以针对行业术语微调 STT,或集成更强的 LLM。系统就是一个网络,团队只能用其自带的推理能力,目前这类模型的核心较轻,复杂任务难以与前沿 LLM 匹敌。

五种架构

1. 基础级联

  • 客户支持
  • 销售助手
  • AI 前台
  • 娱乐和游戏 NPC
  • IVR 替代
  • FAQ 解答和文档引导
  • 外呼通知(提醒、警报、预约确认)

音频先转录,LLM 生成文本回复,TTS 朗读。每个环节都处理纯文本,便于查看、测试和控制。

Advanced Cascaded Diagram

典型应用场景:

这正是SaaS 新手引导的 FAQ 自动解答ElevenAgents中的实现方式,结合了可根据上下文调整语气和情感的 TTS,以及基于Scribe v2 Realtime信号构建的高级轮流系统。两者结合,实现更具表现力和情感细腻的语音输出,同时不牺牲模块化和可控性。

2. 高级级联

  • 客户支持
  • 销售助手
  • AI 前台
  • 娱乐和游戏 NPC

同样是模块化架构,但多个组件能处理更丰富的上下文。这正是我们在

Hybrid Cascaded Diagram

该架构保留了基础级联的全部优势:完全透明、文本层防护、组件可替换、领域微调,以及最强工具调用和推理模型接入能力。同时显著提升韵律、延迟和轮流体验。团队可在新前沿 LLM 发布当周集成,或为医疗领域微调 STT,无需重构其他组件。


  • 金融服务客户支持,既能在争议账单电话中展现同理心,又能严格合规并完整记录交互
  • 医疗前台分诊,既能根据紧急程度调整语气,又能遵循 HIPAA 合规流程,并针对医学术语优化语音识别

3. 级联与融合混合

Sequential Fused Diagram

部分架构将输入语音的声学特征(发音、情感、语调)直接作为嵌入输入 LLM,而不是先转为文本。TTS 仍保持模块化。

这样 LLM 能获取更丰富的输入,了解


  • 语言学习和发音辅导,既要听
  • 低复杂度、对语气敏感的支持场景,能检测情绪但任务本身简单

4. 顺序融合

Duplex Fused Diagram

单一多模态模型一次性完成识别、推理和生成,每轮对话处理一次。这是 OpenAI Realtime API 等模型的架构。


适用场景包括:

  • 实验性陪伴、聊天机器人和社交语音应用

典型应用场景:

对话式智能体没有通用架构。每种方案都有优势和权衡,从级联模型的可控性和可预测性,到融合模型的自然韵律,各有侧重。

Architecture
Reliability
Reasoning & Tool Use
Prosody & Naturalness
Potential Use Cases
Basic Cascaded
●●●
●●●
IVR systems, FAQs, reminders, notifications
Advanced Cascaded
●●●
●●●
●●
Customer support, AI receptionists, sales assistants
Hybrid (Cascaded + Fused)
●●
●●
●●●
Language learning, tone-sensitive support, coaching
Sequential Fused
●●
●●●
Personal companions, entertainment chatbots
Duplex Fused
●●
●●●
Real-time social apps, experimental companions

输入和输出同时处理,模型能边听边说。这样短对话会非常自然,能实现真实的重叠语音和流畅的轮流切换。语音转文本、LLM 和文本转语音模型,打造智能、可定制、可靠的智能体。我们还融入韵律特征、延迟优化和轮流模型,让智能体回复更自然。

但这是最难控制的架构,防护机制几乎无法实现,串话会带来不可预测的错误。检查、记录或排查都极为困难,系统基本封闭,组件替换、领域微调和自定义空间极小。推理和工具调用能力比顺序融合还受限,因为同时处理占用了更多资源。正是这种同时处理让短对话自然,但长对话容易失控。

查看更多 ElevenLabs 团队的文章

用高质量 AI 音频创作