GRADUATION DEFENSE · 2026NEAU · 软件工程
Real-Time Voice Interaction System

融合 ASR 与 TTS 的
大语言模型实时交互系统
设计与实现

从语音输入、语义理解、业务执行到语音反馈,搭建一条可运行、可验证、可扩展的实时交互闭环。

苏文慧·A19220235·指导教师 李晓明 / 罗杰
本科毕业答辩 · 封面MIN SHORT DECK
正文 01 · 背景与痛点
01 / 10
Why this project

语音助手的难点,
不在单个模型。

真正影响体验的是整条链路:识别是否可信、理解是否准确、执行是否落地、反馈是否及时。

本文研究的是语音交互由单一功能逐渐发展成为综合能力的过程,不是单纯比较某一个模型效果,而是考察从识别、理解、合成到设备执行能否形成有效循环。

目前语音交互在智能家居、智能座舱和公共服务中应用广泛,但仍存在端到端延迟、复杂环境鲁棒性不足、物联网设备协议不统一等问题,这些问题会直接影响用户是否愿意继续使用。

实时性不足
传统云侧串行计算延迟较大,难以支撑车载导航、紧急处理等对时间要求较高的场景。
复杂环境鲁棒性弱
公共场所、车内背景噪声,以及不同发音习惯和语速变化,都会给识别与分支命中带来困难。
设备接入不统一
各厂家标准不同,语音指令很难直接、稳定地转换成不同设备都能理解的控制动作。
本项目的目标:不是做一个能聊天的助手,而是让语音指令最终变成可执行的服务与设备动作。Research Goal
正文 02 · 核心闭环
02 / 10
Closed Loop

一条主链路,
四类核心能力。

USER VOICE → COMPLETE QUESTION → WORKFLOW → SPEECH / DEVICE
01语音输入PCM 分帧上传,ASR 实时显示转写文本,帮助用户确认说的话是否被正确识别。
02文本定稿用户完成表达后,将最终转写文本发送给 LLM / Dify,而不是在半句话阶段提前做语义裁决。
03任务分发Dify 进行意图分类,进入天气、校务、设备控制等业务分支。
04反馈执行文本展示、TTS 播报与 Home Assistant 设备执行统一返回到同一会话。

本系统把完整对话回路作为核心,不是罗列支离破碎的功能点,而是在一次对话中完成接收、理解、操作和反馈。文字输入可以直接进入网关,语音输入则先经过录制和转写,然后接入同一条文本链路。

功能上覆盖天气查询、东北农业大学校务咨询和设备控制三类任务,体现从“回答问题”到“办理、执行”的过程。交互上支持分段返回、语音播报和新请求打断旧播报,避免用户等待整块回复或听到重叠声音。

正文 03 · 系统拓扑
03 / 10
System Topology

移动端、网关、工作流、设备层分层解耦

前端负责采集、显示与播放;FastAPI 网关贯穿会话;Dify 负责任务编排;Home Assistant 负责设备实体与服务调用;ASR/TTS 独立为语音节点。

从数据流看,系统可以理解为三条路径在同一会话中交汇:语音上行路径通过 WebSocket 上传 PCM 并返回识别文本;业务控制路径调用外部接口和设备服务;媒体下行路径把文字和音频返回前端。

部署上,将 Dify 和 Home Assistant 放在本地容器中,将语音节点放在局域网单独机器上,分离编排调度和高负载音频计算,减少资源竞争造成的抖动。

DEPLOYDockerDify 与 Home Assistant 容器化部署,端口、日志和启动顺序统一管理。
GATEWAYFastAPI统一会话 ID、参数校验、路由转发、错误码和日志字段。
TRACE可观测记录录音、首帧、返回、播放等时间点,便于定位延迟来源。
UNI-APP·FASTAPI·DIFY·HOME ASSISTANT·DOCKER
系统总体拓扑图
系统总体拓扑图ARCH
正文 04 · 流式 ASR 可视化确认
04 / 10
Streaming ASR

流式转写,
不是边听边理解。

ASR 的实时输出先呈现在界面上,让用户直观看到语音是否被正确转成文字。只有在问题完整后,系统才把最终文本交给 LLM 工作流。

语音处理模块负责把原始声音转化为可用于业务流的文本,过程包括采集、分帧、传输、实时转写和规整。相比一次性上传音频文件,分帧流式可以让用户在讲话时看到正在形成的字幕。

模块边界止步于输出可用识别文本,不在 ASR 阶段进行意图裁决,这样可以把识别错误和分支误判区分开,便于后续定位问题。

它解决的是“我说的话有没有被听对”,不是让 LLM 在半句话阶段提前判断意图。ASR Role
实时转写结果示例图
实时转写结果示例ASR
正文 05 · LLM 工作流编排
05 / 10
Workflow Routing

先判断用户想做什么,
再交给对应功能处理。

Dify 负责意图分类与工具编排。天气、校务、设备控制使用统一输入输出格式,前端展示与语音播报不需要为每个分支单独适配。

系统工作逻辑主要在 Dify 工作流中实现,流程分为语义分析、任务打包和分支跳转三部分。系统先判断用户问题属于天气、校务还是设备控制,再进入对应分支处理。

各节点之间采用结构化参数传递,分类节点只检测意图,执行节点只调用业务能力,汇总节点只整合结果。这样后续增加新业务时,只需扩展分类条件和分支节点,不必大改主流程。

BRANCH A天气高德 API · 槽位提取
BRANCH B校务知识库检索 · 可信回答
BRANCH C设备HA Service · 状态回传
Dify 工作流截图
Dify 工作流截图WORKFLOW
正文 06 · 天气查询闭环
06 / 10
Weather Branch

口语问题,
转成天气接口参数。

天气分支从用户句子中抽取地点、日期或时间段,先做参数规范化与合法性校验,再调用高德天气 API,并把接口字段整理成便于显示和播报的自然语言。

该分支会先把口语化问题转换成接口可接受的结构化参数,调用前检查参数是否缺失、时间范围是否合法,调用后再检查返回值完整性,避免把半成品数据展示给用户。

INPUT哈尔滨城市槽位准确提取
API200 OK高德接口正常返回
OUTPUT流式页面逐步接收结果
测试结果:ApiFox 返回 200 状态码,槽位“哈尔滨 / 今天”提取无误,业务数据以流式事件有序返回。
天气相关问题 Dify 处理流程截图
天气分支流程
天气分支流式输出测试结果
天气分支测试结果
正文 07 · 校务问答闭环
07 / 10
University QA Branch

校园问题,
基于知识库回答。

校务分支先在东北农业大学相关知识库中检索候选片段,再进行排序、过滤和总结,要求回答有来源依据;当信息不足时避免编造,保证校务咨询的可信度。

该部分与天气查询、设备控制使用相同的框架,但针对校园校务内容做了特有调整。答案按重要性递减组织,先给出核心信息,再补充相关说明,便于手机端展示和语音播报。

CLASSIFIER校务问题分类器命中
RAG检索公开信息片段召回
ANSWER34,483在校生数据一致
测试结果:Dify 节点执行无异常,知识检索返回学校公开信息,生成答案与引用数据一致。
校务相关问题 Dify 处理流程截图
校务分支流程
校务接口调用结果图
校务问答测试结果
正文 08 · 设备控制闭环
08 / 10
Natural Language to Action

自然语言,
转成设备可执行指令。

设备分支识别对象、动作和参数,再映射为 Home Assistant 的服务调用;执行后把设备状态、提示文本和语音播报统一回传。

设备控制的关键,是把用户口语化操作指令转化为设备能理解的操作。系统会识别设备实体、动作和可选参数,发送命令前检查权限与设备可用状态,执行后监听最新状态。

打开监控turn_on → switch.chuangmi_039c01_c57e_switch_status_2HA
关闭投影仪turn_off → select.xiaomi_rm4_9dfc_keycodesHA
测试结果:“打开监控”被正确映射到 HA Service,日志显示服务启动成功,设备状态由关闭变为开启。
设备相关问题 Dify 处理流程截图
设备分支处理流程
Home Assistant 设备日志
设备执行测试日志
正文 09 · TTS 与播放控制
09 / 10
TTS Feedback

回复不只显示,
还要自然地说出来。

CosyVoice 将业务结果分段合成为音频,前端使用 createInnerAudioContext 管理播放队列、会话绑定与打断逻辑。

文本转语音模块把系统最终生成的业务回复转化为可听的声音文件。系统采用分段流式合成,前端不必等待整段音频全部生成,一旦收到第一段音频即可开始播放。

播放控制模块会保存待播放、正在播放、暂停和任务切换等状态。若数字人正在播报时用户发送新请求,前端会立即停止当前音频并清空旧队列,保证用户听到的是最新请求的结果。

TTS分段按语义切分长回答
PLAYBACK打断新请求优先
TEST可播audio_url 正常播放
测试结果:语音合成返回音频类型与语言参数符合要求,audio_url 可正常播放。
移动端播放界面截图
移动端播放界面
语音合成流式输出
TTS 测试结果
正文 10 · 结论与展望
10 / 10
Conclusion

系统已经搭建起从语音感知、语义理解,
到服务执行与语音反馈的完整闭环

从测试结果看,系统在语音输入、文本转写、天气查询、校务问答、设备控制和语音播报等主要功能上均能正常工作,基本达到预期目标。虽然弱网情况下端到端耗时会发生变化,但主流程没有出现卡顿或异常退出。

后续改进方向主要包括:适配更复杂的噪声和多说话人场景,继续改进响应一致性与播放控制细节,并加强日志和可观测性,使系统更适合真实环境下长期运行。

NEXT 01

扩充噪声、弱网、多说话人等测试样例。

NEXT 02

继续优化响应一致性和播放控制细节。

NEXT 03

加强日志与可观测性,便于真实部署排障。

Conclusion · Future · Thanks

把语音、模型与设备
串成一条可被验证的链路——
这是本科四年留下的小小注脚。

感谢各位老师

感谢· 李晓明 老师· 罗杰 老师· 智能科学与工程学院

— 苏文慧 · 2026

融合 ASR 与 TTS 的大语言模型实时交互系统设计与实现 END · 2026.05