更新时间:2025-04-19 05:37:50下载pdf
语音交互是 AI 硬件的基本功能,交互过程中音频数据的质量,是保障产品功能、体验的基础,也是保证语音识别正确率,大模型理解、应答准确度的前提条件。因此,每个 AI 硬件产品都需要进行音频质量调试。
涂鸦提供了基础的音频数据调试方法,以协助您在开发过程中获取音频数据,并结合数据对产品结构、硬件、软件进行调整,保障音频数据质量,提高唤醒率、语音识别率,优化大模型交互体验。
Wukong AI 硬件开发框架提供了基础的音频调试方法,以 tuyaos_demo_ai_toy
为例,操作步骤如下:
开启音频调试功能。修改 tuya_ai_debug.h
,将 TUYA_UPLOAD_DEBUG
设置为 1
。
#define TUYA_UPLOAD_DEBUG 1
修改 tuya_ai_debug.c
,将服务端 ip
修改成上位机的 ip
,一般为您的调试电脑的 ip
。
#define TCP_SERVER_IP "192.168.32.160" // IP 修改成您的调试上位机所在的电脑的 IP
#define TCP_SERVER_PORT 5055
将项目中 scripts/ai_audio_proc.py
复制到 windows
,并运行该文件。
需要安装 pyaudio 库。
python ai_audio_proc.py
编译固件,烧录到设备上,运行并对话。固件在拾音、上传时,会自动将 AEC
、VAD
阶段的音频数据上传到当前脚本目录并播放,可佩戴耳机检查语音数据的完整性。
使用专业工具分析音频数据文件,建议使用 Ocenaudio 来分析、对比抓取到的音频文件。
参考涂鸦提供的硬件方案,调整硬件结构,推荐采购以下配套硬件:
目前音频参数调整暂时只建议调整 VAD
的能量阈值。(目前其他参数调整过于复杂,待涂鸦优化之后再对外发布。)
VAD
能量阈值调整位于 tkl_audio.c
文件的参数 aud_voc_setup.aec_cfg.SPthr[0]
中。目前默认值为 2500,可以在 800~4000 之间进行调整,且数值越低、越容易触发。比如,想要过滤掉旁边的人声,可以调高此阈值;想接收远处的声音,则需要把此值适当调低。
aud_voc_setup.aec_cfg.SPthr[0] = 2500;
在开发过程遇到问题,可以到 TuyaOS 开发者论坛 联网单品开发版块 发帖咨询。
该内容对您有帮助吗?
是意见反馈该内容对您有帮助吗?
是意见反馈