音频质量调试

更新时间:2025-04-19 05:37:50下载pdf

音频质量调试

语音交互是 AI 硬件的基本功能,交互过程中音频数据的质量,是保障产品功能、体验的基础,也是保证语音识别正确率,大模型理解、应答准确度的前提条件。因此,每个 AI 硬件产品都需要进行音频质量调试。

涂鸦提供了基础的音频数据调试方法,以协助您在开发过程中获取音频数据,并结合数据对产品结构、硬件、软件进行调整,保障音频数据质量,提高唤醒率、语音识别率,优化大模型交互体验。

获取数据

Wukong AI 硬件开发框架提供了基础的音频调试方法,以 tuyaos_demo_ai_toy 为例,操作步骤如下:

  1. 开启音频调试功能。修改 tuya_ai_debug.h,将 TUYA_UPLOAD_DEBUG 设置为 1

    #define TUYA_UPLOAD_DEBUG 1
    
  2. 修改 tuya_ai_debug.c,将服务端 ip 修改成上位机的 ip,一般为您的调试电脑的 ip

    #define TCP_SERVER_IP "192.168.32.160"  // IP 修改成您的调试上位机所在的电脑的 IP
    #define TCP_SERVER_PORT 5055
    
  3. 将项目中 scripts/ai_audio_proc.py 复制到 windows,并运行该文件。

    需要安装 pyaudio 库。

    python ai_audio_proc.py
    
    音频质量调试
  4. 编译固件,烧录到设备上,运行并对话。固件在拾音、上传时,会自动将 AECVAD 阶段的音频数据上传到当前脚本目录并播放,可佩戴耳机检查语音数据的完整性。

    音频质量调试

分析数据

使用专业工具分析音频数据文件,建议使用 Ocenaudio 来分析、对比抓取到的音频文件。

音频质量调试

优化调整

硬件优化

参考涂鸦提供的硬件方案,调整硬件结构,推荐采购以下配套硬件:

软件优化

目前音频参数调整暂时只建议调整 VAD 的能量阈值。(目前其他参数调整过于复杂,待涂鸦优化之后再对外发布。)

VAD 能量阈值调整位于 tkl_audio.c 文件的参数 aud_voc_setup.aec_cfg.SPthr[0] 中。目前默认值为 2500,可以在 800~4000 之间进行调整,且数值越低、越容易触发。比如,想要过滤掉旁边的人声,可以调高此阈值;想接收远处的声音,则需要把此值适当调低。

aud_voc_setup.aec_cfg.SPthr[0] = 2500;

支持与帮助

在开发过程遇到问题,可以到 TuyaOS 开发者论坛 联网单品开发版块 发帖咨询。