Omni AI Foundation 是涂鸦智能面向多模态 AI 硬件场景打造的基座平台,整合了实时音视频通信(T-RTC)、AI Agent 运行时、多 Agent 编排架构(DOS)及全球分布式部署能力,为 AI 硬件提供从设备接入、多模态交互到业务流程编排的全栈技术方案。
V2.6 版本在架构层面完成了三项关键升级:
平台基于 Tuya Real-Time Communication(T-RTC)加速网络构建全球实时交互能力:
| 维度 | 规模 |
|---|---|
| 数据中心 | 全球 7 个区域 |
| 媒体加速网络 | 覆盖数十个主流国家 |
| 边缘加速节点 | 数千个主流城市 |
在包含记忆检索、知识库召回及工具调用的复杂场景下,端到端交互平均时延稳定在 1.3s 以内。
测试条件说明:
协议开放状态:
| 协议 | 适用场景 | 当前状态 |
|---|---|---|
| WebSocket | PC/浏览器终端接入 | 已开放 |
| UDP | APP SDK 集成 | 已开放 |
| TCP | 嵌入式设备 | 后续版本开放 |
DOS(Dynamic Orchestration Agent System)是 V2.6 的核心架构升级,旨在解决 AI 硬件场景下多模态能力集成复杂、开发效率不足的问题。
核心设计原则:
统一输入 → 意图理解与分类 → 多 Agent 并行处理 → 统一输出
关键技术特性:
开发者可通过拖拽式操作完成复杂业务链路搭建,无需编写编排逻辑代码。编排引擎负责运行时的路由决策、并发控制与异常处理。
V2.6 对设备侧 MCP 集成方案进行了架构级重构:
设计思路:将 AI 硬件常用的端侧能力统一抽象为标准化云端服务,使 AI Agent 在统一、安全、可控的方式下调用端侧能力。
抽象后的标准化能力包括:
性能收益:视觉理解链路端到端性能提升约 50%(对比 V2.5 端侧直接处理方案)。
依赖条件:端侧 MCP 集成需基于 Wukong V3.13.0 及以上版本。
| 接入方式 | 说明 |
|---|---|
| Tuya Wukong AI | 嵌入式 AI 设备 |
| TuyaOpen | 开源硬件生态 |
| Tuya APP SDK | 移动端应用 |
| WebSocket | PC/浏览器终端(V2.6 新增) |
| Foundation SDK | 开放系统集成(规划中) |
语音活动检测(VAD)是语音交互场景的核心环节,面临响应速度与误判率的经典权衡:
| 指标 | 涂鸦 VAD | 技术意义 |
|---|---|---|
| 静音检测 | 500ms | 减少有效语音误判,避免频繁中断 |
| 打断检测 | 300ms | 极速响应用户主动打断意图 |
推荐配置策略:打断检测设为极速 300ms,VAD 检测设为优雅 800ms。在此配置下,全球端到端平均时延仍控制在 1.3s,在响应流畅性和误触发抑制之间取得最优平衡。
针对 AI 硬件场景中大模型能力扩展带来的意图幻觉与响应链路变长问题,涂鸦基于多年 AI 硬件领域场景数据训练了专用意图分类模型。
技术优势:
当前覆盖范围:涂鸦官方技能全覆盖,后续将开放第三方 MCP 工具与自定义技能的分类召回支持。
针对全球市场部署需求,ASR 模型已完成以下语种的专项优化:
| 语种 | 优化方向 |
|---|---|
| 英语 | 多口音覆盖 |
| 西班牙语 | 拉美/伊比利亚变体适配 |
| 日语 | 语法结构与语调特征 |
| 东南亚多语种 | 混合语码场景 |
基准测试基于 CommonVoice 开源测试集,与 Whisper-large-v3(离线模型)对比验证各区域准确率。平台为不同区域匹配最优 ASR 服务商,确保实时流式识别场景下的最佳 WER 表现。
注:Whisper-large-v3 为离线模型,无法用于对话式语音交互,但其较低的 WER 可作为各语种准确率的参考基线。
AI 记忆系统需解决四个核心难题:
| 难题 | 说明 |
|---|---|
| 时间处理 | 记忆的时序关系推理与衰减建模 |
| 信息干扰 | 噪声信息对有效记忆检索的影响 |
| 记忆割裂 | 跨会话、跨设备的记忆连续性 |
| 动态更新 | 用户偏好变化时的记忆修正与覆盖 |
OmniMem 通过底层架构优化与算法创新,实现低延迟与高精度的有效平衡。平台侧一步配置即可启用,无需开发者自行实现记忆管理逻辑。
| 能力维度 | 涂鸦 Omni AI Foundation V2.6 | 行业对比优势 |
|---|---|---|
| 端到端时延 | 1.3s(含记忆/知识库/工具调用) | 复杂场景下显著优于行业平均 |
| 服务可用性 | 99.95% | 金融级 SLA |
| 编排架构 | DOS 多 Agent 并行编排 | 低代码 + 最短路径决策 |
| 视觉链路 | 端云统一 MCP,性能提升 50% | 减少端侧开发成本 |
| VAD 能力 | 500ms 静音 / 300ms 打断 | 流畅性与准确率最优平衡 |
| 记忆系统 | OmniMem 一步配置商用 | 开源测试集领先得分 |
| 全球部署 | 7 数据中心 + 数千边缘节点 | 全球一致体验 |
| 协议支持 | TCP/UDP/WebSocket 全覆盖 | 多终端场景灵活接入 |
该内容对您有帮助吗?
是意见反馈该内容对您有帮助吗?
是意见反馈