智能体评测

更新时间：2026-02-03 05:54:48LLM 副本以 Markdown 格式查看下载 PDF

概述

智能体评测，是指对通过系统化的测试方法对智能体的编排效果进行可视化分析和评估的过程，用以验证智能体是否达到预期的能力与性能。在编排调试阶段，为您提供客观的质量评估依据，帮助您持续优化智能体编排，提升智能体表现。

您可以通过导入目标测试场景下的测试数据集，系统调用智能体并收集输出结果，对结果进行分析，达到评估智能体能力和效果的目的。

进入我的智能体列表页，选择一个智能体，单击操作列下的 ··· > 批量测试，进入评测页面。

智能体评测

或单击操作列下的 Agent 管理，进入智能体详情页，然后单击页面右上角的 批量测试，进入评测页面。

智能体评测

只有发布过正式版本的智能体才能进行批量测试。

平台支持 AI 评测模型自动分析测试结果。在创建评测任务时，选择 AI 评测 调试类型，系统则会自动调用评测模型分析智能体测试结果，并输出分析结果。

单击页面右上角的 AI 评测配置，进入配置页面。AI 评测配置针对当前智能体有效。您在该智能体下创建一个或多个 AI 评测 类型的任务时，都会调用这个评测配置项。
AI 评测配置包括 评测模型 和 评测提示词。

您可以自行输入评测提示词，或单击页面左下角的提示词模板，查看模板内容并单击使用来引用该模板。也可以通过单击 切换英文/切换中文 来切换提示词模板的语种，目前支持中英文。

配置完成后，单击确定保存。
每次保存后，系统会默认生成一个配置的历史版本。在右侧 历史记录 下单击详情可查阅历史版本内容，也可单击 恢复此版本 恢复某个历史版本的配置。

在批量测试任务列表页，单击右上角的 创建任务，即可创建一个针对当前智能体的评测任务。支持对所有智能体已发布的版本进行评测。

智能体评测

创建任务字段

字段名称	说明
所在数据区	当前评测智能体的数据区。任务数据也保存在该数据区
Agent 名称	当前评测智能体的名称
选择版本	选择一个当前智能体的历史发布版本
测试任务名称	当前评测任务的名称
调试类型	调试类型有两种类型：智能体执行和 AI 评测智能体执行：指智能体执行测试数据并输出结果 AI 评测：指当智能体执行完成输出结果后，AI 评测模型自动分析输出内容并提供分析结果
导入数据	导入数据即导入测试数据。支持表格文件导入测试数据，一次只能上传一个文件。建议单击下载测试集模板后，按照模板的格式上传测试数据，避免文件解析失败

配置完成后，单击 保存并立即执行，测试任务即开始执行。

任务执行完成后，单击任务详情可在线查看执行结果，或单击下载来下载执行结果文件。如果智能体关联了知识库，可在执行结果中单击 查看检索 查看知识库检索的详情。

智能体评测

评测结果字段

字段名称	说明
输入	您上传的测试用例数据
期望输出	测试数据输入给智能体后，预期响应的内容
实际输出	智能体实际生成的结果
评测结果	人工自定义标注。您可以标识通过/失败标记，或添加其他描述
评测说明	若调试类型为 AI 评测，则展示模型评估意见若调试类型为智能体执行，则字段为空，可人工自定义标注
其他信息	自定义输入，您可以根据需要添加备注信息
知识库检索	如果智能体关联了知识库，可查看当前这条数据输入后，智能体对知识库检索的详情。知识库检索详情不支持文件导出

平台支持智能体下任意两个任务的在线对比。单击 批量测试 任务列表页的 结果对比，进入对比模式。选择任意两个历史任务，单击 结果比对，可显示任务比对详情。

智能体评测

您也可以选择下载任务执行结果文件，在本地进行更细致的对比。

智能体评测功能目前不收费，执行评测任务产生的 Token 消耗正常计量。

您可前往资源消耗页面查看 Token 消耗的明细，或选择一个智能体，进入 批量测试列表页，在 Token 消耗 列查看每个任务消耗的 Token。

智能体评测