GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdf

GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdf
积分0.00
特惠
积分0
VIP全站资料免积分下载
立即下载
同类资料根据编号标题搜索
文档
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:5.1 M
标准类别:电力标准
资源ID:378688
VIP资源

标准规范下载简介:

内容预览由机器从pdf转换为word,准确率92%以上,供参考

GB/T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解.pdf

SR 语义拒识率; NsR 无效文本实际响应正确的次数 N 无效文本输人的总次数

无效文本输入的忘认数。 准确率:检测被测系统的语义理解能力,即被测系统对所有文本实际响应正确次数占所有文 本响应的总次数的比率。参数值计算方法见公式(4):

Ass 语义理解准确率; Nss 有效文本实际响应正确的次数; NsR 无效文本实际响应正确的次数; N 所有文本响应的总次数。

一语义理解准确率; Nss一有效文本实际响应正确的次数; NsR一无效文本实际响应正确的次数; N一所有文本响应的总次数。 F,值:检测被测系统的语义理解能力,即被测系统的语义理解精确率和语义理解召回率的加 权调和平均值。参数值计算方法见公式(5):

F,值:检测被测系统的语义理解能力NB/T 10892-2021标准下载,即被测系统的语义理解精确率和语义理解召回率的 权调和平均值。参数值计算方法见公式(5):

式中: F 语义理解F值; P ss 语义理解精确率; Rss 语义理解召回率。

Pss 十 R ss

语义理解F值; Pss一语义理解精确率; 语义理解召回率。 平均排序倒数:检测被测系统的信息检索能力,即正确结果在被测系统给出结果中的排序位

倒数的平均值。参数值计算方法见公式(6)

1 × 1 MRR= Q rank;

式中: MRR一一平均排序倒数; Q一一信息检索的总次数; i一第i次信息检索; rank;"一在第i次信息检索中正确结果出现的排序位置。 ? 归一化折损累计增益:检测被测系统的信息检索能力,即被测系统给出结果的排序相关性评 分与理想结果的排序相关性评分的比值。参数值计算方法见公式(7)、公式(8)和公式(9):

折损累计增益; K 信息检索结果个数; 第j个检索结果;

DCG= > rel; log2 (j + 1)

> rel; CG= log2 (j + 1)

RELK IDCG= rel; log2 (j + 1) .......8

式中: IDCG一理想结果折损累计增益; IRELk|一信息检索结果个数按照相关性评分从大到小排序; j 一第j个检索结果; rel; 一第j个检索结果的相关性评分。 NDCG=DCG/IDCG 式中: NDCG一归一化折损累计增益; DCG一折损累计增益; IDCG一理想结果折损累计增益。 测试方法:语义理解效果测试可根据不同功能选择适用测试指标进行测试,不同功能及其适用的效 试指标对应情况见表3。

表3 不同功能及其适用的效果测试指标

GB/T41813.2—2022

表3不同功能及其适用的效果测试指标(续)

语义理解效果测试方法如下: 测试数据:按照表2的要求制作测试数据集,对各测试数据集所有的文本内容进行人工标注 并制作成标准结果对比文件; 测试工具:符合5.2的要求; 测试环境:符合5.3的要求; 测试执行:按照5.4的要求对被测系统进行测试; 结果判定:按照表3给出的适用关系和测试内容描述的方法得出系统运行结果并生成结果文 件,包括测试数据集名称、测试数据集数量、指标项结果等。系统运行结果符合被测系统技术 要求或相关标准规范则测试通过,否则不通过。

测试内容:语义理解效率测试项用语义理解平均响应时间、语义理解响应时间分布和语义理解吞吐 率等参数,具体参数描述如下。 a)语义理解平均响应时间:语义理解响应时间指的是在输人一条文本后,被测系统给出该条文本 的语义理解结果的时间;语义理解平均响应时间是测试数据集上所有语义理解响应时间与输 人测试文本总条数的比值。参数值计算方法见公式(10):

式中: T一语义理解平均响应时间; W一测试集; T:一测试样本i对应的语义理解时长; N一输人测试文本总条数。 b)语义理解响应时间分布:此参数显示测试数据集上所有语义理解响应时间分布及其占比情 况。宜统计100ms以下占比,100ms~200ms占比和200ms以上占比情况,实际测试时可 根据需要划分不同响应时间区间。 C 1 语义理解吞吐率:此参数描述一次性输人包含大量(业务相关)的测试文本数据集并一次性给 出语义理解结果的效率,即被测系统在单位响应时间内语义理解的文本大小。参数值计算方 法见公式(11):

式中: TP 语义理解吞吐率;

W一一测试集; S:一测试集上样本i对应文本的大小,单位为千字节; T:一一测试样本i对应的语义理解时长。 测试方法:理解效率测试方法如下。 测试数据:按照表2的要求制作测试数据集。 测试工具:符合5.2的要求。 测试环境:符合5.3的要求。 测试执行:按照5.4的要求对被测系统进行测试。 一结果判定:按照测试内容描述的方法得出系统运行结果并生成结果文件,包括测试数据集名 称、测试数据集数量、指标项结果等。系统运行结果符合被测系统技术要求或相关标准规范则 测试通过,否则不通过。

测试内容:系统稳定性测试项包括稳定运行和资源使用等参数。 a)稳定运行:检测在给定的软硬件配置和系统并发路数的条件下,被测系统运行6.1~6.12描述 的各项功能,未出现崩溃、假死或功能异常,能持续正常运行的能力。给定的软硬件配置和系 统并发路数需满足被测系统正常运行的能力。 b)资源使用:检测在给定的软硬件配置和系统并发路数的条件下,被测系统运行6.1~6.12描述 的各项功能,系统物理内存、虚拟内存、CPU、GPU、句柄、网络资源等各项资源使用率持续平 稳的能力。给定的软硬件配置和系统并发路数需满足被测系统正常运行的能力。 测试方法:系统稳定性测试方法如下。 测试数据:按照测试项要求准备测试数据集,并明确软硬件配置和系统并发路数。 测试工具:符合5.2的要求。 测试环境:符合5.3的要求。 测试执行:按照5.4的要求对被测系统进行测试,在线场景下持续7天、离线场景下持续3d连 续不间断向被测系统循环输人测试文本,连续监测系统运行情况和物理内存、虚拟内存、 CPU、GPU、句柄、网络资源等各项资源使用率变化情况。 结果判定:按照测试内容描述的方法得出系统运行结果并生成结果文件,包括测试数据集名 称、测试数据集数量、软硬件配置、系统并发路数和指标项结果等。系统运行结果符合被测系 统技术要求或相关标准规范则测试通过,否则不通过。

根据不同场景或业务需求和不同使用者感受,语义理解相关功能的效果会产生差异,本附录给出了 人工主观体验测试的测试项和测试方法。

A.2.1平均对话轮数

平均对话轮数; N 请求对话总次数; R 次对话的交互轮数

DB34/T 3188-2018标准下载检测被测系统对话过程中任务完成率。计算方法见公式(A.2):

式中: Rresch 任务完成率; 7 请求任务总次数; R 每一次对话中任务达成数,一次对话中可以有多个任务。

ER 1 X100% M

每个测试人员完成体验后,从任务完成情况、响应速度等方面综合考虑,对被测系统给出满意度 般分为:非常满意、满意、一般、不满意和很差。

在测试开始前,根据场景或业务需求以及被测系统的功能描述,以随机产生的方式预定义说话人意 图,并通过人工编写或采集的方式制作测试数据集。测试数据集应包括被测系统支持的和不支持的文 本数据。

南京大学食堂装饰施工组织设计使用可编程测试工具和日志分析统计工具进行测试。 10

编程测试工具和日志分析统计工具进行测试。

让不少于20名且不同性别、年龄段的测试人员根据测试数据集与被测系统进行对话,记录一 活中的交互轮数、一次对话中任务是否达成、体验完成后对整个体验过程的满意度。按照A.2描 利试内容和方法计算测试项参数值。同时,对交互过程中的日志进行统计分析。

©版权声明
相关文章