标准规范下载简介：

内容预览由机器从pdf转换为word，准确率92%以上，供参考

GB／T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解.pdf

SR 语义拒识率； NsR 无效文本实际响应正确的次数 N 无效文本输人的总次数

无效文本输入的忘认数。准确率：检测被测系统的语义理解能力，即被测系统对所有文本实际响应正确次数占所有文本响应的总次数的比率。参数值计算方法见公式（4)：

Ass 语义理解准确率； Nss 有效文本实际响应正确的次数； NsR 无效文本实际响应正确的次数； N 所有文本响应的总次数。

一语义理解准确率； Nss一有效文本实际响应正确的次数； NsR一无效文本实际响应正确的次数； N一所有文本响应的总次数。 F，值：检测被测系统的语义理解能力，即被测系统的语义理解精确率和语义理解召回率的加权调和平均值。参数值计算方法见公式（5)：

F，值：检测被测系统的语义理解能力NB／T 10892-2021标准下载，即被测系统的语义理解精确率和语义理解召回率的权调和平均值。参数值计算方法见公式（5）：

式中： F 语义理解F值； P ss 语义理解精确率； Rss 语义理解召回率。

Pss 十 R ss

语义理解F值； Pss一语义理解精确率；语义理解召回率。平均排序倒数：检测被测系统的信息检索能力，即正确结果在被测系统给出结果中的排序位

倒数的平均值。参数值计算方法见公式（6)

1 × 1 MRR= Q rank;

式中： MRR一一平均排序倒数； Q一一信息检索的总次数； i一第i次信息检索； rank；"一在第i次信息检索中正确结果出现的排序位置。 ? 归一化折损累计增益：检测被测系统的信息检索能力，即被测系统给出结果的排序相关性评分与理想结果的排序相关性评分的比值。参数值计算方法见公式（7）、公式（8)和公式（9)：

折损累计增益； K 信息检索结果个数；第j个检索结果；

DCG= > rel; log2 (j + 1)

> rel; CG= log2 (j + 1)

RELK IDCG= rel; log2 (j + 1) .......8

式中： IDCG一理想结果折损累计增益； IRELk|一信息检索结果个数按照相关性评分从大到小排序； j 一第j个检索结果； rel; 一第j个检索结果的相关性评分。 NDCG=DCG/IDCG 式中： NDCG一归一化折损累计增益； DCG一折损累计增益； IDCG一理想结果折损累计增益。测试方法：语义理解效果测试可根据不同功能选择适用测试指标进行测试，不同功能及其适用的效试指标对应情况见表3。

表3 不同功能及其适用的效果测试指标

GB/T41813.2—2022

表3不同功能及其适用的效果测试指标（续）

语义理解效果测试方法如下：测试数据：按照表2的要求制作测试数据集，对各测试数据集所有的文本内容进行人工标注并制作成标准结果对比文件；测试工具：符合5.2的要求；测试环境：符合5.3的要求；测试执行：按照5.4的要求对被测系统进行测试；结果判定：按照表3给出的适用关系和测试内容描述的方法得出系统运行结果并生成结果文件，包括测试数据集名称、测试数据集数量、指标项结果等。系统运行结果符合被测系统技术要求或相关标准规范则测试通过，否则不通过。

测试内容：语义理解效率测试项用语义理解平均响应时间、语义理解响应时间分布和语义理解吞吐率等参数，具体参数描述如下。 a）语义理解平均响应时间：语义理解响应时间指的是在输人一条文本后，被测系统给出该条文本的语义理解结果的时间；语义理解平均响应时间是测试数据集上所有语义理解响应时间与输人测试文本总条数的比值。参数值计算方法见公式（10)：

式中： T一语义理解平均响应时间； W一测试集； T：一测试样本i对应的语义理解时长； N一输人测试文本总条数。 b）语义理解响应时间分布：此参数显示测试数据集上所有语义理解响应时间分布及其占比情况。宜统计100ms以下占比，100ms～200ms占比和200ms以上占比情况，实际测试时可根据需要划分不同响应时间区间。 C 1 语义理解吞吐率：此参数描述一次性输人包含大量(业务相关)的测试文本数据集并一次性给出语义理解结果的效率，即被测系统在单位响应时间内语义理解的文本大小。参数值计算方法见公式（11)：

式中： TP 语义理解吞吐率；

W一一测试集； S：一测试集上样本i对应文本的大小，单位为千字节； T：一一测试样本i对应的语义理解时长。测试方法：理解效率测试方法如下。测试数据：按照表2的要求制作测试数据集。测试工具：符合5.2的要求。测试环境：符合5.3的要求。测试执行：按照5.4的要求对被测系统进行测试。一结果判定：按照测试内容描述的方法得出系统运行结果并生成结果文件，包括测试数据集名称、测试数据集数量、指标项结果等。系统运行结果符合被测系统技术要求或相关标准规范则测试通过，否则不通过。

测试内容：系统稳定性测试项包括稳定运行和资源使用等参数。 a）稳定运行：检测在给定的软硬件配置和系统并发路数的条件下，被测系统运行6.1～6.12描述的各项功能，未出现崩溃、假死或功能异常，能持续正常运行的能力。给定的软硬件配置和系统并发路数需满足被测系统正常运行的能力。 b）资源使用：检测在给定的软硬件配置和系统并发路数的条件下，被测系统运行6.1～6.12描述的各项功能，系统物理内存、虚拟内存、CPU、GPU、句柄、网络资源等各项资源使用率持续平稳的能力。给定的软硬件配置和系统并发路数需满足被测系统正常运行的能力。测试方法：系统稳定性测试方法如下。测试数据：按照测试项要求准备测试数据集，并明确软硬件配置和系统并发路数。测试工具：符合5.2的要求。测试环境：符合5.3的要求。测试执行：按照5.4的要求对被测系统进行测试，在线场景下持续7天、离线场景下持续3d连续不间断向被测系统循环输人测试文本，连续监测系统运行情况和物理内存、虚拟内存、 CPU、GPU、句柄、网络资源等各项资源使用率变化情况。结果判定：按照测试内容描述的方法得出系统运行结果并生成结果文件，包括测试数据集名称、测试数据集数量、软硬件配置、系统并发路数和指标项结果等。系统运行结果符合被测系统技术要求或相关标准规范则测试通过，否则不通过。

根据不同场景或业务需求和不同使用者感受，语义理解相关功能的效果会产生差异，本附录给出了人工主观体验测试的测试项和测试方法。

A.2.1平均对话轮数

平均对话轮数； N 请求对话总次数； R 次对话的交互轮数

DB34／T 3188-2018标准下载检测被测系统对话过程中任务完成率。计算方法见公式（A.2）：

式中： Rresch 任务完成率； 7 请求任务总次数； R 每一次对话中任务达成数，一次对话中可以有多个任务。

ER 1 X100% M

每个测试人员完成体验后，从任务完成情况、响应速度等方面综合考虑，对被测系统给出满意度般分为：非常满意、满意、一般、不满意和很差。

在测试开始前，根据场景或业务需求以及被测系统的功能描述，以随机产生的方式预定义说话人意图，并通过人工编写或采集的方式制作测试数据集。测试数据集应包括被测系统支持的和不支持的文本数据。

南京大学食堂装饰施工组织设计使用可编程测试工具和日志分析统计工具进行测试。 10

编程测试工具和日志分析统计工具进行测试。

让不少于20名且不同性别、年龄段的测试人员根据测试数据集与被测系统进行对话，记录一活中的交互轮数、一次对话中任务是否达成、体验完成后对整个体验过程的满意度。按照A.2描利试内容和方法计算测试项参数值。同时，对交互过程中的日志进行统计分析。

广播电影电视国家*用标准国家计量标准航天工业标准林业标准石油天然气外经贸标准海关标准新闻出版标准物资标准公共安全标准

资源来自互联网，如有侵权请联系删除

同类资源：信息技术电力弱电

GB／T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解.pdf

标准规范下载简介：

内容预览由机器从pdf转换为word，准确率92%以上，供参考

1 DL/T 5054-2016 火力发电厂汽水管道设计规范

2 DL/T 5210.1-2012 电力建设施工质量验收及评价规程土建工程

3 DL/T 869-2012 火力发电厂焊接技术规程

4 DL 5027-2015 电力设备典型消防规程

5 DL/T 596-2005 电力设备预防性试验规程

6 DL/T 5210.7-2010 电力建设施工质量验收及评定规程焊接

7 DL/T 5218-2012 220kV～750kV变电站设计技术规程

8 DL 5190.5-2012 电力建设施工技术规范第5部分：管道及系统

9 DL/T 678-2013 电力钢结构焊接通用技术条件

10 DL 5190.1-2012 电力建设施工技术规范第1部分土建结构工程

11 DL 5009.1-2014 电力建设安全工作规程第1部分：火力发电

12 DL 5190.2-2012 电力建设施工技术规范第2部分：锅炉机组

13 DL/T 794-2012 火力发电厂锅炉化学清洗导则

14 DL/T 5390-2014 发电厂和变电站照明设计技术规定

15 DL 5009.2-2013 电力建设安全工作规程第2部分电力线路

1 GB 2650-1989 焊接接头冲击试验方法

2 CB/T 3871-1999 船用指示灯通用技术条件

3 NY/T 657-2007 绿色食品乳制品

4 SJ 2206-1982 K-21系列反射速调管

5 QJ 2480.4-1993 固定式厢式车型系列 XH1111型厢式车技术要求

6 DB32/T 1206-2008 旅游(星级)饭店安全质量规范

7 GB/T 8324-2008 塑料模塑材料体积系数的测定

8 GB 6722-2011 爆破安全规程

9 GB/T 27748.4-2017 固定式燃料电池发电系统第4部分：小型燃料电池发电系统性能试验方法

10 DB37T 2978-2017 表面活性剂型温拌沥青混合料技术规程

11 GB/T 20996.2-2020 采用电网换相换流器的高压直流系统的性能第2部分：故障和操作

12 GBT5700-2008照明测量方法规范.pdf

13 挤塑型聚苯乙烯保温隔热板建筑工程节能专项施工方案

14 凤凰和鸣苑施工组织设计(投标)二期终稿

GB／T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分：语义理解.pdf

标准规范下载简介：

内容预览由机器从pdf转换为word，准确率92%以上，供参考

1 DL/T 5054-2016 火力发电厂汽水管道设计规范

2 DL/T 5210.1-2012 电力建设施工质量验收及评价规程 土建工程

3 DL/T 869-2012 火力发电厂焊接技术规程

4 DL 5027-2015 电力设备典型消防规程

5 DL/T 596-2005 电力设备预防性试验规程

6 DL/T 5210.7-2010 电力建设施工质量验收 及评定规程 焊接

7 DL/T 5218-2012 220kV～750kV变电站设计技术规程

8 DL 5190.5-2012 电力建设施工技术规范 第5部分：管道及系统

9 DL/T 678-2013 电力钢结构焊接通用技术条件

10 DL 5190.1-2012 电力建设施工技术规范 第1部分 土建结构工程

11 DL 5009.1-2014 电力建设安全工作规程 第1部分：火力发电

12 DL 5190.2-2012 电力建设施工技术规范 第2部分：锅炉机组

13 DL/T 794-2012 火力发电厂锅炉化学清洗导则

14 DL/T 5390-2014 发电厂和变电站照明设计技术规定

15 DL 5009.2-2013 电力建设安全工作规程 第2部分电力线路

1 GB 2650-1989 焊接接头冲击试验方法

2 CB/T 3871-1999 船用指示灯通用技术条件

3 NY/T 657-2007 绿色食品 乳制品

4 SJ 2206-1982 K-21系列反射速调管

5 QJ 2480.4-1993 固定式厢式车型系列 XH1111型厢式车技术要求

6 DB32/T 1206-2008 旅游(星级)饭店安全质量规范

7 GB/T 8324-2008 塑料 模塑材料体积系数的测定

8 GB 6722-2011 爆破安全规程

9 GB/T 27748.4-2017 固定式燃料电池发电系统 第4部分：小型燃料电池发电系统性能试验方法

10 DB37T 2978-2017 表面活性剂型温拌沥青混合料技术规程

11 GB/T 20996.2-2020 采用电网换相换流器的高压直流系统的性能 第2部分：故障和操作

12 GBT5700-2008照明测量方法规范.pdf

13 挤塑型聚苯乙烯保温隔热板建筑工程节能专项施工方案

14 凤凰和鸣苑施工组织设计(投标)二期终稿

GB／T 41813.2-2022 信息技术智能语音交互测试方法第2部分：语义理解.pdf

2 DL/T 5210.1-2012 电力建设施工质量验收及评价规程土建工程

6 DL/T 5210.7-2010 电力建设施工质量验收及评定规程焊接

8 DL 5190.5-2012 电力建设施工技术规范第5部分：管道及系统

10 DL 5190.1-2012 电力建设施工技术规范第1部分土建结构工程

11 DL 5009.1-2014 电力建设安全工作规程第1部分：火力发电

12 DL 5190.2-2012 电力建设施工技术规范第2部分：锅炉机组

15 DL 5009.2-2013 电力建设安全工作规程第2部分电力线路

3 NY/T 657-2007 绿色食品乳制品

7 GB/T 8324-2008 塑料模塑材料体积系数的测定

9 GB/T 27748.4-2017 固定式燃料电池发电系统第4部分：小型燃料电池发电系统性能试验方法

11 GB/T 20996.2-2020 采用电网换相换流器的高压直流系统的性能第2部分：故障和操作