GB/T 36464.1-2020 标准规范下载简介:
内容预览由机器从pdf转换为word,准确率92%以上,供参考
GB/T 36464.1-2020 信息技术 智能语音交互系统 第1部分:通用规范系统在语音唤醒过程中,宜支持使用文本相关声纹识别和命令字匹配,且在声纹确认成功 系统。
7.1.3自定义唤醒命令字
NY/T 2573-2014 植物新品种特异性、一致性和稳定性测试指南 高羊茅 草地羊茅系统应支持对用于语音唤醒的命令字进行自定义
7.1.4多唤醒命令字
7.1.5 多音频流监听
系统在进行语音唤醒时,应支持同时监听多个音步
系统应支持通过对声源的平面角、方 方位角和声源距离的计算,来对发声源进行定位
系统应支持下列声纹识别功能: a) 文本相关的声纹识别; b) 文本无关的声纹识别; c) 指定文本的声纹识别; d) 声纹模型训练; e) 声纹模型自适应; f) 声纹确认; g) 声纹辨认; h) 声纹检出; i) 声纹追踪; j) 语言相关的声纹识别;
k)语言无关的声纹识别。 上述功能描述和要求应符合SJ/T113802008第3章的要求
GB/T36464.12020
系统应支持获取指定文本或目定义文本,用于声纹模型训练、声纹模型目适应、声纹确认和声纹 辨认。
应支持对输入语音中的背景噪声进行抑制,提高语
系统应支持下列全部或大部分语音识别功能: a) 中文语音识别服务; b) 多语种识别; c 多方言识别: d) 多语种混读识别; e) 自定义语法; f) 个性化识别; g) 识别结果多候选; h) 自定义热词: i) 识别结果进阶; j) 语言信息识别; k) 说话者信息识别。 上述功能描述和要求应符合GB/T34083一2017中4.2和4.3的要求
8.1.2 语音识别方式
B/136464.1 2020 语音识别中的一种。
8.2.1自定义语义词典
能支持应用程序自定义语义词典和用户自定义
8.2.2自定义语义库
能支持应用程序自定义语义库和用户自定义语
系统应正确处理错别字、同义词、多字少字问是
系统在交互过程中,应抽取语义要素和用户的关键意图
系统能在语义理解结果中给出多个排序后的理解结果,供用户进行选择或二次确认
系统应支持下列全部或大部分语音合成功能: a) 中文语音合成; b)流式语音合成; c)多种合成文本编码; d)个性化合成; e)多语种合成; f) 多方言合成; g) 多语种混读合成; h)合成音频多音色; 用户自定义分词; ) 用户自定义读音; k)合成文本位置信息; 1) 文本分词和拼音信息; m)音频时间信息。 上述功能描述和要求应符合GB/T34145—201
支持从一段连续的音频流中检测出第一个语音段
系统应支持从一段连续的音频流中检测出多
8.4.3端点检测灵敏度设置
8.5.2压缩等级设置
系统应支持根据当前网络状况、系统性能等要求来设置语音编码算法的压缩等级。
系统宜支持全双工语音交互;在此状: 次语音唤醒和随时语音打断,能进行上下文语 境和开放式对话管理,能控制对话节奏和预测用户意图等
系统宜支持以语音信号为载体的情感计算
系统应其备可供外部调用的服务接 中,中文语音识别的互联网接口应符合GB/T34083的 规定,中文语音合成的互联网接口应符合GB/T34145的规定
系统应支持将用户意图转换成应用和业务的控制命令或系统指令,实现应用和业务的响应。
本附录给出了用于描述智能语音交互系统的部分参数定义及其计算方法
附录A (资料性附录) 部分参数及其计算方法
当声源与拾音设备之间的距离≤1m时,为近场;当声源与拾音设备之间的距离>1m时,为远场
在一定的时间段内,成功的语音交互会话总数占有效的语音交互会话总数的百分比。“成功的语音 交互会话”指获取到完整的语音服务结果,期间未产生差错的语音交互会话;“有效的语音交互会话”指 全部的语音交互会话去除由于用户终端故障或用户行为、参数错误导致的失败会话。 交互成功率的计算方法参见公式(A.1):
式中: Ps——交互成功率,%; S 交互成功的次数; F 交互失败的次数。
间内的语音唤醒操作中,成功唤醒的次数占语音唤醒总次数的比率。用于描述语音唤醒操 同应情况,其计算方法参见公式(A.2):
式中: 唤醒率,%; 成功唤醒次数; N 语音唤醒操作次数
式中: 唤醒率,%; Nsw 成功唤醒次数; N.. 语音唤醒操作次数
误唤醒频度描述误唤醒操作在单位时间内出现的频度,其计算方法参见公式(A,3):
句识别率的计算方法参见公式(A.4):
句识别率,%; 智能语音交互系统正确识别的句数; N。标注总句数
A.5.3起始响应时间
从检测到用户有效语音输人时起至得到第一部分识别结果时止中间经过的时间,单位为 1s),用于描述语音识别响应的实时性
A.5.4结束响应时间
从检测到用户有效语音输入结束时起至得到最后一部分识别结果时止中间经过的时间,单位, (ms),用于描述语音识别响应的实时性
A.6.1 语义理解正确率
语义理解正确率计算方法参见公式(A.5)
语义理解正确率计算方法参见公式(A.5
式中: Rss 语义理解正确率,%; 操作意图及语义要素均被正确判断的次数; N 用户输入被正确识别出文本信息的总次数。
语文理解响应正确率计算方法参见公式(A.6):
式中: 语义理解响应正确率,%; Nss———操作意图及语义要素均被正确判断的次数; NsR 被正确拒识的次数; 用户输入被正确识别出文本信息的总次数。
A.7.1合成响应时间
合成响应时间描述了语音合成系统响应的及时性,指从用户写人合成文本时起至拿到第一块合成 音频时止中间经过的时间,单位为毫秒(ms)
一次语音合成会话输出的合成音频数据总量 (kbit/s)。合成音频数据总量以解码后的音频数据量计算,语音合成会话的持续时间指从用户写入合 成文本时起至拿到最后一块合成音频时止中间经过的时间。 语音合成系统的平均码流率宜大于或等于合成音频格式的标称码流率
信噪比用来描述智能语音交互系统使用的背景环境,其计算方法参见GB/T21023一2007中4 定。
A.8.3平均意见得分
分(MOS)是语音质量的一种主观度量。MOS量
表A.19主观MOS量化分值
A.10语音编解压缩率
语音编解压缩率为语音压缩算法车 的待压缩音频的码流率之比。
A.11.1信噪比改善
言噪比改善为语音增强功能单元输出语音信噪比与输入语音信噪比的比值。
A.11.2噪声抑制量
噪声抑制量的计算方法参见公式(A.7):
式中: DNR 噪声抑制量,单位为分贝(dB); vi(n) 一输人信号中第n个噪声信号的振幅; Vout (n) 输出信号中第n个噪声信号的振幅; N 输人信号频谱频率分量的总数量。
4.12.1平面角定位误差
A.12.2俯仰角定位误差
NY/T 2140-2012 绿色食品 代用茶A.12.3距离定位误差
误差为声源定位功能单元计算得到的声源位置距
A.13语音打断成功率
I vim(n)[2 DNR =10log I Vout(n) |2
对话管理中,语音打断成功率指某段时间内,语音打断操作被正确响应的次数占总次数的比率
GB/T36464.1—2020
SB/T 10732-2012 营养师岗位技能要求土算方法参见公式(A.8)
式中: P:——语音打断成功率,%; N:———被语音交互系统正确响应的次数; N——交互内容中需要执行打断操作的次数。