T/ZSA 16-2020 电梯智能语音交互系统技术规范.pdf

T/ZSA 16-2020 电梯智能语音交互系统技术规范.pdf
积分0.00
特惠
积分0
VIP全站资料免积分下载
立即下载
同类资料根据编号标题搜索
文档
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:4.9 M
标准类别:电力标准
资源ID:383006
VIP资源

标准规范下载简介:

内容预览由机器从pdf转换为word,准确率92%以上,供参考

T/ZSA 16-2020 电梯智能语音交互系统技术规范.pdf

电梯智能语音交互系统应支持命令词识别和连续语音识别,并采用命令词识别率来评价系统对命令 词的正确识别情况,以及采用句识别率评价电梯智能语音交互系统对连续语音的正确识别情况。 电梯智能语音交互系统应当符合如下要求:通过获取待识别语音,并对待识别语音进行特征提取, 获得语音特征信息,进而根据目标声学模型以及目标语言模型,确定语音特征信息对应的目标字符序列, 即句文本内容。目标语言模型包括第一语言模型、第二语言模型,第一语言模型通过电梯场景的命令词 训练文本进行语言模型训练得到,第二语言模型通过第一文本训练集进行语言模型训练得到,第一文本 指的是用于语言模型训练的通用文本训练集

式中: Acc一一命令词识别率; T一一为替换字符个数; D一为删除字符个数; R一为插人字符个数; N 一为字符总个数。 本命令词识别率在场景1下应在95%以上,在场景2下应在90%以上。 句识别率本计算方法见式(4),句识别率评价标准见表4。

式中: PsR 句识别率

某高层商住楼悬挑脚手架施工方案nSRx100% PsR NsL

表4句识别率评价标准

针对表1和表2中的典型应用场景,句识别率应符合下列要求 a) 场景1的句识别率不应低于85%; b)场景2的句识别率不应低于75%

电梯智能语音交互系统在在线条件下应支持意图识别,即对经语音识别得到语句进行意图识别,得 到语句的意图以及意图类型;基于得到的意图类型,对语句进行槽位提取,得到意图的槽位信息;根据 意图以及槽位信息,控制电梯执行相应的功能;意图类型包括第一意图类型、第二意图类型和目标意图 类型,意图识别后,可根据意图类型的不同,选择不同的槽位提取方式对语句进行槽位提取,第一意图 类型用于指示语句为对电梯所需执行功能的直接指令,第二意图类型用于指示语句需分析以确定电梯所 需执行功能,目标意图类型用于指示语句为用户间的对话信息。

5.1.9.1响应类型

特定语音交互任务指的是电梯智能语音交互系统接收乘员的语音输人后,触发电梯呼叫系统控制电 梯相关部件做出与语音输人对应的响应类型。 响应类型包括: a)电梯智能语音交互系统接收电梯乘员输入的语音指令后,电梯智能语音交互系统触发电梯呼叫 系统,由电梯呼叫系统触发电梯做出相应的动作响应,电梯动作响应包括:电梯的硬件按钮高亮、电梯 门的开/关、去往目标楼层的执行/取消; b)电梯智能语音交互系统接收电梯乘员输人的语音指令后,触发扬声器输出合成语音响应,合成 语音响应指的是扬声器输出合成语音信息; c)电梯智能语音交互系统接收电梯乘员输人的语音指令后,触发显示屏输出屏幕显示响应,屏幕 显示响应指的是屏幕显示文本或者显示图像等信息

5.1.9.2响应时间

对于单次特定语音交互任务,通过单次的响应时间来评价电梯智能语音交互系统对单次特定诺 任务的响应速度,其计算方式见公式(5)。

式中: Tack一单次响应时间; t一给出结果的时刻; t。一语音输入的结束时刻。 语音输人的结束时刻为电梯智能语音交互系统完成接收语音信号的时刻。给出结果的时刻为电梯智 能语音交互系统输出语音响应的时刻,或者为电梯智能语音交互系统输出屏幕显示响应的时刻,或者为 电梯做出硬件动作响应的时刻。 电梯智能语音交互系统对于特定语音交互任务的响应速度,通过多次特定语音交互任务的平均响应 时间来评价,该平均响应时间的计算方式见公式 (6)

Tack Tack = N

Tck——平均响应时间; Tacki一单次响应时间; N一表示多次特定语音交互任务。 离线电梯智能语音交互系统的平均响应时间不应大于500ms;在线电梯智能语音交互系统的平均响 应时间不应大于1000ms。

单次响应时间: N一表示多次特定语音交互任务。 离线电梯智能语音交互系统的平均响应时间不应大于500ms;在线电梯智能语音交互系统的平 时间不应大于1000ms。

注: 本规范中的离线指的是本电梯智能语音交互系统未连接网络 本规范中的在线指的是本电梯智能语音交 接网络

5.1.9.3交互成功率

交互成功,指的是既定交互轮数内正确完成了特定语音交互任务,则此次语音交互成功。 交互失败,指的是既定交互轮数内未完成特定语音交互任务前退出交互、对特定语音交互任务无响 应和对特定语音交互任务错误响应等。 交互成功率作为交互成功的评价指标,用于评价电梯智能语音交互系统对特定语音交互任务的成功 响应情况,其计算方法见式(7);误操作率作为交互失败的评价指标,用于评价电梯智能语音交互系 统对特定语音交互任务的失败响应情况,其计算方法见式(8)。

nsIA×100% PsIA NA

式中: PsIA一交互成功率; nsIA 一一成功交互的次数: N 特定语音交互任务的既定交互轮数。

PsiA一交互成功率; nsIA 一一成功交互的次数; N 特定语音交互任务的既定交互轮数

nsIA 一成功交互的次数; N 特定语音交互任务的既定交互轮数

式中: PrIA—误操作率; NFLA 一交互失败的次数 交互成功率与误操作率的

FU×100% PFIA N

PSIA+PFIA 一

表5交互成功率评价标准

针对表1和表2中的典型应用场景,交互成功率应符合下列要求: a)离线状态下,场景1的交互成功率不应低于85%;在线状态下,场景1的交互成功率不应低于90% b)离线状态下,场景2的交互成功率不应低于80%;在线状态下,场景2的交互成功率不应低于85%,

5.1.9.4响应的优先级别

响应的优先级别应当包括危险模式下响应的优先级别,危险模式宜包括火灾、水灾、梯内存在违法 犯罪行为等,在危险模式下,电梯智能语音交互系统优先控制电梯呼叫系统触发电梯执行运行至安全楼 层,或者优先呼叫提示/警示/求救等

电梯智能语音交互系统在在线条件下应支持语音合成,电梯智能语音交互系统的语音合成模块包括 客户端部分和服务器部分,二者应满足如下要求: a)客户端部分: 根据预设处理规则,将待合成文本切分为至少一个子文本;生成子文本对应的携带有子文本信息的 请求信息;根据子文本的顺序,以分块传输编码的方式向服务端发送请求信息;接收服务端发送的携带 有合成结果的响应信息,并将合成结果流式输出。 b)服务器部分: 接收客户端发送的携带有文本信息的请求信息,并根据文本信息获取待合成文本;根据预设处理规 则,将待合成文本切分为至少一个子文本;根据子文本的顺序,对子文本进行TTS语音合成,得到合成 结果;将携带有合成结果的响应信息以分块传输编码的方式发送到电梯智能语音交互系统,使电梯智能 语音交互系统将合成结果通过流式输出。 预设处理规则包括按照子文本长度范围进行切分和按照语句逻辑进行切分两种。 合成语音输出设备的有关参数应符合表6的要求

采用平均意见得分(MOS)来评价语音合成的效果,平均意见得分(MOS)的量化标准见表 智能语音交互系统语音合成的平均意见得分应不低于3.0(满分5.0)

表7主观MOS量化标准

电梯智能语音交互系统应支持交互过程中的语音打断,实现交互速度与自然度的提高。具体要求为: 获取待处理语音信号,待处理语音信号中包括用户对电梯的语音控制信号以及电梯播放第一语音信号的 回声信号;基于第一语音信号对待处理语音信号进行自适应滤波处理,得到第二语音信号;对待处理语 音信号、第一语音信号及第二语音信号进行非线性处理,得到输出结果;基于输出结果对电梯进行语音 打断。非线性处理采用神经网络模型实现。第一语音信号为电梯智能语音交互系统实时播放的用于给电 梯乘员反馈的语音信号。 采用语音打断成功率用于评价电梯智能语音交互系统对语音打断操作的正确响应情况,其计算方法 见公式(10)

式中: PSIR 语音打断成功率: nsIR. 成功打断次数:

sIR×100% PsIR NIR

式中: PsiR一语音打断成功率; nsIR一成功打断次数; 针对表1和表2中的典型应用场景,场景1中的语音打断成功率不应低于92%;场景2中的语音打断成 力率不应低于87%。

针对表1和表2中的典型应用场景,场景1中的语音打断成功率不应低于92%;场景2中的语音打 率不应低于87%。

电梯智能语音交互系统宜支持回声消除。

5.2.3安防提示场景

a)基于惨叫/求助叫声识别结果的安防操作场

电梯智能语音交互系统宜支持惨叫/求助叫声识别,当识别到电梯内有惨叫/求助叫声时,则做出相 应的安防提示或者电梯控制操作,例如,电梯智能语音交互系统发出语音提示/警告/呼叫物业/报警,或 者控制电梯呼叫系统触发电梯执行保持开门操作/不运行操作等

b)基于图像识别结果的安防操作场景

智能语音交互系统宜支持调用图像识别结果,并根据识别结果做出相应的安防提示或者电梯控 例如,基于图像识别到机动车、电动车进人电梯,则电梯智能语音交互系统发出语音提示/警 勿业,或者控制电梯呼叫系统触发电梯执行保持开门操作/不运行操作等。

6.1.1测试语料准备

6.1.2语音测试集准备

6.1.3音频采样设备

音频采样设备的有关参数应符合表8的要求

表8音频采样设备的要求

6.2.1被测语音交互系统

以电梯作为载体部署被测系统一电梯智能语音交互系统,应确保被测系统具有语音拾音功能,可通 过对话方式对其进行控制和交互

6.2.2被测系统网络环境

应提供被测系统所需的移动互联网服务,网络条件应满足上行带宽不低于100kbit/s、下行带宽不但 于50kbits,并保持稳定的连通状态

6.2.3语音测试回放

应按6.1.2要求,回放叠加环境噪声的语音测试文件,或在回放纯净的测试语音文件的同时叠加 声

6.2.4测试场景要求

采用表1中典型应用场景的电梯真实运行的环境噪声或模拟电梯真实运行的环境噪声,要求噪 保持稳定且噪声与命令词无类似发音

6.3.1控制对象测试

人工嘴或者使用播放器向电梯智能语音交互系统输人语音指令,观察电梯是否执行上楼、下楼、关 门、开门、去某一楼层等/楼、取消某一层/楼等操作,若电梯执行动作的同时,呼叫系统有对应的响应 则验证控制对象为电梯的呼叫系统。 使用以上测试方法,测试验证是否满5.1.1的要求。

6.3.2噪声环境的适应性测试

在表1和表2的典型应用场景下,采用声压计分别检测传声器处的环境噪声声压级、语音声压级 传声器处的环境噪声声压级是否满足表1中的要求和传声器处的语音声压级是否满足表2中的要 使用以上测试方法,测试验证是否满5.1.2的要求

6.3.3语音采集测试

在表3中的各测试条件下,测试对应的传感器参数,记录各参数的最小值、典型值、最大值。 语音输入输出测试

6.3.4语音输入输出测试

6.3.4.1语音输入测试

采用6.1.2准备的语音测试集按照下列方法,对语音输人进行测试,具体如下: a)人工嘴或者使用播放器采用汉语普通话向电梯智能语音交互系统输入语音,确认电梯智能语音 交互系统是否可以控制电梯执行与输人语音相应的响应.对于可选的地方方言、民族语言以及其他语种, 可使地方方言、民族语言以及其他语种输入语音,确认电梯是否执行与输入语音相应的操作,从而确认 语音输人是否符合5.1.4.1中a)点的要求。 b)人工嘴或者使用播放器按5.1.4.1中b)点的要求,向电梯智能语音交互系统输人语音,确认电梯 是否执行与输入语音相应的响应,从而确认语音输人是否符合5.1.4.1中b)点的要求;

6.3.4.2语音输出测试

6.3.5语音降噪测试

电梯智能语音交互系统外接测试计算机。电梯智能语音交互系统将分离后的各路音频、经降噪 路音频发送给测试计算机,测试计算机分别将分离后的各路音频、经降噪后的各路音频进行播放 工判断对于同一路音频,降噪后的音频相较于降噪前的音频是否有降噪效果即可。 使用以上测试方法,测试验证是否满足5.1.5的要求

6.3.6语音唤醒测试

语音唤醒测试包括唤醒率和误唤醒频度测试,方法如下: a)唤醒率测试:在表1和表2的典型应用场景下,将被测系统调至待命状 态,使用播放器或人工嘴按回放距离和回放要求播放唤醒语音测试集,记录 各场景下被测系统的成功唤醒次数,计算唤醒率; b)误唤醒频度测试:在表1和表2的典型应用场景下,将被测系统调至待 命状态6h,记录各场景下被测系统的误唤醒次数,计算误唤醒率。 使用以上测试方法,测试验证是否满足5.1.6的要求。

DB41/T 1222-2016标准下载6.3.7语音识别测试

在表1和表2的典型应用场景下,将被测系统调至待命状态,使用播放器或人工嘴按拾音距离和回方 要求播放语音测试集,记录各场景下被测系统的识别结果,计算命令词识别率和句识别率。 使用以上测试方法,测试验证是否满5.1.7的要求

6.3.8语义理解测试

状态下,使用播放器或人工嘴按拾音距离和回放要求播放语音测试集,认为判断意图是否被识 判断该功意图识别功能是否存在。 以上测试方法,测试验证是否满5.1.8的要求。

6.3.9语音交互测试

6.3.9.1响应类型测试

人工嘴或者使用播放器向电梯智能语音交互系统输入语音,确认电梯是否执行与输入语音对应

JGJ/T 240-2011 再生骨料应用技术规程(完整正版、清晰无水印).pdf6.3.9.2响应时间测试

©版权声明
相关文章