GB/T 41795-2022 质量技术基础 信息资源数据规范.pdf

GB/T 41795-2022 质量技术基础 信息资源数据规范.pdf
积分0.00
特惠
积分0
VIP全站资料免积分下载
立即下载
同类资料根据编号标题搜索
文档
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:50.9 M
标准类别:电力标准
资源ID:383117
VIP资源

标准规范下载简介:

内容预览由机器从pdf转换为word,准确率92%以上,供参考

GB/T 41795-2022 质量技术基础 信息资源数据规范.pdf

7.3.3.2.2缺失值处理

图5 脏数据清洗流程图

3.3.2.2.1缺失值的处理步骤为: a) )确定缺失值范围:对每个字段都计算其缺失值比例南方电网供电局业扩工程基施工方案,然后按照缺失比例和字段重要性,分

定策略; b)对于指标重要性高,缺失率较低的缺失值数据,可根据经验或业务知识估计,也可通过计算 (如:加权平均值)进行填补; 示例:以被检量为权重进行加权平均。 C) 对于指标重要性高,缺失率较高的缺失值数据,应与取数人员或业务人员确认,是否可通过其 他渠道获取相关数据,若无法取得相关数据,则需要对缺失值进行填补,必要时进行重新采集; d)对于指标重要性低,缺失率较低的缺失值数据,可只进行简单填充或不做处理; e)对于指标重要性低,缺失率高的缺失值数据,可备份当前数据,直接删掉不需要的字段。 3.2.2.2对于具有空缺值的脏数据,其填补方法包括: a)以业务知识或经验推测填充缺失值; b)以同一指标的计算结果(均值、中位数、众数等)填充缺失值; c)以不同指标的计算结果填充缺失值。 示例:年龄字段缺失,但具有公民身份证号,可从公民身份证号提取年龄数据

7.3.3.2.3错误数据处理

错误数据主要分为格式内容问题数据和逻辑问题数据两类,其中: a)格式内容问题数据包括: 1)时间、日期、数值、全半角等显示格式不一致。处理方法是将其处理成一致的某种格式。 2)内容中有不应存在的字符。应以半自动校验半人工方式来找出可能存在的问题,并去除 不需要的字符。 示例:数据的开始、中间或结尾存在空格,或姓名中存在数字符号、公民身份证号中出现汉字等。 3)数据内容与该字段应有内容不符。 b)逻辑问题数据处理可用逻辑推理的方法,该类数据的处理步骤包括: 1)去重:应在格式内容清洗之后执行,并使用字段相似度来识别判断重复值。 2)离群值(异常值):在处理离群值前,应先识别离群值,按照经验和业务流程判断其值的合 理性,若此数值合理,则保留该数值;若不合理,则按照其重要性考虑是否需要重新采集; 对于重要性较高而又无法重新采集的数值,应按照7.3.3.2.2处理;对于重要性较低数 值,可直接去除。 3)通过字段间的相互验证,修正矛盾内容。应根据字段的数据来源,判定出提供信息更可靠 的字段,去除或重构不可靠字段

7.3.3.2.4错误关联数据处理

多源数据整合具有复杂性,应注意数据之间的关联性,并进行关联性验证, 多源数据的不一致性主要表现为数据不满足完整性约束。可通过分析数据字典、元数据,或梳理数 据之间的关系进行修正。 错误关联数据清洗方法包括: a)统计学方法:将属性当作随机变量,通过置信区间来判断值的正误; b)聚类方法:根据数据相似度将数据分组,发现不能归并到分组的孤立点; c)距离方法:使用距离度量来量化数据对象之间的相似性; d)分类方法:训练一个可以区分正常数据和异常数据的分类模型; e)关联规则方法:定义数据之间的关联规则,不符合规则的数据被认为是异常数据,

对非需求数据处理,应满足:

对非需求数据处理,应满足:

a) 在数据清理工作操作前,做好数据备份; b) 对于明确为非需要字段,可从数据集中删除; C) 对于尚不明确是否需要的字段,原则上数据量在可处理的范围内时,尽可能保留相应字段

数据清洗质量控制要求包括: a) 数据规范性:对数据标准、数据模型、业务规则、元数据和参考数据进行有关存在性、完整性、质 量及归档的测量; b)数据完整性:对数据进行有关存在性、有效性、结构、内容及其他基本数据特征进行测量; c) 重复:对存在于系统内或系统间的特定字段、记录或数据集意外重复进行测量; d) 准确性:对数据内容准确性进行测量; e) :一致性和同步:对各种不同的数据仓库、应用和系统中所存储或使用的信息等价程度进行 测量; f) 1 及时性和可用性:在预期时段内数据对特定应用的及时程度和可用程度进行测量; g)易用性和可维护性:对数据可被访问和使用的程度,以及数据能被更新、维护和管理程度进行 测量; h)数据覆盖:相对于数据总体或全体相关对象数据的可用性和全面性进行测量; 1D 12 表达质量:对信息表达的有效性进行测量; i) 可理解性、相关性和可信度:对数据质量的可理解性和数据质量中执行度进行测量,对业务所 需数据的重要性、实用性及相关性进行测量; k)数据衰变:对数据负面变化率进行测量; 1 2. 易变性:对数据期望值与结果的差异程度进行测量。

质量技术基础集成服务数据除具有一般数据的质量属性,还应符合质量技术基础主管部门规定的 数据标准、规范等。根据GB/T25000.12—2017中定义的数据质量模型和GB/T25000.24—2017中定 义的数据质量测度集,结合质量技术基础集成服务数据的特点,选取准确性、完备性、一致性、确实性、现 时性、依从性、保密性、精度、可跟踪性、可理解性等10个固有的质量特性组成质量技术基础集成服务数 据质量评价指标体系。 质量技术基础集成服务数据质量评价指标体系按照附录E的规定建立。评价时可根据具体的数 据质量需求进行适当裁剪或补充。

选定需评价的数据集及其包含的数据项,按照数据质量评价指标体系选取其中需评价的质量特性 特性,形成各数据集的评价模型,并定义: a)待检数据集及其数据项列表。 示例1:标准项目数据集,包括项目编号、分类号、制修订状态等数据项。 示例2:标准文献数据集,包括标准号、中文名称、分类号等数据项。 b)数据集需检测的质量特性及子特性。 示例3:标准项目数据集的完备性、准确性(语义准确性、范围准确性)。 示例4:标准文献数据集的现时性。

选定需评价的数据集及其包含的数据项,按照数据质量评价报 持性,形成各数据集的评价模型,并定义: a)待检数据集及其数据项列表。 示例1:标准项目数据集,包括项目编号、分类号、制修订状态等数据项 示例2:标准文献数据集,包括标准号、中文名称、分类号等数据项。 b)数据集需检测的质量特性及子特性。 示例3:标准项目数据集的完备性、准确性(语义准确性、范围准确性)。 示例4:标准文献数据集的现时性

C) 质量特性及子特性需检测的数据项。 示例5:检测项目编号、分类号、制修订状态等数据项的完备性和准确性。 示例6:检测标准号的确实性。 示例7:检测中文名称的现时性。 示例8:检测标准分类号的范围准确性。

e) 定义缺陷等级,包括: 1)S1:严重缺陷; 2)S2:一般缺陷; 3)S3:轻微缺陷。 D 设定检测项目的符合门限及数据集评分方法。 g) 质量特性权重分配。 h) 质量评价等级划分。

8.3.1数据质量检测方法

数据质量检测可采用自动化检测、工具辅助检测和人工检测等检测方法,其中: a)自动化检测:依据质量技术基础集成服务数据的结构设计和相关业务数据标准的要求设计检 测规则,编制软件检测工具,对质量技术基础集成服务数据进行质量特性检测,得出检测结果。 检测方法有: 1)数据规范模板对比检测:根据相关标准、规范和要求规定的类型及格式、命名规则、值域或 代码表等建立的数据规范模板与待检查数据进行对比分析,可用于检查数据与相关标准 的符合程度; 2)约束分析检测:根据数据之间的关联进行的一致性检测。 b)工具辅助检测:对于不能实现完全自动化检测的数据采用的人机交互检测,如:数据的语义 检测。 c)人工检测:检测人员根据相关标准或要求、专家知识及经验进行的数据质量检测,主要用于软 件工具难以实现的数据检查。人工检测主要涉及质量技术基础集成服务数据结构设计及其与 相关标准的对比检测。

针对具体服务的业务特点及其数据质量需求编制数据质量评价细则,其内容应包括: 要检测的数据对象信息,包括需检测的数据结构设计说明; 划分的数据集范围; 数据集需检测的质量特性及其数据项组成; 数据采样抽检方案; 数据项的缺陷等级定义; 检测项目的符合门限及数据集评分方法; 采用专家打分方式确定质量特性权重分配; 质量技术基础集成服务数据质量等级划分及其对应的分值区间,

质量技术基础集成服务数据质量评价流程包括: 评价方案制定; 数据采集; 测试执行; 检测结果记录; 数据质量判定; 数据质量评价

8.4.2评价方案制定

根据质量技术基础集成服务数据质量需求,制定评价方案。主要内容包括: a)评价内容:确定要评价的质量技术基础集成服务数据对象,匹配其要符合的数据标准、规范、要 求等; b)评价模型:评价模型规划依据GB/T25000.40一2018执行,结合质量技术基础集成服务数据 质量评价需求,制定数据质量评价细则,规定数据质量指标体系中各级质量特性的权重,设计 具体的检测项目及其数据项组成、缺陷定义、检测项目符合门限和数据集评分方法等,形成质 量技术基础集成服务数据质量评价模型; c)测试计划:确定测试周境、测试风险、测试策略、测试活动及估算、人员配备和进度,形成测试计 划并组织计划评审

根据质量技术基础集成服务数据质量要求,可采用全检和抽检两种方式,调用数据采集接口, 相关数据集

测试执行的具体流程包括: a)配置测试环境; b)启动测试流程; c)执行测试用例; d)调用测试工具; e)测试采集到的数据集; f)完成测试执行

8.4.5检测结果记录

根据各数据项的质量检测结果填写质量技术基础集成服务数据集质量检测结果记录表(模板参见 附录F的F.1),其中主要缺陷描述应包括缺陷发生的位置、错误程度等。 检测过程中,如果发现严重缺陷,应停止进一步检测,直接判定该数据集质量为不合格

8.4.6数据质量判定

根据定义的质量技术基础集成服务数据质量评价模型,对检测结果进行定量评定,其操作为:

a) 11 按照评价细则中定义的相关质量子特性的各检测项目的符合门限,判定各个数据集的每个检 测项目是否符合。具体判定方法为:设被测的第)个数据集的第i个检测项目的符合门限为 G,该检测项目的符合率为P,如果P≥G;,则判定该检测项目为符合(P),否则为不符合 (F)。 b) 1M7 根据数据集各检测项目的符合率、评价细则中定义的数据集评分方法,采用百分制为各数据集 评分(评分表模板参见F.2)。数据集得分计算公式见公式(1):

K;=C/N,×100

C;一一被测的第j个数据集中检测结果为符合的检测项目数; N;一一该数据集总检测项目数。 ?) 质量技术基础集成服务数据质量综合得分是其所包含的各个数据集得分的加权和(数据质量 评价表模板参见F.3),计算方法见公式(2):

K 被测的n个数据集中,第j个数据集的得分,j=1..n; 第i个数据集的所占权重,≥r;=1。

8.4.7数据质量评价

G=≥(K;xr;)

根据综合得分划分质量技术基础集成服务数据质量等级,质量技术基础集成服务数据质量综合 宜划分为四级:优秀、良好、合格和不合格。

数据溯源方法包括不限于: a) 批次管理法:根据检验检测过程分别组成批次,记录批次号或序号,以及相应的检测状态,有 在加工或组装过程中,要将批次号逐步依次递增或存档; b) 2 日期管理法:对连续性生产过程、工艺稳定、价格较低的产品,可采用记录日历日期来追溯质

状态; C) 连续序号管理法:根据连续序号追溯产品的质量档案; 混合管理法:将批次管理法、日期管理法、连续序号管理法混合性地应用

数据溯源应遵照以下流程执行: Ea) 确定当前所在环节,并明确该环节处于检验检测内部追溯的环节; b) 确定追溯精度,即确定追溯单元,如以样品批次为追溯单元,或“一物一码”以产品最小实体为 追溯单元,不同精度的追溯体系成本差异较大,应根据实际情况进行权衡和选择; C) 1M 确定赋码样品单元,即确定最终赋码产品的最小单元,如试管、样品包装、样品实体; d) 根据编码规则选择适用的样品编码体系

数据溯源代码由检测组织机构代码、送检组织机构代码、产品生产组织机构代码和样品数据追 部分组成蔚蓝青城冬季施工方案,代码结构见图6。

图6数据溯源代码结构图

其中: a) 检测组织机构代码、送检组织机构代码和产品生产组织机构代码依照GB32100一2015的编 码规则,各用18位阿拉伯数字或大写英文字母表示; 样品数据追溯码用18位阿拉伯数字表示,具体编码规则见9.4.2; c 每部分代码间用分隔符“”表示。

9.4.2样品数据追溯码

样品数据追潮码由三个层级的代码组成,用18位数字表示,各位代码均采用GB/T7027一2002中 定的顺序码。其中: a)第1位~第6位为第一层:表示样品的分类代码,其中第1位~第4位依据GB/T35429 2017的编码规则进行,第5位~第6位依据GB/T35432一2017的编码规则进行。如果第5 位~第6位尚未编码,则以“00”代替; b)第7位~第12位为第二层:表示6位年月; 示例:2020年7月表示为202007。 c)第13位~第18位为第三层:表示样品流水码,用6位阿拉伯数字表示。 样品数据追溯码结构图见图7。

4标土地整理施工组织设计图/ 样品数据追溯码结构图

根据实际应用场景,可为样品数据标签选择不同类型编码载体。可用载体包括:一维条码、二维条 码、RFID、NFC、IC卡等

如有更多个性化需求,可在此基础上扩展编码规则,形成特殊编码规则。但编码规则的扩展应遵循 以下原则: 扩展的编码规则应包含以上编码规则中的内容; 编码中不应出现随时空发生变化的编码码段(如使用年龄而非出生日期作为编码),以保证编 码的稳定性和可用性; 一不应在编码中放入过多其他信息,编码只起唯一标识作用,其他信息可通过应用程序从数据库 当中读取; 样品分类代码不应自行进行扩展,以免造成今后编码冲突,如因特殊需要,现有样品分类代码 不能满足需求,应与标准编制单位协商对样品分类代码按需扩展,并由标准编制单位登记在 册,在下次标准修订时写入标准。

©版权声明
相关文章