DB23/T 3304-2022 大数据平台数据接入规范.pdf

DB23/T 3304-2022 大数据平台数据接入规范.pdf
积分0.00
特惠
积分0
VIP全站资料免积分下载
立即下载
同类资料根据编号标题搜索
文档
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:1 M
标准类别:电力标准
资源ID:276270
VIP资源

标准规范下载简介:

内容预览由机器从pdf转换为word,准确率92%以上,供参考

DB23/T 3304-2022 大数据平台数据接入规范.pdf

关系数据库抽取应用

6. 2. 1 功能要求

数据实时复制应提供业务系统关系型数据库中的结构化数据到大数据平台数据存储的增量低时延 复制功能,数据实时复制应具备以下主要功能: a)支持对主流的关系型数据库进行低时延增量复制,至少包括Oracle、MySQL、PostgreSQL等关 系型数据库;支持对数据库中常用的数据类型进行数据抽取,至少包括数值型、字符型、日期 /时间型等数据类型; b) 支持秒级时延的关系型数据库增量复制能力;同时支持在全量复制的基础上YD/T 2897-2015 光传送设备节能参数和测试方法 OTN设备,无缝自动切换到 增量复制模式: C 支持关系型数据库中结构化数据抽取到大数据平台关系型数据存储、非关系型数据存储、分布 式文件存储、实时数据存储及消息队列; 支持对关系型数据库数据的内容和类型转换操作,至少包括不同数据库差异转换、字段类型格 式转换、时区转换等操作; 支持对复制对象的过滤,至少包括模式过滤、表过滤、字段过滤、数据行过滤:

)支持数据复制操作的手动触发、定期调度及外部触发运行。定期调度运行应提供多种调度策略, 至少包括固定期间间隔运行、指定期间点运行、指定期间范围运行、一次或指定次数运行等策 略;外部触发支持标准webservice接口; 应提供中心图形管理界面,应提供源端元数据查看、数据复制场景管理、数据表配置、表字段; 选择配置、字段类型转换配置、触发机制配置、目标端输出配置、运行策略配置、运行监控等 操作界面。

6. 2. 2应用场景

应用过程如下: a)业务系统关系型数据库服务器上部署增量捕获程序: b) 增量捕获程序捕获到增量数据通过TCP或消息队列发送到大数据平台增量接收服务; c)大数据平台解析增量数据,并将增量数据存储到大数据平台中; d)大数据平台分发增量数据到目标数据仓库中

库实时复制应用场景见图

应用要求包括: a) 源数据库应是关系型数据库; b) 源数据库表应包含主键或唯一索引: C 源端数据库应开启附加日志和强制归档模式; d 源端数据库的在线日志文件、归档日志文件应存放在文件系统上。

6. 3. 1 功能要求

数据库实时复制应用场景

网关服务为数据源提供大数据平台中结构化数据或非结 下主要功能 a) 支持接入webservice、RESTful方式的接口; b 支持包括结构化数据、非结构化数据的接口; C 支持接口编排,轻松实现多个接口的功能集成; d 提供图形化管理界面,用于接口数据存储位置、操作用户、目标存储位置的配置: e 提供完善的日志和审计能力,应记录接口数据配置及数据抽取操作配置、运行时发生的各种事 件:

)具备熔断管理机制,接口访问异常情况下的处理策略,保证服务整体可用。

网关服务应用场景描述如下: a 数据源向大数据平台提供接口信息,包括:接口访问地址、输入参数、输出参数、验证方式等 接口信息; 大数据平台根据数据源提供的数据接口进行定义及编排; C 网关服务配置数据传输任务运行策略,包括运行的开始时间、结束时间、运行频度: 门 网关服务运行数据传输任务,从数据源的数据接口中抽取数据到大数据平台数据仓库中

网关服务应用场景见图4

网关服务应用要求包括: a)网关服务适用于提供接口类数据的数据源,详细说明见附录B; b)提供数据接口的数据源需做好自身数据操作接口程序的开发。

6. 4. 1 功能要求

图4网关服务应用场景

6. 4. 2应用场景

应用场景描述如下: a)管理信息系统应向大数据平台申请消息队列接入服务; b)大数据平台根据申请创建消息队列主题,返回消息队列名称; c)管理信息系统开发业务处理程序,调用平台消息队列接口,发送数据或接收数据。

6.4. 3应用场景图

消息队列应用场景见图5

图5消息队列应用场景

应用要求如下: a) 消息队列采集适用于管理信息系统主动将数据封装为消息,发送到大数据平台的消息队列中。 基于消息队列的消息缓存进行数据分析,详细说明见附录C; b) 发送的消息内容格式支持字符串,发送的数据对象可通过对象序列化机制转换为字符串格式的 消息内容:

管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开 发。

管理信息系统应依照大数据平台提供的消息队列采集接口完成自身数据发送或接收接口的开 发。

6.5文件接收FTP服务

6. 5. 1 功能要求

到大数据平台数据仓库的功能。文件采集 应具备以下主要功能: a) 支持标准FTP协议接收数据; b 支持顺序型断点续传功能; C 支持接收的文件的重命名及指定存储目录; d) 应支持对接收文件的完整性校验; e) 应支持对客户端进行认证; f) 支持图形管理功能,支持认证配置、文件目标位置配置、校验处理配置

应用场景描述如下: a)大数据平台配置应用账号、接收参数及存储位置; b 管理信息系统通过标准FTP协议连接大数据平台服务; 管理信息系统检查目标临时文件是否存在; d 管理信息系统发起全量或续传指令; 管理信息系统发送数据到大数据平台; 大数据平台接收文件数据; 管理信息系统发送数据校验文件; 大数据平台根据校验文件校验数据文件内容; 大数据平台按配置的规则存储接收到的数据文件; 大数据平台回写数据存储状态; ? 管理信息系统获取数据存储状态,

文件FTP服务应用场景见图6。

6. 5. 4 应用要求

图6文件FTP服务应用场景

应用要求如下: 管理信息系统应在大数据平台注册并申请账号; b) 管理信息系统应按平台协议规范开发上传功能; C 管理信息系统生成文件数据时应同时生成对应的完整性校验码; d)具体文件接收FTP服务API接口详细说明见附录D。

6.6文件拉取FTP服务

6. 6. 1 功能要求

文件拉取FTP服务,应提供通过访问FTP协议实现将文件数据抽取到大数据平台数据仓库的功能。文 件拉取FTP服务应具备以下主要功能: a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配; b)支持FTP服务登录用户名和密码设置:

c)支持文件压缩传输,提供文件压缩规则设置; 支持文件加密传输,提供文件加密传输规则设置; 支持设置文件同步、异步拉取,支持设置拉取并行度; 支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换; 支持全量文件采集,支持外部数据一次性初始化导入; 支持定期轮询文件采集,采集新增的文件,支持文件列表规则过滤; 支持图形管理功能,支持FTP连接配置、文件源配置、文件目标存储配置、文件压缩和加密传 输规则配置、文件同步/异步传输规则配置、文件传输并行度配置、文件定期及实时策略配置、 文件采集过滤配置。

6.6.2.1基于FTP协议的全量文件采集应用场

应用场景描述如下: a)业务系统应提供初始文件存储位置; 大数据平台全量文件采集提供基于FTP协议的采集任务配置,包括:存储文件位置、采集文件 列表方式、是否文件校验、存储目标位置及文件存储命名规则; C 大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中

6.6.2.2应用场景图

TP协议的全量文件采集应用场景见图7

6.6.2.3基于FTP协议的定期轮询采集应用场

图7基于FTP协议全量采集应用场景

a)业务系统应按照业务需求生成数据文件,存储在指定文件区域; 业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同; 大数据平台轮询文件采集服务配置基于FTP协议的定期轮询采集任务,定期轮询采集文件; 大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平 台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写入大数据平台中。

6.6.2.4应用场景图

基于FTP协议的定期轮询采集应用场景见图8。

图8基于FTP协议的定期轮询采集应用场景

应用要求如下: a 业务系统应先将业务数据保存为文件,并设置访问权限; b 文件数据校验算法应支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示; C 数据文件可通过FTP协议访问; d 业务系统生成文件数据时应同时生成对应的完整性校验码; 具体文件拉取FTP服务API接口详细说明见附录E。

6. 7 文件 HTTP 服务

6. 7. 1 功能要求

文件HTTP服务,应提供通过访问HTTP协议实现将文件信息抽取到大数据平台存储的功能。文件HTTF 服务应具备以下主要功能: a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配; b)支持文件压缩传输,提供文件压缩传输规则设置:

支持文件加密传输,提供文件加密传输规则设置; 支持设置文件同步、异步拉取,支持设置拉取并行度; 支持制定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换; 支持全量文件采集,支持外部数据一次性初始化导入: 支持定期轮询文件采集,采集新增的文件,支持文件列表规则过滤; 支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文 件同步/异步传输规则配置、文件传输并行度配置、文件定期及实时策略配置、文件采集过滤 配置。

6. 7. 2 应用场景

6.7.2.1基于HTTP协议的全量采集应用场景

应用场景描述如下: a)业务系统应提供初始文件存储位置; b)大数据平台全量文件采集提供基于HTTP协议的采集任务配置,包括:存储文件位置、采集文 件列表方式、是否文件校验、传输是否压缩、加密、同步/异步、并行度、存储目标位置及文 件存储类型转换和命名规则; c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中。

6.7.2.2应用场景图

P协议的全量采集应用场

6.7.2.3基于HTTP协议的定期轮询采集应用场

图9基于HTTP协议的全量采集应用场景

a)业务系统应按照业务需求生成数据文件,存储在指定文件区域; b)业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同; 大数据平台轮询文件采集服务配置基于HTTP协议的定期轮询采集任务,定期轮询采集文件; 大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平 台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写入大数据平台中。

6. 7.2.4应用场景图

基于HTTP协议的定期轮询采集应用场景见图10

图10基于HTTP协议的定期轮询采集应用场景

应用要求如下: a) 业务系统须先将业务数据保存为文件; b 文件数据校验算法须支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示; C 数据文件可通过HTTP协议访问; d 业务系统生成文件数据时应同时生成对应的完整性校验码; e 具体文件HTTP服务API接口详细说明见附录F。

6. 8. 1 功能要求

文件NFS服务,应提供通过访问NFS文件系统,实现将文件信息抽取到大数据平台数据存储的功能 文件NFS服务应具备以下主要功能: a)支持顺序型断点续传功能,支持外部文件存储断点续传能力的自动识别及模式匹配; b)支持指定目标文件存储位置、文件名,提供文件类型转换规则,支持常见类型转换:

c)支持全量文件采集,支持外部数据一次性初始化导入; d)支持定期轮询文件采集,采集新增的文件,支持文件列表规则过滤; 2 支持图形管理功能,支持文件源配置、文件目标存储配置、文件压缩和加密传输规则配置、文 件定期及实时策略配置、文件采集过滤配置

6. 8. 2应用场景

6.8.2.1NFS全量文件采集应用场景

应用场景描述如下: a 业务系统应提供初始文件存储位置: 大数据平台全量文件采集提供采集NFS文件任务配置,包括:存储文件位置、采集文件列表方 式、是否文件校验、存储目标位置及文件存储命名规则; c)大数据平台运行文件采集任务,读取文件存入大数据平台数据仓库中

6. 8. 2. 2应用场景图

NFS全量文件采集应用场景见图11

6.8.2.3NFS文件定期轮询采集应用场景

图11NFS全量文件采集应用场景

a 业务系统应按照业务需求生成数据文件,存储在指定文件区域; 业务系统应根据校验算法SHA1在相同目录下生成校验文件,校验文件名称与数据文件相同 文件扩展名为.SHA1; c)大数据平台轮询文件采集服务配置NFS文件定期轮询采集任务,定期轮询采集文件

d)大数据平台定期读取解析索引及校验文件内容;如果业务系统数据文件出现新增时,大数据平 台读取数据文件内容,并且进行文件校验,如果文件完整,则将数据文件写人大数据平台申。

6. 8. 2. 4应用场景图

NFS文件定期轮询采集应用场景见图12

6. 8. 3应用要求

文件定期轮询采集应用

应用要求如下: 业务系统应先将业务数据保存为文件,并设置访问权限; 文件数据校验算法应支持标准的SHA1进行校验,结果转化为16进制ASCII字符表示; 数据文件可通过NFS访问; d 业务系统生成文件数据时应同时生成对应的完整性校验码; e 具体文件NFS服务API接口详细说明见附录G。

QHQJ 0002S-2016 深圳汇泉贸易有限公司 风味饮料1.1关系数据库应用流

关系数据库抽取通过大数据平台提供的Web界面进行操作,完成数据接入操作。关系数据库应用流 程见图A.1:

图A.1关系数据库应用流程图

附录B (资料性) 网关服务接入说明

通过人数循平合的内 通过服务编排进行接口的编排 生成新 调度发布。网关服务应用流程见图B.1

图B.1网关服务应用流程图

应用流程描述如下: a 根据数据源提供的数据接口地址、请求方式、请求头配置、传输协议、请求参数信息在服务网 关进行数据接口的登记、熔断保护配置及测试验证; 针对登记的接口信息进行服务编排,定义接口的输入参数、输出参数、请求头等信息GB/T 31900-2015 机织儿童服装,并生成 新的接口地址; C 服务编排后的数据接口配置调度策略,包括调度时间、调度周期及频次等信息,然后进行发布,

附录C (资料性) 消息队列接入说明

©版权声明
相关文章