JR/T 0202-2020 基于大数据的支付风险智能防控技术规范.pdf

JR/T 0202-2020 基于大数据的支付风险智能防控技术规范.pdf
积分0.00
特惠
积分0
VIP全站资料免积分下载
立即下载
同类资料根据编号标题搜索
文档
仅供个人学习
反馈
标准编号:
文件类型:.pdf
资源大小:1.5 M
标准类别:电力标准
资源ID:248259
VIP资源

标准规范下载简介:

内容预览由机器从pdf转换为word,准确率92%以上,供参考

JR/T 0202-2020 基于大数据的支付风险智能防控技术规范.pdf

4. 2. 3合规风险

金证券或者其他债权凭证的方式向社会公众筹集资金,并承诺在一定期限内以货币、实物以及其 他方式向出资人还本付息或给予回报的行为。

4. 2. 4 其他风险类型

除了欺诈风险和合规风险之外GB 11784-89 速食海带,不同机构、不同业务场景可能存在其他的风险类型,如资金清算风险、 用户道德风险等。

风险防控技术是基于大数据的支付风险智能防控技术框架的核心组成部分,包含风险防控策略、风险 言息处理、支付风险评估、风险监测与决策、风险处置等五个模块。一是通过大数据、机器学习等技术建 立满足要求的风控模型,进一步加强对风险的事前预测和事中识别的能力。二是通过合理引入多个模型、 强鲁棒性的模型、抗AI攻击的模型等方式,提高模型评分的稳定性。三是支持多渠道、多维度的数据整合, 形成机构内统一的风控系统。 风险防控策略作为风险防控的第一道屏障,通过注册管理、合规审核、风险评级等方面控制,对潜在 风险进行初步分辨。风险信息处理包含交易要素过滤和名单匹配等,将过滤所得信息输出到支付风险评估 模型中。支付风险评估从模型方法、模型管理等方面设计模型,完成对潜在风险的识别、分析和评价。根 居风险模型的计算结果,结合业务要求,采取阻断、挂起、预警、批准等不同的决策行为。最后,在决策 的基础上,开展风险调查、关联排查、案件协查等,其结果可以优化风险防控策略。

4. 3. 2险防控策略

JR/T 02022020

资金往来; ·信用状况; 设备指纹。 评级规则:根据评级指标,设计相应的评级规则。 评级频次:定期或者不定期评级,

4.3.3风险信息处理

风险信息处理是根据具体的业务场景采集数据要素用于风控模型计算,至少包括交易要素过滤和名单 配两个环节,具体包括: a)交易要素过滤方面,具体要求如下: 一应根据业务场景识别所面临的风险类型,业务场景包括但不限于注册、登录、支付等。 一应根据风险类型确定过滤的交易要素,包括要素名称、要素格式、要素条件等。 一交易要素包括但不限于交易信息、账户信息、设备信息、交易方信息,具体要求为: · 交易信息包括但不限于卡号(账号)、手机号码、交易时间、交易金额、交易地区等; 。账户信息包括但不限于账户开立时间、账户可用额度等; :设备信息包括但不限于IP地址、设备指纹、经纬度信息等: ·交易方信息包括但不限于用户ID、名称信息等。 一一应定义唯一的主键索引每笔交易。 一宜满足支付风险评估模型计算的要求。 一宜在过滤信息时进行衍生变量的计算,如根据手机号码计算归属地,根据经纬度信息计算所 在地。 b)名单匹配方面,具体要求如下: 名单包括但不限于卡号(账号)、手机号码、设备指纹、IP地址等。 应匹配公安、司法机关公布的具有明确业务含义的名单。 宜匹配自有的黑、灰、白名单库,对交易真实性和合法性进行初步识别。 可匹配外部第三方平台的黑、灰、白名单库,实现风险联防联控

4.3.4支付风险评估

4. 3.4. 1概述

支付风险评估是1种对支付业务中的风险进行分析、识别和评价的技术手段,主要包括模型方法和模 型管理两个方面。

4.3.4.2模型方法

模型方法指基于黑样本等已知风险和历史数据表现,根据机构自身的风险偏好,在各业务场景及环节 中,将数据变量通过运算逻辑关系自由组合,设置实时、准实时、批量、验证类等模型和规则,以实现对 风险的识别判断,包括专家规则、机器学习等。 a)专家规则应符合以下要求: 专家规则包含但不限于以下信息: 商户(用户)身份信息; 操作设备信息; 地址位置信息; 交易信息:

4. 3.4.3模型管理

模型管理是指对模型的全生命周期进行管理,包括模型设计、模型评估、模型部署和模型迭代4个阶 设,具体要求如下: a 模型设计是基于不同的业务场景和风险类型,结合实际需求选择合适的变量和模型方法,包括但 不限于应用特征工程、端到端建模等方法清洗和加工数据,对样本组成的训练集和测试集用各类 模型算法进行训练,基于模型指标选择最优模型等,具体要求如下: 应有模型设计文档。 一宜有模型训练或模拟过程。 b) 模型评估是指对于模型设计产生的模型进行效果和安全等方面的评估,以作为选择模型或者调整 模型设计的依据,具体要求如下: 台 宜有模型评估流程。 一宜根据业务制定模型评估方法。 一宜对模型结果制定量化评价指标。 模型部署是将已完成训练或模拟的模型结果上线部署到生产环境中,用于识别各类风险,具体要 求如下: 应建立模型部署审批流程(含业务评审),遵循规范步骤,

JR/T 02022020

应在部署前完成模型性能测试。 一应在模型部署后对模型效果进行监控。 d 模型迭代是针对生产环境中表现不佳或出现效能衰退的模型进行调整优化的过程,具体要求如下: 一 模型上线后应定期观测模型表现。 一应对已衰退的或存在明显问题的模型进行及时调优和更新。 一一宜有模型迭代上线流程。 一宜有模型选代文档和更新记录

4. 3. 5 风险监测与决策

风险处置是在风险决策结束后进行的评估反馈、风险核查、关联排查、案件协查和损失处置的相关后 续活动。风险处置的结果旨在完善现有风险防控的策略、风险信息处理的内容与支付风险评估的能力,实 现风险防控流程的闭环反馈优化。 a)评估反馈。

活反馈是指对于风险监测和决策输出的结果进一步进行复核、分析和反馈,以确保风险监测和决策 流程、操作正确,并初步确认风险评估和决策结果是否合适,以作为后续相关系统、流程、风险 型和风险决策改进的依据,具体要求如下: 一一宜确认相关系统正常工作、相关操作和流程符合要求。 一宜对风险评估和决策的结果进行初步分析和确认,并将分析和确认的结果向风险评估、风险 监测和决策进行反馈。 风险核查。 险核查指在评估反馈的基础上,对于已识别有风险的业务进行调查,分析原因与风险特征,以确认 决策是否准确恰当。核实无误的,宜将相关信息录入黑名单,作为后续风险决策的依据,核实确认 险的,宜作为后续模型优化和风险处置的依据。风险核查包括但不限于以下方式开展: 一一对于拦截阻断的交易,具体要求如下: 应配套后续调查流程完善防控手段: ·宜与业务方进行确认,判断拦截阻断的准确性; 经调查拦截无误的,相关信息应纳入黑灰名单和负面样本,作为后续优化事中监测依据: ? 经调查拦截不准确的,宜恢复交易权限,及时调整事中监测策略。 一对于挂起确认和提示预警的交易,具体要求如下: · 应配套调查处置流程,并借鉴简化后续类似情况下的处理流程; 宜事后统计分析存在的可疑点,集中与业务方沟通确认,回溯挂起确认和提示预警的必 要性与准确性,并判断下一次类似条件的业务风险处理方式。 一对于批准通过的交易,具体要求如下: 如发生用户投诉,应配套相应的处置流程进行风险分析和处置,并将此作为后续优化风 险监测,完善相关规则和模型的依据; 如未发生用户投诉,但通过关联排查能够识别的可疑交易,应和业务方沟通确认疑点, 条件允许的情况下宜与用户进行沟通,进一步确认或排除风险,并将其中确认的风险交 易录入为负面样本。 关联排查。 联排查指对于有风险的业务相关元素,基于潜在关系进行关联分析,以挖掘是否存在同类风险或衍 弥补事中监测决策可能未识别的潜在风险口。关联排查包括但不限于以下方式开展: 一应对存在风险交易的同卡片或账户关联交易进行分析, 一应对存在信息泄露风险的商户在一段时间内有交易的卡片或账户进行分析。 一一宜对存在虚假申请风险的卡片或账户关联的设备信息进行分析。 宜对存在风险交易的卡片或账户的位置信息进行分析,或者对存在风险交易的持卡人或账户 所有人的位置信息进行分析。 宜对存在风险交易的手机号码进行分析,包括验证手机号码、注册手机号码等。 案件协查。 件协查主要是指配合公安、司法机关开展的风险案件协查,包括但不限于以下方式开展: 一一应提供必要的交易明细。 一应提供必要的商户开立获批和持卡人或账户所有人开户获批的相关信息;根据公安、司法机 关的指令冻结账户和资金。 一一宜提供已采集的交易信息、账户信息以外的风险案件行为特征,例如IP、MAC等。 损失处置。

c)关联排查。 关联排查指对于有风险的业务相关元素,基于潜在关系进行关联分析,以挖掘是否存在同类风险或衍 险,弥补事中监测决策可能未识别的潜在风险散口。关联排查包括但不限于以下方式开展: 应对存在风险交易的同卡片或账户关联交易进行分析 一应对存在信息泄露风险的商户在一段时间内有交易的卡片或账户进行分析。 一宜对存在虚假申请风险的卡片或账户关联的设备信息进行分析。 一宜对存在风险交易的卡片或账户的位置信息进行分析,或者对存在风险交易的持卡人或账户 所有人的位置信息进行分析。 宜对存在风险交易的手机号码进行分析,包括验证手机号码、注册手机号码等。 d)案件协查。 案件协查主要是指配合公安、司法机关开展的风险案件协查,包括但不限于以下方式开展: 一应提供必要的交易明细。 应提供必要的商户开立获批和持卡人或账户所有人开户获批的相关信息;根据公安、司法机 关的指令冻结账户和资金。 一一宜提供已采集的交易信息、账户信息以外的风险案件行为特征,例如IP、MAC等。 e): 损失处置。 损失处置主要指对于明确产生的风险损失,通过快速挽损、风险责任认定,将风险化解、转移或者赔 的处置方式,并控制后续风险损失散口。

JR/T 02022020

大数据技术主要为风险智能防控提供基础的数据处理支撑,对数据保护、数据接入、数据处理与 与模型计算等提出了技术和安全要求

应建立符合《中华人民共和国个人信息保护法》、JR/T0171一2020等相关法律、法规和标准的个人 和业务数据保护策略、管理规范、管理制度等数据保护机制,在确保业务数据安全性的同时,加强个 售息保护,具体要求如下: a) 数据授权方面: 应符合数据所有者和相关人授权原则,涉及采集个人信息,应遵循最少够用原则,并在收集 前给予当事个人声明数据采集内容、使用用途及保护措施,并征得当事人同意,采集的信息 不能超范围使用。 V 一应明确并严格执行身份权限管理机制。 应基于权限最小化等安全原则,制定支付风险防控相关数据访问控制管理机制。 b) 数据安全方面: 个人金融信息、支付敏感信息等数据的存储应符合JR/T0171一2020的相关规定。 一应采用满足数据传输安全策略相应的安全控制措施,如安全通道、可信通道、数据加密等。 应依据数据资产和数据主体建立相应的数据脱敏安全机制与管控措施。 一一应采用校验技术或密码技术保证支付风险防控相关数据传输过程中的完整性 应在发生个人信息泄露时立即采取补救措施,按照规定及时告知用户。人 C 数据删除方面: 一数据删除后,应确保数据及其副本不可检索、不可访问。 根据不同的存储方式,如网络存储数据和闪存、硬盘、磁带、光盘等存储数据,分别明确相 应的删除方法和技术。

应确保个人信息、重要数据等敏感信息的删除符合国家相关法律、法规和标准, 一宜配置必要的数据删除工具,并对数据删除效果进行核验。 d 数据审计方面: 应对数据全生命周期中的采集、处理、销毁等操作行为进行记录,包括且不限于时间、操作 方式、数据类型、操作结果等。 应支持对数据操作行为的审计、追溯。 一宜定期对影响业务连续性的风险进行评估,并将相关的风险信息告知客户。 e 数据备份与恢复方面: 一应具备支付风险防控相关数据的本地备份与恢复能力。 一宜具备支付风险防控相关数据的异地实时备份能力。 f 数据出境方面: 涉及数据出境的,应符合国家相关法律、法规和标准对出境数据处理流程的要求,

4.4.3接入、处理与存储数据

在大数据技术中,对于数据接入、数据处理和数据存储等各环节应支持存储结构化、半结构化及非结 构化数据,提供丰富的API接口和SDK开发包,支持分布式计算、内存计算技术、流处理技术实现稳定的 大数据处理能力。

4.4.3.2数据接入

数据接入包括但不限于被动接入、主动接入、关联补齐和接入质控,具体要求如下: a)被动接入方面: 一宜支持被动获取方式,如提供对外接口,由其他系统调用传输数据。 宜明确外部接口的服务窗口、接口标准,并明确异常补录流程。 b)主动接入方面: 一宜支持主动获取方式,如订阅消息队列、定期抽取关系型数据或非关系型数据。 一宜支持关系型数据库、非关系型数据库、消息队列、批数据文件、ftp、接口等数据源。 c 关联补齐方面: 一宜具备对相似数据的关联去重能力, 一对于数据源的缺失信息,宜支持自动补齐处理。 d)接入质控方面: 一应支持对采集数据的数据质量进行监测,宜建立实时监测机制。 宜具备对不同 如数据完整度、数据有效性

4. 4. 3. 3处理方法

JR/T 02022020

一宜支持采用滑动窗口方式的实时分析任务,其时间窗口大小应可调,支持短窗口和长窗口。 宜支持提供用户级别的访问控制功能。 b)内存计算方面具体要求如下: 应支持内存计算操作符,如聚集操作、转换操作等功能。 一应支持用高度抽象算子构建分布式的数据处理应用。 一一宜支持标准SQL语法。 一宜支持读取非关系型数据库数据的能力。 一宜支持负载均衡和水平扩展能力。 图计算方面具体要求如下: 一应支持多种数据导入方式,包括:全量导入、增量导入以及自定义导入。 一应支持图的基本操作,包含定义图、图的基础操作、图中点数据集和边数据集的相关操作。 一应支持同步计算模型或异步计算模型编写送代算法。 一应支持单节点、多节点多层关系的分布式图分析和查询。 应支持主流开发接口,如RESTful等。 一宜支持图关系的实时、可视化呈现。 d 批处理方面具体要求如下: 一应支持从多种数据源读取数据,包括分布式文件系统、分布式列式存储等多种格式的数据源 一应支持自定义的数据处理操作。 一应支持批处理任务的创建、配置等。 一应支持多节点离线任务联动执行。 一应支持离线计算任务进度与状态的实时上报, 宜支持多种语言分析任务的开发接口。

4. 4. 3. 4 存储库

支持第三方黑、白、灰名单导入。 支持黑、白、灰名单的查询、添加、删除、修改。 支持多业务场景的黑、白、灰名单共享。 支持多维度的黑、白、灰名单整合。

4.4.4变量与模型计算

4.4.4.1特征变量计算

特征变量计算是对于模型所需的特征变量进行计算。宜满足以下要求: a)支持多业务、多渠道的变量计算。 b)支持多维度(持卡人、卡片、商户、IP、MAC)变量的组合计算。 c)支持对变量的自定义及动态扩展。 d)支持对变量重要程度和变量筛选的计算。

4.4.4.2滑窗变量计算

滑窗变量计算是基于一定的时间窗口向前滑动的变量计算,宜满足以下要求: a)支持按多维度进行变量定义, b)支持自定义时间窗口的变量计算。 c)支持滑窗时间的动态调整。

4.4.4.3在线模型计算

在线模型计算是在业务执行过程中实时进行的模型计算,应满足以下要求: a)支持灵活的模型编排设定,对模型的执行做好优先级控制,并有效控制模型的串执行关系,根据 系统资源使用情况合理设定并行执行个数。 b)支持在线模型的灵活下线, C)对模型预估时间具备有效的管理机制,避免模型异常影响正常交易

4.4.4. 4离线模型计算

离线模型计算是在业务执行后非实时的模型计算,具体要求如下: 应对离线计算资源做好隔离,避免影响在线业务运行。 b) 宜支持对海量数据的训练。V 宜支持用户侧对训练结果的评估。 C) d 宜支持对离线模型多版本管理,

5风险防控系统安全要求

基于大数据的支付风险防控系统的安: 施部署应符合JR/T0071、国家网络安全等级保折 并根据风险防控所面向的业务系统级别设定相应等级

数据、人工智能的支付风险防控安全规划至少满足以下要求: 体规划:应将安全规划纳入系统总体规划中,制定相应的安全规划,包含数据治理、数据质量、

JR/T 02022020

元数据、授权管理等方面的安全策略,并对其进行评估,确保规划内容的合规性。 D 需求分析的具体要求如下: 一应建立安全需求分析和评审机制,识别并分析威胁、脆弱性等安全风险及其应对措施需求。 一宜使用数据驱动分析方法或安全需求工程思想进行安全需求分析,确保安全需求的有效制定 和规范化表达。 c)方案评估的具体要求如下: 方案实施及重大业务变更前,均应对其进行评估和检查,明确评估要素和内容,形成评估报 告。 一宜对安全方案的执行情况进行跟踪和评估,并对所用开源软件进行安全管理。

基于大数据、人工智能的支付风险防控开发部署至少满足以下要求: a 设计安全:安全架构应与安全规划保持一致性,并论证其有效性,明确安全功能和服务接口,包 括接口参数等,并编制安全功能设计文档。 b 开发安全:应制定并严格遵循的编码规范,建立适宜的源代码管控机制、开发外包安全管控及软 件安全测试规程,并加强开发和交付人员权限管理,确保开发过程的安全性。 C 部署安全:应依据授权最小化原则,明确安装部署过程的角色职责及其权限,并制定相应的授权 策略,及时清除安装部署过程中产生的中间文件,避免中间文件引起的数据泄露。 d 边界安全的具体要求如下: 一应规划业务控制、应用隔离相关的安全域,制定边界安全控制策略和管理规则。 一宜具备安全域间数据隔离机制和访问控制机制。 e 接口安全的具体要求如下: 应制定接口安全控制策略,如身份鉴别、授权策略、访问控制机制等,提供接口异常处理能 力,如对接口非法输入参数进行限制或过滤,并具备接口访问的审计能力。 一跨安全域的接口调用应采用安全通道、加密传输等安全机制。 f)文档安全:应建立文档安全管理机制,并明确访问权限及安全责任,定期对文档进行评审、更新、 批准和发布。

基于大数据、人工智能的支付风险应用安全至少满足以下要求: 应用程序管理方面,具体要求如下: 应建立组件管理规程及运行环境安全评估策略与规程,建立安装包及升级包管理机制和安全 检查机制,并明确应用访问权限。 宜定期对已部署的应用程序进行安全风险评估。 应用终端安全方面,应严格管控应用终端的数据访问权限,建立终端输入约束规范和安全防护机 制,并建立数据采集、监控与审计系统,追踪、分析和记录终端用户行为以识别异常操作。 身份鉴别方面,具体要求如下: 应建立基于多因素鉴别技术的身份标识和鉴别机制。 一应采用密码技术和访问控制技术等对鉴别凭证信息的传输和存储进行保护。 一应定期对账号使用情况进行安全性分析(如登录时间、登录位置、访问时长、访问模块等), 评估账号安全风险。 1 授权与访问控制方面,依据角色控制和最小授权原则,建立访问授权机制,并制定信息流安全控 制策略和机制,对数据导入、导出、迁移、发布等信息流动进行控制

租户数据安全方面DL 5190.2-2012 电力建设施工技术规范 第2部分:锅炉机组,应制定多租户应用程序及其服务数据资源的隔离策略与规程,并建立多租户 应用可用性保障策略和机制。 应用行为监测方面,具体要求如下: 一应建立大数据应用行为及其数据使用监测策略和规程,具备异常行为记录、统计分析和告警 能力。 宜支持自定义行为监测规则

基于大数据、人工智能的支付风险安全运维至少满足以下要求: a)配置与变更管理方面,具体要求如下: 一应制定管理规程,确定安全基线配置清单,在实施配置或变更前,对受控配置项和变更项进 行测评,并定期对配置项进行安全审查。 一一宜定期或在业务、系统架构发生重大变更时,开展配置管理效果风险评估。 b)补丁管理方面:应建立漏洞、脆弱性等补丁管理规程,补丁部署安装前应经过兼容性测试。 c)系统与数据迁移方面,应建立迁移策略与规范,配置必要的迁移工具,记录迁移过程并确保可溯 源性,具备安全风险分析能力及迁移完整性和一致性检测能力。 d)第三方服务管理方面,具体要求如下: 一应建立外部服务组件合作方安全管理制度,通过合作协议等方式明确其义务和责任。 一宜对其资质和安全能力进行评估,明确外部组件访问权限,并与其形成应急联动机制。 e 运维监控方面,具体要求如下: 应建立安全监控架构,具备安全漏洞库、漏洞扫描工具等,支持分布式节点统一监控,进行 报警并生成状态分析报告。 一宜具备大数据服务安全能力检测和安全势态分析能力。 f)安全风险评估方面,建立安全风险评估机制,定期或系统运行环境等发生重大变更时开展风险评 估,并定期开展安全评估情况抽查。 g 灾备及恢复方面,根据业务目标和安全策略,建立系统灾备及恢复机制,明确需求并划分灾难恢 复能力等级,制定相应预案。宜定期进行预案演练,根据演练情况修订预案,确保备份系统与数 h 系统应急响应方面,制定大数据服务应急处理机制、应急响应预案及应急响应定期演练计划,记 录并保存演练记录及总结报告。个!人 1 业务连续性计划方面,应建立并执行业务连续性计划及其定期演练计划,验证业务连续性及数据 与系统资产的可用性,并定期对连续性风险进行评估,

d)安全审计方面,宜定期通过内部审i 计机构的方式对支付风险防控系统安全情况进 行审计,并及时将审计结果 的报送

一宜采用密码技术等 全审计方面,宜定期通过内部审计或委 计机构的方式对支付风险防控系统安全情况进 审计,并及时将审计结果 的报送

JR/T0202—2020附录(资料性)机器学习1监督学习通过对已知的输入和输出数据的分析学习建立预测能力,从而可以对新的输入数据预测结果,这就是监督学习。用于进行模型训练的数据就是训练集。监督学习的训练集要求包括输入和输出,也称为特征和目标。训练集中的输出数据是已知的结果,称为标记数据。学习过程中,对训练样本集的每个输入训练样本数据,都提供对应期望输出结果的标记数据,在选定算法模型和训练集后,通过训练过程中不断对比标记结果,自动反馈调整算法模型参数,得到最优的1组模型参数的学习过程,见图1:训练数据样本标记特征提取模型训练模型文件待测数据特征提取模型预测预测结果图1监督学习的典型流程监督学寸由训练和预测2部分构成:训练环节针对带标签的样本进行特征提取,然后采用一定的监督学习算法进行训练并生成模型文件,同时应进行模型效果评价;预测环节首先针对待测数据进行特征提取,然后进行模型预测,最后生成预测结果文件。在有足够数量的高风险、低(无)风险样本的场景下,宜使用监督学习技术。在监督学习中,每个样本都由一个输入对象和一个期望的输出值(标记)组成。监督学习技术可以从有标记的样本中自动学习风险场景对应的行为模式。针对不同的数据类型和业务场景,可以选取不同的监督学习模型有针对性地识别多维度特征空间的风险模式,如逻辑回归、随机森林、梯度提升决策树、可扩展梯度提升以及深度学习等模型。2半监督学习在进行模型训练时,如果训练集的输入训练样本数据对应的期望结果标记数据较少,大部分都是无标记结果的数据,学习器不依赖外界交互、自动地利用未标记样本来提升学习性能就是半监督学习半监督学习的典型流程见图2有标记数据特征提取模型训练模型文件无标记数据待测数据特征提取模型预测预测结果图2半监督学习的典型流程半监督学寸由训练和预测2部分构成:训练环节针对有标记样本和未标记样本同时进行特征提取,然后采用一定的半监督学习算法进行训练并生成模型文件:预测环节针对待测数据进行特征提取,然后进行模型预测,最后生成预测结果文件。17

JR/T0202—2020半监督学习可分为纯半监督学习和直推学习,两者的区别在于如何看待未标记的样本。前者假定训练数据中的未标记样本并非待预测的数据,而后者则假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。纯半监督学习希望学得模型能适用于训练过程中未观察到的数据,而直推学习试图对学习过程中观察到的未标记数据进行预测。半监督学习技术自动地利用未标记样本以提升学习性能。在风控检测任务中,当未标记样本多、高风险标记的样本少时,宜使用半监督学习技术。半监督学习技术自动地利用未标记样本以提升学习性能,可以同时从有标记样本和无标记样本中学习风险模式。此时,未标记样本可以作为风险模式对应分布特征,提供某种正则化,从而使模型学到的信息更为全面。典型的半监督学习包括标签传播算法、直推式支持向量机等。以标签传播算法为例,该算法可以基于少量的风险样本进行标签传播,从而发现更多的风险样本。半监督学习的典型应用场景有团伙挖掘、生物数据分析等。半监督学习同时使用未标记样本和有标记样本,降低了样本标记的工作量,同时又能够带来比较高的准确性。3无监督学习无监督学习区别于监督学习和半监督学习的一个重要特点是,训练样本集的每个输入训练样本数据,没有对应的期望结果标记数据,而是对训练样本集本质特征的归纳抽取信息,如样本的分布、样本距离、关系、密度、相似性等度量特征,并在训练过程中调整算法模型参数,直到满足训练目标。当前在无监督学习中应用最广的就是聚类。聚类是按照数据内部之间的分布结构,将数据划分成多个没有交集的子集(每个子集被称为族)。通常这些数据划分的逻辑和意义应通过人为分析、总结去进行定义。通过这样的数据划分和分析定义,簇就可能对应一些实际的概念和意义。聚类可以用来寻找数据分布的潜在特点,还可以用来作为其他学习任务的前置任务,先进行划分后再进行其他后续分析学习。无监督学习的典型流程见图3:待测数据特征提取无监督学习预测结果图3无监督学习的典型流程无监督学习首先针对样本进行特征提取,然后采用一定的无监督学习算法进行学习,最后生成结果文件。无监督学习技术可以从未标记样本分布中白动计算出可能的风险模式。在支付风险防控场景常用的无监督机器学习技术主要包括K均值聚类、层次聚类等各种聚类算法、主成分因子分析等降维技术等。无监督学习的典型应用场景有相似用户挖掘、文本聚类等。无监督学习的优势在于在缺少标记样本的情况下,可以进行有效的样本挖掘。无监督学习的劣势在于针对大数据的聚类等处理的计算复杂度较高。4关系网络传统通用的风险识别,更多的是从个体的指标角度识别。针对群体作案形式,风险识别不能局限于个体特征,宜使用关系网络来识别团体性风险活动。关系网络通过个体之间的行为等信息建立全局的关系图,进而在全局关系图上,通过图算法,发现具有一定行为模式的团体。关系网络可以通过关系识别、特征挖掘、构建网络等方式识别团体性风险活动。关系网络作为风险识别的1种手段,可以在事前、事中、事后的各个阶段进行风险防控18

JR/T0202—2020关系网络图算法,利用图结构挖掘相关特征的算法,常见的有社交关系网络图,个体社会信息异构图等。算法包括构建图,识别图形异常结构,标签风险传播等关系网络的典型处理流程见图4:待测数据点边生成图挖掘预测结果图4关系网络的典型处理流程关系网络图算法首先针对数据集计算生成点和边,然后采用社区挖掘、标签传播等不同的图挖掘算法进行计算并生成结果数据文件。行业标准信息服务平台19

JR/T 02022020

GB/T5271.31一2006信息技术词汇第31部分:人工智能机器学习 [2] GB/T23694一2013风险管理术语 [3] GB/T35295一2017信息技术大数据术语 [4] GB/T37721一2019信息技术大数据分析系统功能要求 [5] GB/T37722一2019信息技术大数据存储与处理系统功能要求 [6] 银监会.中国银监会关于印发银行业金融机构全面风险管理指引的通知(银监发(2016)44号)TCPIA 0007-2019 地面用双玻晶体硅光伏组件-设计鉴定和定型, 2016年09月27日

©版权声明
相关文章