标准规范下载简介:
内容预览由机器从pdf转换为word,准确率92%以上,供参考
T/31SCTA 003-2017 工业大数据平台技术规范 数据处理.pdf监督学习从已标记的训练数据集学习一个函数(模型),然后对未标记的数据集根据这个函数(模 型)预测结果。在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果 常见的监督学习算法包括回归分析和统计分类。监督学习是训练神经网络和决策树的最常见技术
无监督学习从原始数据(无训练数据)中找到隐藏的模式或者关系。 。与监督学习相比,无监督学
半监督学习是介于监督学习与无监督学习之间一种机器学习方式,其既有标记数据又有未标记 它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习 咸少标注代价,提高学习机器性能具有非常重大的实际意义。这种学习模型可以用来进行预测,但 型首先需要学习数据的内在结构以便合理地组织数据来进行预测。主要应用场景包括分类和回归
某县生态移民马头寨安置小区施工组织设计建议书T/31SCTA 003—2017
传算法适用于非常复杂和困难的环境,比如,带有大量噪声和无关数据、事物不断更新、问题目 标不能明显和精确地定义,以及通过很长的执行过程才能确定当前行为的价值等。同神经网 络一样,遗传算法的研究已经发展为人工智能的一个独立分支,其代表人物为霍勒德(J.H Holland); e)联接学习。典型的联接模型实现为人工神经网络,其由称为神经元的一些简单计算单元以及 单元间的加权联接组成; f)增强学习(reinforcementlearning)。增强学习的特点是通过与环境的试探性(trialanderror) 交互来确定和优化动作的选择,以实现所谓的序列决策任务。在这种任务中,学习机制通过选 择并执行动作,导致系统状态的变化,并有可能得到某种强化信号(立即回报),从而实现与环 境的交互。强化信号就是对系统行为的一种标量化的奖惩。系统学习的目标是寻找一个合适 的动作选择策略,即在任一给定的状态下选择哪种动作的方法,使产生的动作序列可获得某种 最优的结果(如累计立即回报最大)。 在综合分类中,经验归纳学习、遗传算法、联接学习和增强学习均属于归纳学习,其中经验归纳学习 采用符号表示方式,而遗传算法、联接学习和加强学习则采用亚符号表示方式;分析学习属于演绎学习。 实际上,类比策略可看成是归纳和演绎策略的综合。因而最基本的学习策略只有归纳和演绎。 从学习内容的角度看,采用归纳策略的学习由于是对输人进行归纳,所学习的知识显然超过原有系 统知识库所能蕴涵的范围,所学结果改变了系统的知识演绎闭包,因而这种类型的学习又可称为知识级 学习;而采用演绎策略的学习尽管所学的知识能提高系统的效率,但仍能被原有系统的知识库所蕴涵, 即所学的知识未能改变系统的演绎闭包.因而这种类型的学习又被称为符号级学习
最主要的应用领域有:专家系统、认知模拟、规划和问题求解、数据挖掘、网络信息服务、图像识别、 故障诊断、自然语言理解、机器人和博弈等领域。 从机器学习的执行部分所反映的任务类型上看,大部分的应用研究领域基本上集中于以下两个范 畴:分类和问题求解。 a)分类任务要求系统依据已知的分类知识对输入的未知模式(该模式的描述)作分析,以确定输 入模式的类属。相应的学习目标就是学习用于分类的准则(如分类规则); b)问题求解任务要求对于给定的目标状态,寻找一个将当前状态转换为目标状态的动作序列; 机器学习在这一领域的研究工作大部分集中于通过学习来获取能提高问题求解效率的知识 (如搜索控制知识,启发式知识等)
A.5基于所获取知识的表示形式分类
学习系统获取的知识可能有:行为规则、物理对象的描述、问题求解策略、各种分类及其他用于任务 实现的知识类型。 对于学习中获取的知识,主要有以下一些表示形式: a)代数表达式参数。学习的目标是调节一个固定函数形式的代数表达式参数或系数来达到一个 理想的性能; b)决策树。用决策树来划分物体的类属,树中每一内部节点对应一个物体属性,而每一边对应 于这些属性的可选值,树的叶节点则对应于物体的每个基本分类; c)形式文法。在识别一个特定语言的学习中,通过对该语言的一系列表达式进行归纳,形成该语 言的形式文法:
☆☆银行施工组织设计A.6基于学习策略的分类
B.2运行时和编程模型
运行时和编程模型是一个系统最重要的特质,因为它们定义了表达方式、可能的操作和将来的局限 性。因此,运行时和编程模型决定了系统的能力和适用场景。实现流处理系统有两种完全不同的方式: a)原生流处理:指所有输人的记录一旦到达即会一个接着一个进行处理; b)微批处理:把输人的数据按照某种预先定义的时间间隔(典型的是几秒钟)分成短小的批量数 据,流经流处理系统。 两种方法都有其先天的优势和不足,原生流处理的优势在于它的表达方式。数据一旦到达立即处 理,这些系统的延迟性远比其他微批处理要好。除了延迟性外,原生流处理的状态操作也容易实现。一 般原生流处理系统为了达到低延迟和容错性会花费比较大的成本,因为它需要考虑每条记录。原生流 处理的负载均衡也是个问题。比如,我们处理的数据按key分区,如果分区的某个key是资源密集型 那这个分区很容易成为作业的瓶颈。
微批处理。将流式计算分解成一系列短小的批处理作业,也不可避免的减弱系统的表达力。像状 态管理或者join等操作的实现会变得困难,因为微批处理系统必须操作整个批量数据。并且,batch nterval会连接两个不易连接的事情:基础属性和业务逻辑。相反地,微批处理系统的容错性和负载均 衡实现起来非常简单,因为微批处理系统仅发送每批数据到一个worker节点上,如果一些数据出错那 就使用其他副本。微批处理系统很容易建立在原生流处理系统之上。 编程模型一般分为组合式和声明式。组合式编程提供基本的构建模块,它们必须紧密结合来创建 拓扑。新的组件经常以接口的方式完成。相对应地,声明式API操作是定义的高阶函数。它允许我们 用抽象类型和方法来写函数代码,并且系统创建拓扑和优化拓扑。声明式API经常也提供更多高级的 操作(比如,窗口函数或者状态管理)。
B.3主流开源流处理系统
(资料性附录) Spark基本架构与原理分析
ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州 大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等 其他大数据和MapReduce技术相比,Spark有如下优势: a)Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数 据集和数据源(批量数据或实时的流数据)的大数据处理的需求; b)官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能 够将应用在磁盘上的运行速度提升10倍。 下面从Spark的架构及生态,spark与Hadoop,运行流程及特点,常用术语,运行模式CECS 631-2019-T标准下载,Spark集群 模式,RDD运行流程等方面来对Spark的基本架构和原理进行分析。
通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理 GB以上的数据)这时我们可以选择spark集群进行计算,有时我们可能需要处理的数据量并不大, 是计算很复杂,需要大量的时间,这时我们也可以选择利用spark集群强大的计算资源,并行化地 草。 Spark架构包括如下组件: a)SparkCore:包含Spark的基本功能;尤其是定义RDD的API、操作以及这两者上的动作。其 他Spark的库都是构建在RDD和SparkCore之上的; b)SparkSQL:提供通过ApacheHive的 SQL变体Hive查询语言(HiveQL)与Spark进行交互 的API。每个数据库表被当做一个RDD,SparkSQL查询被转换为Spark操作; c)SparkStreaming:对实时数据流进行处理和控制。SparkStreaming允许程序能够像普通 RDD一样处理实时数据; d)MLlib:一个常用机器学习算法库,算法被实现为对RDD的Spark操作。这个库包含可扩展 的学习算法,比如分类、回归等需要对大量数据集进行选代的操作; e)GraphX:控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDDAPI,包 含控制图、创建子图、访问路径上所有顶点的操作。 Spark架构组成如下: a)ClusterManager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在 YARN模式中为资源管理器; b)Worker节点:从节点,负责控制计算节点,启动Executor或者Driver; c)Driver:运行Application的main()函数; d)Executor:执行器,是为某个Application运行在workernode上的一个进程。