还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第章数据仓库建设1数据仓库总体架构
1.1专家系统接收增购工程车辆TCMS或其他子系统通过车地通信传输的实时或离线数据,经过一系列综合诊断分析,以各种报表图形或信息推送的形式向用户展示分析结果针对诊断出的车辆故障将给出专家建议处理措施,为车辆的故障根因修复提供必要的支持根据专家系统数据仓库建设目标,结合系统数据业务标准,包括数据采集频率、数据采集量等相车辆故障树车辆检修诊断分析预案监测报警信息查询嵋■I指标比对专家协助处理区Storm关因素,设计专家系统数据仓库架构如下数据仓库架构从层次结构上分为数据采集、数据存、数据分析、数据效劳等几个方面的内容:车辆健康评车辆部件指车辆对比分车辆部件更估标检测报警析换预奏数据采集负责从各业务自系统中聚集信息数据,系统支撑Kafka.Storm.Flume及传统的ETL立立采集工具|REST操作接口数据存储本系统提供Hdfs、Hbase及RDBMS相结合的存储模式,支持海量数据的分布式存储事务总线结构半结化构化Spark数据分析数据仓库体系支持传统的OLAP分析及基于Spark常规机器学习算法数据标准管理
1.
6.1聚集整理数据资源管理所需的标准标准信息,建立数据标准数据库利用专家系统数据标准管理系统的接口同步更新标准信息包括数据元标准以及信息代码标准
1.建设数据资源库,实现专家系统发布标准数据元与本地扩展数据元标准的聚集实现与车辆检修等数据源管理系统接口对接
2.建设信息代码资源库,梳理国标、部标和本省定义的标准代码以及各业务信息系统需要使用的其它代码,建立字典代码实体数据库应具备字典代码定期同步功能并建设信息代码在线映射维护功能,以便对数据标准化转换提供支持数据监控管理
1.
6.2大数据运行监控通过对大数据资源库相关效劳器、Oracle数据库、分布式存储系统、Hadoop平台等的运行状态、性能指标以及数据更新情况进行持续监控,及时发现存在的问题及隐患,辅助系统管理员及时采取措施,提高大数据资源库的运行可靠性,保障大数据资源库稳定高效运行发现异常问题时通过短信、邮件等方式通知系统管理员及时处理,实现通过自动、智能、持续的自动监控预警代替人工巡检,降低运维工作量,提高运维效率通过可视化图表对监控结果进行统计分析直观展现平台运行各类运行指标,辅助管理员从宏观角度掌握平台运行情况>性能指标监控可以对效劳器CPU负载、Oracle数据库连接数、分布式存储10负载、Hadoop负载等各类性能相关指标进行监控,以便掌握平台负载情况,及时发现性能问题,辅助平台优化>大数据库日志监控自动采集大数据相关组件运行日志,并根据既定规则进行分析,发现异常及时告警提供日志查询检索功能,可以按组件类型、时间、关键字等进行过滤>数据量监控数据量监控通过对数据总量以及增量进行定期监控,可以掌握数据量变化情况,也可以从数据增量角度发现数据入库异常数据量监测结果可同步到数据台帐,以便数据台帐统计数据总量情况元数据管理163元数据是数据仓库中存储的根本单元,实现对元数据的管理,数据仓库的最根本功能之一元数据管理包括元数据注册登记、元数据存储、元数据建模等多方面功能数据效劳
1.7大数据平台开放存储访问接口,提供基于Hadoop技术体系的HDFS HBase访问接口,以OpenAPI的方式,为应用提供大数据存储效劳数据效劳层主要由数据效劳总线来建设,主要负责将大数据平台的能力接口注册进去,再以标准化接口开放给应用系统使用,支持多种协议转换、效劳质量控制、访问控制、规则引擎等数据效劳层将大数据平台的数据效劳能力开放出去,供第三方平台使用接入端策略^度接出端黠服箱接口接口乂直接口上分析接口)IS___如上图应用效劳系统使用效劳接口,来接入数据效劳总线,经过数据效劳总线的接入端点,进行过滤同时根据访问控制、效劳质量、协议转换、策略调度、规则引擎的处理,接出到大数据平台的能力接口第章大数据平台2大数据平台基础架构
2.1大数据基础平台基于烽火自主知识产权FitData产品,FitData主要集成了基础计算资源、网络资源、存储资源,在统一的平安体管理体系下,将这些资源再进行深度加工、处理、关联,形成多种类型的基础效劳能力,构建基础资源层,向应用提供基础资源的效劳能力数据效劳总线通过效劳治理来维护基础资源效劳能力,并通过访问控制、效劳质量、协议转换等,对应用提供多协议支持平台支撑体系的运维体系提供整体运维能力,保障平台的正常运行;平安体系提供整体平安能力,保障平台的数据平安和使用平安;平台采用分布式架构,支持巨量数据存储与分析,保障专家管理系统的高性能、高可用性和易扩展性FitData大数据基础平台结构如下列图红线标出局部大数据应用车辆故障诊车辆健康评车辆指标检测车辆检修预案车辆对比分析其他断估报警A Vz大数据处理平台运维管理数据服今安装部署多维分析数据共享数据检索数据挖掘数据可视化可编程机器学习集群管理主机管理用户管理服务管理数据抽取、转换、清洗、加载工具日志采集关系数据库连接分布式消息ETL KettIeFlume Sqoopkafka非结构化/半结构化数据准化数据结构化数据监控预警批・采集版本管理定时采集实时采集■数据计算与存储是FitData大数据平台的核心内容,提供分布式存储能力和分布式计算能力提供的存储框架能力,包括基于结构化数据存储、非结构化数据存储和半结构化数据存储,其计算框架与存储框架均是分布式集群方式部署,可以平滑的进行弹性扩容■数据效劳层数据效劳层主要由数据效劳接口来实现,对应用提供数据支撑通过数据效劳接口将平台的数据资源以标准API接口的方式开放出来,供不同的应用系统使用数据应用层主要提供基于该平台来构建的专家系统应用采用平台的标准API,数据资源层获取数据效劳,目前API接口包括资源目录浏览、数据查询搜索等■数据会聚层提供各层之间数据交换能力,由ETL数据集成工具来实现平台支持多中异构数据源,针对不同数据源的不同数据,也提供多种数据抽取方式,例如数据库直连抽取、Sqoop抽取等提供计算框架能力,主要集成了批处理计算框架、流式计算框架、内存计算框架等能力,还提供了像Hive、Mahout.Spark等二次计算能力框架平台可将这些计算能力开放,供数据模型、数据挖掘、应用系统来使用■运维体系运维体系提供面向专家系统完整运维方案,涵盖了运行监控到使用操作平安体系提供面向专家系统大数据平台的用户权限管理、终端访问控制、日志平安审计等能力数据存与计算是FitData大数据平台核心能力,将目前专家系统内部业务数据源进行有效整合,集成以数据为核心的查询、分析和管理能力采用分层整合,灵活配置,横向扩展,纵向贯穿的大数据平台效劳能力,其计算框架、存储框架都以容器的方式,可轻松灵活的在线进行装卸,以平滑扩充大数据平台的集成能力除此还集成了二级计算框架、通用的数据处理算法库和数据仓库,将大数据平台的数据进行清洗、加工和分析挖掘,处理后的数据可订阅,充分表达数据即效劳的大数据思想•分布式存储框架主要负责针对巨量数据的存储,以分布式存储技术,支持快速、巨量、多种类型的数据存取支持从数据源抽取数据到大数据平台存储,集成多种存储方式,有针对结构化数据、非结构化数据和半结构化数据的存储•计算框架主要提供批处理计算、内存计算、流式计算框架,由数据处理管理驱动来分配和调度计算框架,加载数据处理算法,完成数据处理,数据仓库主要对计算框架完成后的结果进行存储,支持Hbase、MS SQLServer等存储,同时将数据以接口的形式开放出去•数据处理算法库集成通用的数据分析算法、能够插入用户自定义的数据模型算法,配合以资源管理系统为主的计算存储框架,进行数据处理•资源管理系统,以容器的方式,来为计算框架和存储框架分配资源,并支持资源调度,弹性伸缩•数据效劳总线主要将基础平台的能力和数据效劳接口,以API的方式开放出去,形成一个共享的、供给用使用的效劳总线特点
2.2FitData•广泛适应性支持结构化、半结构化、非结构化数据;支持实时数据•巨量数据数据处理能力在PB级以上•线性扩展存储、计算均可增加节点进行线性扩展•统一运维管理降低安装部署、运营、维护本钱•经济性可运行在普通X86效劳器上,硬件本钱低•高可靠性支持容灾容错、备份恢复机制,支持自动告警支持节点可靠性、数据可靠性•高性能高效数据处理性能,支持Spark、Storm、Ro•认证平安支持Kerberos平安认证、LDAP账户管理控制•数据平安支持数据加密•负载均衡支持节点间存储、技术负载均衡•开放性支持符合Hadoop标准的第三方组件或工具主要功能
2.3FitDataFitData是基于开源Hadoop开发的企业级大数据产品,提供PB级数据的采集、存储和处理能力,支持数据加载、查询、分析、挖掘等功能节点批量自动部署
2.
3.1通过以Web管理,以图形界面的方式实现大数据平台节点批量自动部署,只需添加主机名或者IP地址即可实现将节点效劳器添加到集群中,截图如下添加主机向导添加主机向导安装选项确认主机进入主机列表将包含在集群和你提供的SSH密钥分配SlavesandClients目标主机KM进入主机列表使用FullyQualifiedDomainNameFQDN,每行一,个.或者使用模式表达式
14.
215.
219.148l麋安装.启湖网试汇总主机注册信息
④提供你的SS谣钥自动注册主机别箕sshprivatekey图向集群中添加节点节点动态管理
2.
3.2通过web管理实现节点的动态添加、删除,当存储空间或者计算资源缺乏时,支持向集群中添加同等配置的效劳器,实现大数据平台在线动态扩容,而不需要停机处理,不影响平台正常运行大数据平台以Web图形界面实现Hadoop集群监控,包括大数据平台的硬件资源、软件资源、数据资源的监控,以及整个Hadoop集群的工作负载主要包括以下几个方面效劳组件状态监控233通过管理平台可以看到所有目前已安装的效劳组件的健康状况摘要没有警报NameNode©Started DiskRemaining
166.0TB/
176.7TB
93.97%SNameNodeQStarted Blocks总数4039DataNodes5/5已开始Block0corrupt replica/0missing/0underreplicatedDataNodesStatus5live/0dead/0decommissioningTotalFiles+Directories4747NFSGateways0/0已开始升级状态没有待升级NameNodeUptime
17.96days安全模式状态NameNodeHeapDiskUsage3781MB/
1011.3MB374%usedDFSUsedDiskUsageNon
14.1GB/
176.7TB
0.01%
10.6TB/
176.7TB
6.02%DFS Used可用fSmartSenseBundleCaptureFailure SmartSense18daysago可用6DataNodeUnmountedDataDir HDFS28daysago,DataNodeStorage HDFS18daysago•可用DataNodeWebUI HDFS18daysago!可用、DataNodeHeapUsage HDFS18daysago可用■可用ODataNodeProcess HDFS18daysagoEsNodeManagerHealth YARN18daysago C可用QNodeManagerWebUI YARN18daysago可用■可用♦SupervisorProcess Storm7daysago助HBaseRegionserverProcess HBase15daysago可用显示10匕]1-10of02G今告警定义名称状态▼服务星近状态更新状态1曲所有所有国任意国所有[v]图效劳组件运行状况计算资源负载监控
2.
3.4通过管理平台可以实时看到整个平台的资源负载情况,包括集群的CPU、集群磁盘
10、集群网络
10、HDFS10,如下列图所示:92of02definitionsshowvig-SSSEtiS群集CPU群集磁盘IO100%2586K/SI391K/s3195K/S00%W二•;01:45|02PM■整个主机中的主机CPU使用率
1.8%■总计整个磁盘…211K/S・总计整个磁盘中的…0群集网络10HDFS IO
①001:45I02PMHDFS nameser...
2.8b/s-HDFS nameservi...1b/s HDFS,总计整…不适用■HDFS,总计整…不适用图计算资源监控多任务实时监控
2.
3.5通过对集群运行任务的实时监测,并根据任务优先级和耗时不同对任务进行动态调度,减少出现大量任务等待和重要任务无法及时完成的可能,可以使Hadoop集群的运行变得更加高效合理
1、系统根据各队列资源的最小值分配集群资源,这样可以按照需求对各任务队列获取的集群资源进行分配,而且不会出现集群资源的闲置浪费
2、可以实现对各任务队列获取的集群资源大小实时动态调整,及时保证高优先级任务所在队列获得更多的集群资源
3、可以实现在某个任务队列出现空闲时,将该任务队列获取的集群资源自动分配给其他繁忙的任务队列,以使得集群资源利用最大化磁盘性能监控
2.
3.6对集群机器的硬盘进行监控,如下列图所示,详细的展示出磁盘io的利用率,读写速度,磁盘的等待时间50%PUOS,2b sz«30分钟在2015年6月25日.下午5点46CST之前”川口《主机处KK模板就粒述Parcel磁盘概述隐藏说明logicalPartition=false笫选器该页面对部署中所有宓盘的状态进行了筱述所显示的充计数窕与30分钟1小时2小时6小时12小时1天7d30diostat中的统计数据相匹配或根据其中的统计数据而创建这些统计数据在一系夕殖方图(默认情况下涵盖系统中思个物理裕然)中显示调整时间线的结束时间,查看不刷间电的统计数据在机中指定一个筛选器以限制显示的数据例如,要查看里位个机架-acklMS,则将解选器设置为:系线中所有端崔利用窣的自方图避盘的利用系统中所有爆盘的平均纵列长度自方图这是至是向设备发出I谙求期同CPU时间的百分iostat的avgqu-sz扈里较低敦舅要比较高比这是iostat的util度里该百方图显示整教里好该直方图显示整个系统中平哪列长个系统中试铠和用锄分布并且可以用于识朋期朔布并且可以用于识胪有异欷队列长受B有异常大驯鞭锄i福单击该官方颤人通行了遮盘单击该直方图杀人遂行了绍并设答首识别®群值别甚群值logicalPartition•falseandrackld•rackl®里击某个直方图可深入了解并识别异常值■fil利用车解平哪列K5系统中所有碳醐等待时间直方图i福怫待时IssKuilizalon lasKaverage.queueJength目吟维护所婿发坳10清拗平均时词这包任队列中蹒求斫花的时酗护这些请求所花的时目谈科过lasKsennceJme)系统中所有鼠倒思务时曲直方图好盘服务写入10计一的iostat的await度里这是iostat的时间是磁盘用于胭务10所花的平均fi寸遵5这是iostat的svctn度里较低效鳗比awaitS3较低数里要比较高麴更好该鲂图显示整个系统中例洞的分布并且F可以用于识另惧有异较高效更好送百方图昱示整个系统中服务时常大挈弼醐i福单目的分布并且可以用于识别具有R宓大场务时击该囱方图深入遂行了16并没另腐群值0000目佐遨盘单击自方酹入运行了第并识别离-------------1------------1------------1------------1群a,点点点吞应percent IOS秒S型ms船邮电时间laslawait_read_nme系统中所有该盘演取等待讨间的直方图雄盘系统中所有於盘的写入等待时间的直方图雄的读取等的同是向要维护的设爸发出读取10鄙耿四间是飕维恸脑发请末的平均时目这包岳队列中的清末所花入io清%的平均时同这包名队列中的清末所的8寸间和维护这丝清求所花的时同这是甘花的时酬维护这些酒求所花的时同这是图磁盘性能监控触翱时同lastfawailtime故障快速定位
2.
3.7诞耕写入桐lastawait_write_6i大数据平台具备完整的告警监控和故障快速定位能力能够将计算框架的每个作业进度、状态、资源利用情况进行监控,并通过可视化图形界面进行展示当大数据平台出现异常情况时,平台能够通过监控系统,对效劳器节点宕机、集群异常、平安异常等异常事件进行预警、报警,并通过邮件、短信报警手段进行告警通知提供预制的恢复规则和平安规则,对集群异常进行自动修复、自动限制非平安行为的操作大数据平台能够通过对告警信息的分析,快速定位平台内部出现故障的节点,对于因故障无法继续提供效劳器的节点进行标记,将平台的作业任务自动分配到其他的节点上运行,同时,大数据平台采用分布式体系结构及无单点故障设计,平台内任何节点的宕机都不会影响平台的稳定运行和业务的正常使用待故障节点恢复正常后,再将该节点纳入平台的资源中,将作业任务分配到恢复后的节点上运行日常运维监控
2.
3.8大数据综合平台提供完整的日常运维监控的效劳能力,针对从上层应用平台到底层基础平台的各个功能模块和组件均提供有监控能力,能够分析系统的运行日志和用户日志,并且能够将监控数据通过文件接口或webservice接口的方式汇总到平台管理运维模块的监控管理界面中进行统一呈现和管理使用系统能够根据监控到的数据进行分析判断,对异常的数据触发告警,在前台界面提醒,直至出发通知和处理等进一步动作平台的监控范围涵盖有:•平台管理资源的使用与分配□效劳器视图提供针对各效劳器和存储等设备的资源使用情况的实时查看,包括当前设备的CPU负荷,内存占用情况,存储空间使用情况,网络带宽占用情况、设备运行状态等管理员能够根据监控信息在管理平台上有效调度分配系统资源其中集群的监控如下列图所示图表30训1小时2小时6小时12小时1天7d30d群集网络IO HDFSIO群集CPU群集磁盘IObytes/second bytes/second
3.8M/S
3.8M/S
111.9M/SA__
21.9M/S!05:30050已完成的Impala队列queries/secondIt
0.50*--针对效劳器的监控如下列图所示:向群集添加新主机|主机检查器重新运行升级向导国已选定的掾作▼显示25▼条目售名称tiP3角色;平均负载♦磁盘使用情况;物理内存♦交换空间□Omas【e《cdh
5.demo
192.
168.1,8033RoleS
0.
630.
610.48至1G旧/
565.4GB16GiB/
31.3GiB0B/
15.7GiB□Oslavel.cdh
5.demo
192.
168.1,8112Roles
0.
970.
950.62606GiB/
565.4GiB
7.3GiB/
31.3GiB OB/
15.7GiBOslave
2.cdh
5.demo
192.
168.
1.8212Roles
0.
600.
520.3257-7GiB/
565.4GiB_8GiB/
31.3GiB0B/
15.7GiB□Oslave
3.cdh
5.demo
192.
168.
1.8312Roles
0.
360.
300.11乎9GiB/
565.4GiB
7.5GiB/
31.3GiB0B/
15.7GiB第一个上一个1下一步最后一令□效劳视图提供系统中各效劳资源使用情况的实时查看,包括连接数、当前作业数,I/O情况,运行状态等•监控系统的运行情况数据效劳总线数据系统提供数据效劳总线效劳,实现对数据资源的统一管理和调度,并对外提供数据效劳数据采集
1.2专家系统数据仓库数据采集包括两个局部内容外部数据聚集、内部各层数据的提取与加载外部数据聚集是指从TCMS、车载子系统等外部信息系统聚集数据到专家数据仓库的操作型存储层(ODS);内部各层数据的提取与加载是指数据仓库各存储层间的数据提取、转换与加载外部数据聚集
1.
2.1专家数据仓库数据源包括列车监控与检测系统(TCMS)、车载子系统等相关子系统,数据采集的内容分为实时数据采集和定时数据采集两大类,实时数据采集主要对于各项检测指标数据;非实时采集包括日检修数据等根据工程信息聚集要求,列车指标信息采集具有采集数据量大,采集频率高的特点,考虑到系统后期的扩展,因此在数据数据采集方面,要求采集体系支持高吞吐量、高频率、海量数据采集,同时系统应该灵活可配置,可根据业务的需要进行灵活配置横向扩展本方案在数据采集架构采用F1ume+Kafka+Storm的组合架构,采用Flume和ETL工具作为Kafka的Producer,采用Storm作为Kafka的Consumer,Storm可实现对海量数据的实时处理,及时对问题指KafkaproducerHadoopFlumeHBaseZooKeeperBrokerETLHdfsBrokerFlumeBroker标进行预警具体采集系统技术结构图如下Consumer□接口效劳运行监控提供针对数据源和应用层的监控效劳,包括运行状态和流量等信息;□数据存取过程监控提供针对数据存储过程的监控效劳,包括系统平台的I/O情况(整体I/O和具体各节点I/O以及具体的各作业的I/O情况)和数据存取过程的任务列表;□数据会聚过程监控监控系统的数据会聚过程,包括使用资源信息,使用的数据源信息,作业进程运行状况信息,使用时间/方案完成时间等信息;□数据处理过程监控(作业监控)监控系统的数据处理(作业)过程,包括使用资源信息,使用的数据源信息,作业进程运行状况信息,使用时间/方案完成时间等信息;□应用监控针对运行在平台上的应用进行监控,包括各应用当前的运行状态、应用对数据的使用状况,应用为用户提供的查询数量等;•系统异常告警与处理□用户告警对用户操作使用过程中的异常行为进行告警,例如某用户访问了超过其正常权限的数据等□系统告警对系统中存在的效劳节点宕机,系统接口异常,数据存储报错,系统资源紧张等系统运行异常情况进行告警触发,并提醒用户进行操作处理优势
2.4FitData烽火大数据平台FitData借助先进开源的大数据存储及处理技术,成功实施了公安大数据平台、楚天云政务大数据平台,通过大数据工程的实施,逐步沉淀了大量的算法模型及分析与展示工具,在平台性能及稳定性上经历了实战的考验,逐步总结出一套FitData自己的系统优化策略及系统运维策略,平台经受住了单节点超过1000台集群的实战考验,并支持HA高可用性运行策略,经过四年时间及高强度工程的锤炼,FitData大数据平台已经走出了自己的路在数据处理上支持PB及超大量数据的秒级查询及聚集SmartAS是企业级基础开发平台,它基于FitData平台之上,采用微效劳架构,支持分布式部署,是成熟可靠的多终端应用开发框架它集成业界流行和成熟的技术框架,通过应用系统使用,反应的情况不断完善应用框架的通用功能,满足业务系统快熟构建的目标,具备良好用户体验第章硬件部署3按照专家系统安装接口标准要求,结合专家管理系统数据量估算值和数据存储特点,本着数据平安、系统稳定可靠的核心设计思路,设计专家系统大数据平台数据节点效劳器22台,其中管理节点效劳器2台,数据节点效劳器19台,监控节点一台,系统RDBMS数据库效劳器台,应用效劳器6台,绘制专家系统部署逻辑结构图如下地面网络第章硬件清单4根据系统规划及安装接口标准要求,初步规划效劳器如下系统应用效劳器需求6台;大数据平台设计节点22个,其中管理节点2个,数据节点19个,监控节点效劳器1台,RDBMS数据库效劳器两台双机热备具体各效劳器硬件需求如下表编号效劳器名配置数量说明12RDBMS数据库效劳器双机备份4*Intel XeonE7-4800/8800v3最大可扩展至4CPU,72核支持8GB/16GB/32GB/64GB DDR4高速内存配置128GB DDR4内存配置9块900GB15K SAS,14*4TNL SAS硬盘21Active大数据平台管理节2*Intel XeonE7-4800/8800v3点最大可扩展至4CPU,72核支持8GB/16GB/32GB/64GB DDR4高速内存配置128GB DDR4内存配置6块600GB15K SAS,3*4TNL SAS硬盘31Standby大数据平台管理节2*Intel XeonE7-4800/8800v3点最大可扩展至4CPU,72核支持8GB/16GB/32GB/64GB DDR4高速内存配置128GB DDR4内存配置6块600GB15K SAS,3*4TNL SAS硬盘419大数据平台数据节数据节点2*Intel XeonE7-4800/8800v3点最大可扩展至4CPU,72核支持8GB/16GB/32GB/64GB DDR4高速内存配置128GB DDR4内存配置6块600GB15K SAS,12*4TNL SAS硬盘51大数据集群性能检监控节点测效劳器2*Intel XeonE7-4800/8800v3最大可扩展至4CPU,72核支持8GB/16GB/32GB/64GB DDR4高速内存配置128GB DDR4内存配置6块600GB15K SAS,3*4TNL SAS硬盘62应用效劳器CPU2颗E5-2630v3应用效劳器24个内存插槽,最大支持
1.5TB内存,支持2133MHz内存当前配置64GB内存支持SAS、SSD和PCIeSSD硬盘,支持寸和
3.5寸硬盘混插支持24+2个2・5寸SAS/SATA或者14个寸SAS/SATA+2个
2.5寸SAS/SATA+16个
1.8〃SSDo硬盘配置6块600GB15KSAS硬盘72交换机4810/100/1000Base-TX,4网络设备100/1000Base-X SFP82防火墙多功能防火墙,4口以上安防设备9Intel RXeon CPUE5,配置2工作站IT SATA硬盘内存8GB说明硬件局部交换机、防火强及工作站,请根据标书确认!大数据效劳器、RDBMS数据库效劳器及应用效劳器的具体配置参数请硬件朋友和标书上进行重新确认,这边只对内存量、CPU颗数及存储空间大小做了要求第章个人介绍5吴宏勋“烽火集成〃高级大数据架构师,曾担任医疗大数据、公安大数据、财税大数据工程大数据架构师,具有丰富的大数据工程实施经验,对高吞吐、高并发、海量数据实时聚集,TB、PB级海量数据即席查询与实时处理具有针对性方案和经验,研读过局部Hadoop、HBase、Spark源码,对Hadoop、HBase、Spark的原理有很深的理解,曾从事多个工程大数据平台的调优工作!应用层车辆故障树车辆健康评车辆部件指车辆检修预车辆对比分车辆部件更展数据可视化示诊断分析估标检测报警案析换预案第章专家系统架构设计6报表引擎数据总线服务应用服务组件大数据分析|服务应SOA用支专家管理系统撑身份认证权限管理引擎界面定制引擎消息队列|….|层大数据分析算法HDFSc c大数据查询适配器机器学习分析适配器常规算法MapReduceTSearch频繁模式挖掘聚类算法分类器HiveQL中文分词词频统计关联算司(API推荐算法线性回归频繁子项挖掘UDF组合算法…自定义算法数据资源数据资源调度引擎大数据基础平台基础[]HIVE平Pig HIVE车辆故车辆能台分件知识层布障信息耗信息—M—式分布式计算框架/Yam协监测指车辆检作H bsse服标信息修信息(实时.分布式.高维数据库)务集群监控(分布式文件系统)数据]|数据编码[数据比对数据关联数据审计数据索引加工格式转换数据去重数据组合数据归约数据分类IFlume Kafka数据工采集部件知车辆故车辆检层IM处理黑数据..本系统总共分为四个层次,从下到上依次为数据采集层、基础平台层、应用支撑层、应用及展示层,各层在专家系统统一业务标准、技术标准、平安标准下进行数据通信及集成
1.数据采集层负责专家系统信息数据的聚集、转换与加载,数据采集层提供多种数据采集方法:ETL、Flume、Kafka等,系统支持Flume+Kafka+Storm混合架构的数据采集模式,以提高数据采集系统的吞吐量和并发量Zookeeper
2.基础平台层基础平台层为专家数据仓库提供大数据基础平台支撑,包括分布式存储系统、Hbase数据库系统、Yarn并行计算资源管理与监控等,同时支持Spark机器学习算法库,支持R等行业分析库
3.应用支撑层应用支撑层为系统各类应用提供支撑,是系统数据层和应用层的连接纽带应用支撑层包括基础平台和常规算法两个局部,基础平台负责数据的存储与并行计算,数据存储支持分布式存储、RDBMS存储等存储方式,常规算法负责数据分析与业务建模
4.应用及展示层应用层是系统各项业务功能的集合,主要包括资车辆故障诊断、车辆健康评估、车辆部件检修、车辆故障处理及车辆比照分析等展示层是用户同系统交互的窗口,是应用层对外提供效劳的主要手段支持多种图表展示如饼图、柱状图、曲线图、热力图、气泡图和散点图等可视化展示第章平台运维管理7集群监控
7.1Hadoop大数据平台以Web图形界面实现Hadoop集群监控,包括大数据平台的硬件资源、软件资源、数据资源的监控,以及整个Hadoop集群的工作负载主要包括以下几个方面效劳组件状态监控
7.
1.1通过管理平台可以看到所有目前已安装的效劳组件的健康状况,绿色圈表示运行状态健康O+HiveO XHueCluster1状态配置▼OozieSqoop1ClientSqoop2O溟YARN MR2Incl...O/ZooKeeper图效劳组件运行状况存储与内存资源监控
7.
1.2包括获取存储量、剩余存储量以及存储系统整体情况信息如果集群中的某台机器的磁盘或者内存的使用率到达指定的阀值,系统可以通过邮件或者短信的方式进行预警机状杰配置模板磁盘概述Parcel状态同驻臭添加胱主机HostInspector原新运行升级向导筛选器0♦•名称*群集IP角色上一检制信号平均负载磁比使用情况物理内存交换空间00had8p~Clustef
192.
168.
100.
151159.22sago
0.
060.
040.05_1171G€/18TiB81GB,312G旧0B/2G回v状态yam1dmensoftconvcn1Role⑶0bAdOOPr Clustef
192.
168.
100.
152104.58sago
0.
000.
000.00_1144G6/18TiB_4GiB/312G60B/2GBO运行状况良好yarn2dmensoftcomtn1Role⑶>CDH版本00had8p-Cluster
192.
168.
100.
15371.29sago
0.
010.
020.01_1069GB/1BTiB_32GB/312G旧0B/2GiB>群集yarn3amens3t.com.cn1Roles>内核00had8p-Cluster
192.
168.
100.
154413.45sago
0000.
030.01_1078GB/18TiB_21GB/312GIB0B/2GiB>已燧除授权yamp4dmen$oftcom.cn1Roles>上一枚濯信号0hadoop*CRjstec
192.
168.
100.1554311msago
0.
000.
020.00106GIB/18TIB_22GB/312GB0B/2GB>10ft(1分钟)yam5dmensoftcomcn1Roe⑸>加皴(5分钟)>加致(15分钟)>箔护模式>机架显不25,条目>服务图存储和内存资源监控第一个上一个1系统负载管理
7.2I通过管理平台可以实时看到整个平台的资源负载情况,包括集群的CPU、集群磁盘
10、集群网络群集CPU群集磁盘10100%
10、HDFS10,如下列图所示:0%m二••01:45|02PM■整个主机中的主机CPU使用率
1.8%总计整个磁盘…211K/S■总计整个磁盘中的…0通过对集群运行任务的实时监测,并根据群集网络IO HDFSIO01:45i02PMHDFS nameser...
2.8b/s■HDFS nameservi...1b/s HDFS,总总计整个网…
18.7K/S・总计整个网…
18.5K/S计整…不适用■HDFS,总计整…不适用任务优先级和耗时不同对任务进行动态调度,减少出现大量任务等待和重要任务无法及时完成的可能,可以使Hadoop集群的运行变得更加高效合理
1、系统根据各队列资源的最小值分配集群资源,这样可以按照需求对各任务队列获取的集群资源进行分配,而且不会出现集群资源的闲置浪费
2、可以实现对各任务队列获取的集群资源大小实时动态调整,及时保证高优先级任务所在队列获得更多的集群资源
3、可以实现在某个任务队列出现空闲时,将该任务队列获取的集群资源自动分配给其他繁忙的任务队列,以使得集群资源利用最大化操作系统管理
7.3磁盘性能监控731对集群机器的硬盘进行监控,如下列图所示,详细的展示出磁盘io的利用率,读写速度,磁盘的等待时间puooes/sgAq«30分钟在2015年6月25日.下午5点46CST之前“4口«磁盘概述遮惮明logicalPartition=false筛选器30分钟1小时2小时6小时12小时1天7d30d主机触踹模板粒述Parcel该页面对部署中所有咨会的状态进行了证述所显示姓完计数据与iostat中的统计数据相匹配或根据其中瞰计数据而创建这些统计数据在一系列直方图(寰认情况下涵盖系统中捋个物理咨盘)中显示调整时间线附束时间,查看不同时间点的统计数据在根中指定一个笫选器以限制显示的数据例如,要查看里位个机架“ack】的磁盘,则将询选器设用为:logicalPartition»falseandrackld«-rackl单击某个直方图可深入了解并识别M富值嘱Q利用率系统中所有显俄利用率的亘方图m盘的利用章是向没爸发触平爆则Kglastufilizalon出IO请求期间CPU时醐百分比这是iostat的util度重last{average_queue_length系统中所有碳黝平轴列长度亘方图凝iostat该直言显示整个系统中说盘利用率的分布并且6]以用于识的avgqu-s:度里较低数里费匕能高犍好别具有异常大期第1用星的用盘单击该该直万图显示壑个系统中平却入列长度的分0勖酝入曲了翩识瞩密值布并且可以用于识别且有异常大队列长度生淡盘单击该自方酹入退行了解并识别高群值Z0lasKservice_time系疑中所郃融嬲时瞄自方图运盘服务时眼系统巾斫有磁盘的等待时间自方囹泣盘的等磁盘用于就10所花的平愉间里这是iostat待时同是向要维护的段苗发出的10清求的平的svctn度里较很敦里要比较前酬该直方均时间这包括队列中的请末所花的时用膜护酶示整个系统中履钿目黝布并且可以用于朋这颜求所花的时目城制写入10计算的iostat具有异常颁刷目3或盘单击百方酹人)2行的await度里这是iostat的抑ait度里茂低了并说另廛数量要比较高致重等值-V该直方霞示整个系统中聊1间的分标且X可以用于识另惧有异常大等得时间敢源盘单a击该鲂图深入避行了第并识据群值雌等微H时间蹦等的人时间iaslawart_read_nme系统申所有轼盘演取等待时间的百万图磁盘las(t awaiLwnte_6me)系统中所有磁盘鹤入等制的百万图磁盘情的读取等待时间是向要维护的壮爸发出读肛人间是向要维解】播发痢用入10请求的平均10请求的平均时间这包巷队列中的清求所花时同这包若认列中的请求所花的6寸翻维阿翩维护这颜求所花的时同这是甘护这些清求所花敢时同这是图磁盘性能监控故障快速定位
7.
3.1大数据平台具备完整的告警监控和故障快速定位能力能够将计算框架的每个作业进度、状态、资源利用情况进行监控,并通过可视化图形界面进行展示当大数据平台出现异常情况时,平台能够通过监控系统,对效劳器节点宕机等集群异常、平安异常等异常事件进行预警、报警,并通过邮件、短信等报警手段进行告警通知提供预制的恢复规则和平安规则,对集群异常进行自动修复、自动限制非平安行为的操作大数据平台能够通过对告警信息的分析,快速定位平台内部出现故障的节点,对于因故障无法继续提供效劳器的节点进行标记,将平台的作业任务自动分配到其他的节点上运行,同时,大数据平台采用分布式体系结构及无单点故障设计,平台内任何节点的宕机都不会影响平台的稳定运行和业务的正常使用待故障节点恢复正常后,再将该节点纳入平台的资源中,将作业任务分配到恢复后的节点上运行运行日志监控
7.
3.2针对每个效劳组件运行的实时日志信息可以从平台中查看,便于在效劳组件运行中断时查找和追踪原因例如,我们想要查看HBase效劳组件中Mater角色的日志信息,如下列图所示:上详刷(二总11鱼,Xdnfciiofllj0ctttfftxsuo♦r.、.兄«嬴.Mf2t»~cWae7AV8cl»»5O3-Sn»0ft s109a]・♦20—Pin4日上♦“,,・8133,,XB上,©di*=Kin****》«,”,•rMM.dtaerktofV04M2«.MJ“I4«}S1^94111973ivo kh»1QQ^rv«wo^^»94rtfe«*9OvOliWd WrmM4«8KM»oa0-,»rvydU«.t0*t.«B-t4t3lX18Me20«TQ4TM««hMMtAMMMMMT8sM乩3上与9e,Xl・m150ra^edMhMwpkt»awmmearRa9cnSSM**611AX“,,r-MBJSV1M4JJAOX.«rt2dM0-,L*l.dL・r««^t.e».e,.上+961]1S9MRFOg«MCMK«Mvr«nUU»M NC*g,.A―■aCHMX.伊一-“M4XMSMA]to EU*HcMyr«bc«MW”r*»^Kryaf«1上*”neg,3»wr©廿1-X,9Mf▼r*taitu««0{”■i1■-rvM*»c3“*u*t««onirwsrt**UMaMimcw.—“xtMMnmw,-i—yryw»e”上、6,*1”7$,Oer9meiM R^onSum
8.WC14—XMOVr«AtltU^«491*C,1A.24MMta»14M4MNl,F9-XM4号»♦i»”,318We W0*9M*CZMMee4r^•^OASCMM*v^~«ecr•k«J-3^3J.f*,K*«Wj¥9UI9M i«ro F4pechahedoo^5・・mmtvrR»gcnf.e*gMMKiV®4ti9M5i**O f^VJVR«94n$«nM CnlimdSMMM^MC^aM44e«MU42«m6hMoop,»r4S.a!w«»n.M.s.H平台平安管理
7.4在Hadoop参加了Kerberos认证机制Kerberos可以将认证的密钥在集群部署时事先放到可靠的节点上集群运行时,集群内的节点使用密钥得到认证只有被认证过节点才能正常使用,防止恶意的使用或篡改Hadoop集群的问题,确保Hadoop集群的可靠平安数据质量管理
7.5数据标准化
7.
5.1数据标准化包括数据标准制定及数据标准化处理两个局部,数据标准制定是在专家系统业务统一标准前提下,指导专家系统大数据标准,包括数据格式标准、数据交换标准、数据共享标准等;数据标准标准化是指按照统一专家系统数据标准格式将专家信息数据进行标准化处理,生成符合专家系统数据标准要求的信息数据数据质量检测
7.
5.2根据数据质量监测规则,通过数据质量检测引擎,对数据表中的增量数据进行扫描,调用规则算法或扩展程序进行数据质量检测,并提供问题数据库的建立、数据质量报告的生成、问题数据的处理、以及对问题数据的通报和反应来保证数据的质量和实效性等功能数据聚集架构功能
1.
1.
1.1Flume提供了从console(控制台)、RPC(Thrift-RPC)text(文件)、tail(UNIX tail)syslog(syslog日志系统,支持TCP和UDP等2种模式),exec(命令执行)等数据源上收集数据的能力Flume的数据接受方,可以是console(控制台)、text(文件)、dfs(HDFS文件)、RPC(Thrift-RPC)和syslogTCP(TCP syslog日志系统)等在我们系统中由kafka来接收Kafka分布式消息队列,支撑系统性能横向扩展,通过增加broker来提高系统的性能Storm流处理技术,支撑Supervisor横向扩展以提高系统的扩展性和数据处理的实时性采集架构优势
1.2
(一)解耦在工程中要平衡数据的聚集与数据的处理性能平衡,是极其困难的消息队列在处理过程中间插入了一个隐含的、基于数据的接口层,两边的处理过程都要实现这一接口这允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束冗余・有些情况下,处理数据的过程会失败除非数据被持久化,否则将造成丧失消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式躲避了数据丧失风险在被许多消息队列所采用的“插入-获取-删除〃范式中,在把一个消息从队列中删除之前,需要你的处理过程明确的指出该消息已经被处理完毕,确保你的数据被平安的保存直到你使用完毕扩展性・因为消息队列解耦了你的处理过程,所以增大消息入队和处理的频率是很容易的;只要另外增加处理过程即可不需要改变代码、不需要调节参数扩展就像调大电力按钮一样简单灵活性峰值处理能力・在访问量剧增的情况下,应用仍然需要继续发挥作用,但是这样的突发流量并不常见;如果为以能处理这类峰值访问为标准来投入资源随时待命无疑是巨大的浪费使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负荷的请求而完全崩溃可恢复性・当体系的一局部组件失效,不会影响到整个系统消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,参加队列中的消息仍然可以在系统恢复后被处理而这种允许重试或者延后处理请求的能力通常是造就一个略感不便的用户和一个沮丧透顶的用户之间的区别数据关联
7.
5.3对采集的数据库根据数据间的业务关联关系实现数据的关联,通过数据的关联,增加实体数据的维度,将单个的数据扩展成行业信息资源,提高数据的价值送达保证・消息队列提供的冗余机制保证了消息能被实际的处理,只要一个进程读取了该队列即可在此基础上,IronMQ提供了一个〃只送达一次〃保证无论有多少进程在从队列中领取数据,每一个消息只能被处理一次这之所以成为可能,是因为获取一个消息只是〃预定〃了这个消息,暂时把它移出了队列除非客户端明确的表示已经处理完了这个消息,否则这个消息会被放回队列中去,在一段可配置的时间之后可再次被处理缓冲・在任何重要的系统中,都会有需要不同的处理时间的元素例如,加载一张图片比应用过滤器花费更少的时间消息队列通过一个缓冲层来帮助任务最高效率的执行一写入队列的处理会尽可能的快速,而不受从队列读的预备处理的约束该缓冲有助于控制和优化数据流经过系统的速度.异步通信很多时候,你不想也不需要立即处理消息消息队列提供了异步处理机制,允许你把一个消息放入队列,但并不立即处理它你想向队列中放入多少消息就放多少,然后在你乐意的时候再去处理它们内部各层数据提取与加载
1.
2.2数据聚集将数据储存于操作型数据存储层(ODS),在数据仓库各层次间数据转换提取加载,采用传统的ETL工具进行采集,数据仓库间的各层次的数据采集的实效性根据具体的数据需求而定,具体ETL建模界面如图数据加工与处理
1.3对于数据仓库平台,应该建立一套标准化、标准化的数据处理流程,例如如何采集内部和外部数据、结构化和非结构化数据;如何清洗采集来的脏数据和无效数据;如何对不同来源的数据进行打通;如何对非结构化的数据进行结构化加工;如何在结构化数据的基础上进行商业建模和数据挖掘等等大数据管理层在一条数据总线上构建了一条完整的大数据处理流水线这条流水线从数据的采集、清洗到加工处理,把原始杂乱无章的数据加工成结构化的数据组件,供上层的大数据应用来拼装调用,让企业拥有创造数据资产的能力存储设计
1.4数据量估算
1.
4.1按每列列车平均500毫秒通过车地通信采集监测数据100条,每天运营时间18小时,按每条记录160字节计算(监测数据的数据项相对简单),初步按照67列列车计算单列列车日监测数据=3600*2*160*100*18/1024/1024/1024心2G67列列车年数据量=2*67*365/102448T10年总数据量(乘上增长系数10%)530T(含操作系统)数据规划10年,加上系统用户信息、系统日志信息、专家信息、业务数据及其它不可预测类数据,数据总量预估530T数据存储
1.
4.2专家系统数据采用混合存储模式进行存储,RDBMS存储专家系统业务根本数据及最近1年的监测数据,10年内历史监测数据采用NoSQL HBase数据库进行存储,以方便查询,HBase基于Hdfs分布式文件系统搭建,具体存储模式如下列图结构化数据「结构化数据[非结构化数据统一资源调度高价值密度数据——低价值密度历昆数据存储最近一年监测数据非结构化数据系统配置数据专家基本信息数据故障评估业务数据等
1.RDBMS数据库,支持专家库的核心业务,存储列车最近1年的监测数据为保证专家系统平安、稳定运行,在数据库系统上支撑各种统计分析及传统的BI业务考虑到操作系统存储、缓存存储、数据库系统存储、日志存储等因素,RDBMS数据库效劳器预计每台60T存储,考虑数据平安及系统稳定因素RDBMS采用双机热备技术互备
2.大数据平台规划存储最近10年监测数据,日志文件备份及历史数据采用大数据Hadoop和HBase存储,大数据平台数据采用节点间冗余备份,预设数据2倍冗余存储,(考虑平台提供的压缩技术,压缩存储可以节省30-55%的空间)10年数据量=530T*p800T(2倍冗余存储)分层存储
1.
4.3专家数据分三个层次进行聚集与存储,分别为0DS层、数据仓库层、主题数据层,各层次数据存储内容如下ODS层数据来源于各生产系统,通过ETL工具对接口文件数据进行编码替换和数据清洗转换,不做关联操作未来也可用于准实时数据查询>数据仓库层数据深度聚集层,根据业务有选择的对ODS层的数据进行提取,通过对数据的加工处理,将单一的数据信息转换成体系信息,将点信息数据变成面信息数据>主题数据层将数据信息体系根据各主题进行提取与转换,主题域内部进行拆分、关联数据服务层数据集市层数据仓库层操作型数据层数据源层是对0DS操作型数据按照主题域划分规则进行的拆分及合并数据分析建模
1.5伴随着大数据时代的悄然来临,数据的价值得到人们的广泛认同,对数据的重视提到了前所未有的高度数据已经作为企业、事业单位的重要资产被广泛应用于盈利分析与预测、客户关系管理、合规性监管、运营风险管理等业务当中如何建立大数据分析模型,以提供决策依据是很多用户所迫切解决的问题专家数据仓库建立在Hadoop分布式系统之上,提供了多种丰富的算法模型,不同的应用通过借助不同的接口实现数据的多维呈现和结果展示,为用户提供科学的决策支持图10-7hadoop算法模型图大数据平台提供数据挖掘模型、分布式计算引擎、高性能机器学习算法库(包含分类、聚类、预测、推荐等机器学习算法)、即席查询功能,可以帮助决策者快速建立数据分析模型立方体,便于决SQLonHadoOP分布式系统Hadoop策者进行0LAP分析常用算法模型:>分类算法:分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中如政务网中将用户在一段时间内的网上办理所遇到的问题划分成不同的类,根据情况向用户推荐关联类的问题解决方案,从而方便用户快速解决网上办事审批中遇到的各类问题>回归算法回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系在回归算法中通常将数值结果转化为了0到1之间的概率,数值越大,函数越逼近1,数值越小,函数越逼近0,它可以应用到对数据序列的预测及相关关系的研究中去如我们根据这个概率可以做垃圾邮件预测,例如概率大于
0.5,则这封邮件就是垃圾邮件>聚类算法聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低分类算法中的一个显著特征就是训练数据中包含了标签,训练出的模型可以对其他未知数据预测标签在聚类的算法中,训练数据都是不含标签的,而算法的目的则是通过训练,推测出这些数据的标签以二维的数据来说,一个数据就包含两个特征,可通过聚类算法,给他们中不同的种类打上标签,通过聚类算法计算出种群中的距离,根据距离的远近将数据划分为多个族群>关联算法关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现关联规则的挖掘过程主要包括两个阶段第一阶段为从海量原始数据中找出所有的高频工程组;第二极端为从这些高频工程组产生关联规则>推荐算法推荐算法是目前业界非常火的一种算法,在电商界,如亚马逊,天猫,京东等得到了广泛的运用推荐算法的主要特征就是可以自动向用户推荐他们最感兴趣的东西,从而增加购置率,提升效o>神经网络模型神经网络模型,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题典型的神经网络模型主要分为三大类第一类是以用于分类预测和模式识别的前馈式神经网络模型;第二类是用于联想记忆和优化算法的反应式神经网络模型第三类是用于聚类的自组织映射方法>Adaboost算法其核心思想是针对同一个训练集,训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值将修改正权值的新数据集送给下层分类器进行训练,最后将每次训练得到的分类器最后融合起来,作为最后的决策分类器>深度学习深度学习算法是对人工神经网络的开展在计算能力变得日益廉价的今天,深度学习试图建立大得多也复杂得多的神经网络,用来处理存在少量未标识数据的大数据集数据资源管理
1.6专家系统数据具有数据量大、数据类别多、数据关联关系紧密等特点,随着数据的积累,数据资源的利用价值逐步表达,提高数据的管理,是对数据资源充分利用的前提条件数据资源管了包括如下几局部内容数据标准化管理、数据监测管理及元数据管理等。
个人认证
优秀文档
获得点赞 0