还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据基础知识培训课件第一章大数据概述与发展什么是大数据?广义定义狭义定义大数据是将物理世界的各种现象、活动和状态通过数字化技术进行映射和提炼的过程它不仅仅是数据量的增长,更是对现实世界的全方位数字化描述,是人类认知世界的全新方式大数据的特征5V理解大数据的核心特征是掌握大数据技术的基础,这五个维度构成了大数据区别于传统数据的本质属性Volume海量Velocity高速Variety多样数据规模从TB级增长到PB、EB甚至ZB级数据产生速度极快,要求实时或准实时处数据类型丰富多样,包括结构化、半结构化别,传统技术难以处理如此庞大的数据量理,从数据生成到分析的时间窗口越来越短和非结构化数据,如文本、图像、视频、音频等Veracity真实性Value价值数据质量参差不齐,需要进行数据清洗、验证和质量管理,确保分析结果的可靠性大数据的发展演进从概念萌芽到国家战略,大数据技术经历了几十年的发展历程,每个阶段都有其独特的技术特征和应用场景11980年代-概念萌芽大数据概念首次被提出,当时主要关注数据量的增长问题,技术手段相对有限,主要依靠大型机和关系型数据库22000年代-互联网
2.0时代用户原创内容(UGC)爆发式增长,社交媒体、博客、视频分享等应用产生海量非结构化数据,推动了分布式存储技术的发展32010年代-物联网与移动互联智能设备普及,物联网技术成熟,传感器数据、移动应用数据呈指数级增长,数字化转型成为企业共识42015年至今-国家战略大数据上升为国家战略,各国纷纷出台大数据发展规划,技术生态日趋完善,应用场景不断拓展数据爆炸的时代亿175ZB90%502025年全球数据量近两年产生的数据互联网用户数量预计到年,全球数据全球的数据是在过去全球互联网用户超过202590%50总量将达到175泽字节,相两年内产生的,数据创建亿,每个人每天都在创造当于1750亿TB,数据增长速度呈现指数级增长趋势大量数据,成为数据爆炸速度前所未有的重要推动力大数据产业链全景大数据产业形成了从数据生成到价值实现的完整生态链,每个环节都有专业的技术和工具支撑数据采集通过传感器、日志系统、社交媒体、移动应用等多种渠道获取原始数据数据存储利用分布式文件系统、NoSQL数据库、云存储等技术实现海量数据的可靠存储数据处理采用批处理、流处理、实时计算等方式对数据进行清洗、转换和加工分析挖掘运用统计分析、机器学习、深度学习等方法挖掘数据中的规律和价值可视化应用通过图表、仪表盘、报表等形式展现分析结果,支持业务决策第二章大数据核心技术与平台深入了解主流大数据技术框架,掌握分布式存储、批处理、流处理等核心技术原理和应用方法生态系统介绍Hadoop是大数据技术的基石,其生态系统包含了一系列解决不同问题的组件,构成了完整的大数据处理平台HadoopHDFS MapReduceYARN分布式文件系统,提供高吞吐量的数据访批处理计算框架,将大规模数据处理任务分资源管理与作业调度系统,负责集群资源的问,支持海量数据存储,具有高容错性和可解为Map和Reduce两个阶段,实现并行计统一管理和分配,支持多种计算框架扩展性算Hive HBase数据仓库工具,提供类查询语言,将转换为分布式列式数据库,支持海量数据的实时随机读写,适合稀疏SQL HiveQLSQL NoSQLMapReduce任务执行数据存储工作原理与操作HDFS核心工作机制典型应用场景采用主从架构,管理文件系统元数据,存储实际数据特别适合以下场景HDFS NameNodeDataNode HDFS块文件被切分成多个数据块(默认),每个块有多个副本(默认个)分布在128MB3海量日志文件存储•不同节点上,保证数据可靠性和高可用性大规模数据集的批处理•常用操作命令数据仓库底层存储•上传文件hdfs dfs-put本地路径HDFS路径•归档数据长期保存下载文件hdfs dfs-get HDFS路径本地路径•科学计算数据管理查看目录路径hdfs dfs-ls HDFS删除文件hdfs dfs-rm HDFS路径注意HDFS适合一次写入多次读取的场景,不适合频繁修改的小文件权限管理权限路径hdfs dfs-chmod HDFS编程模型MapReduce是一种编程模型,用于大规模数据集的并行运算它将复杂的并行计算过程抽象为和两个阶段,极大降低了分布式编程的MapReduce MapReduce难度010203Map阶段-数据映射Shuffle阶段-数据重组Reduce阶段-数据汇总将输入数据切分成独立的块,每个Map任务处理系统自动将Map输出按照key进行分组和排序,对每组数据执行聚合计算,如求和、计数、平均一个数据块,执行过滤、转换等操作,输出键值相同key的数据发送到同一个Reduce任务值等,输出最终结果对WordCount经典示例是的程序,用于统计文本中每个单词出现的次数WordCount MapReduceHello World读取文本,分割成单词,每个单词输出Map word,1接收相同单词的所有,累加值,输出Reduce word,1count word,total_count与简介Hive HBaseHive-SQL onHadoop HBase-NoSQL数据库Hive是构建在Hadoop之上的数据仓库工具,主要特点包括HBase是基于HDFS的列式存储数据库,核心特性包括•使用类SQL语言HiveQL进行查询•支持亿级行、百万级列的存储•适合结构化数据的批量处理•提供毫秒级随机读写能力•支持分区、分桶等优化技术•自动分片和负载均衡•可与BI工具无缝集成•强一致性保证•适合离线数据分析场景•适合实时查询和更新场景Hive查询会被转换为MapReduce作业,因此存在一定延迟,不适合实时HBase适合稀疏数据和时间序列数据,如用户行为日志、物联网传感器数查询据等计算引擎SparkApache Spark是新一代大数据计算引擎,以其高性能和易用性成为当前最热门的大数据处理框架之一基于内存计算Spark将中间数据缓存在内存中,避免频繁的磁盘I/O,使得迭代计算速度比MapReduce快10-100倍,特别适合机器学习、图计算等需要多次迭代的场景丰富的数据结构RDD(弹性分布式数据集)不可变的分布式对象集合,支持转换和动作操作DataFrame类似关系型数据库的表结构,支持SQL查询Dataset结合RDD和DataFrame优点的强类型API统一计算框架Spark Core提供基础计算能力,Spark SQL支持结构化数据查询,SparkStreaming实现实时流处理,MLlib提供机器学习库,GraphX支持图计算,一个平台满足多种需求流批一体化处理框架FlinkApache Flink是新一代流处理框架,以真正的流式计算架构和精确一次语义保证而著称,是实时大数据处理的首选方案真正的流处理Exactly-once语义Flink原生支持流处理,将批处理视为流通过检查点机制和两阶段提交协议,处理的特例数据一旦到达即可处理,无Flink保证每条数据恰好被处理一次,即需等待批次形成,实现真正的实时计算使在发生故障的情况下也能保证数据准确性低延迟高吞吐毫秒级延迟,每秒处理百万级事件,支持事件时间语义和乱序数据处理,适合对实时性要求极高的场景典型应用场景实时风控系统金融交易反欺诈检测实时数据仓库秒级数据更新查询在线推荐引擎实时用户行为分析实时报表生成业务指标实时统计实时监控告警系统日志异常检测流式ETL处理数据实时清洗转换消息队列系统KafkaApache Kafka是分布式流处理平台,以其高吞吐量、低延迟和可扩展性成为大数据架构中的关键组件核心特性主要应用场景高吞吐量日志收集统一收集分布式系统的日志数据,作为日志聚合系统的中心枢纽,实现日志的集中存储和分析单机可达百万级消息/秒的处理能力流数据传输在不同系统之间传输实时数据流,如连接数据源和Flink/Spark Streaming进行实时分析消息系统作为企业级消息中间件,实现系统解耦、异步处理和削峰填谷持久化存储指标监控收集和传输运维监控数据,支持实时告警和性能分析消息持久化到磁盘,支持数据回溯分布式架构支持集群部署,自动负载均衡和故障转移多订阅者模式同一消息可被多个消费者订阅第三章大数据应用场景与案例了解大数据在各行各业的实际应用,通过真实案例掌握大数据技术如何创造商业价值电商行业大数据应用电商是大数据应用最成熟的领域之一,从用户画像到推荐系统,大数据技术深度赋能电商业务的各个环节用户画像与精准营销通过收集用户浏览、搜索、购买、评价等行为数据,结合人口统计信息,构建360度用户画像基于画像进行用户分群,实施差异化营销策略,提高转化率和客户生命周期价值推荐系统实现原理采用协同过滤、内容推荐、深度学习等算法,分析用户兴趣和商品特征实时计算用户与商品的匹配度,生成个性化推荐列表,显著提升点击率和购买转化率实时数仓架构基于Flink+Kafka构建Lambda架构,离线层使用Hive进行T+1数据分析,实时层使用Flink计算实时指标,合并层提供统一查询接口,实现秒级数据更新和查询金融行业大数据实践金融行业对数据安全性和实时性要求极高,大数据技术在风险管理、反欺诈、信用评估等方面发挥着关键作用风险控制与反欺诈离线+实时架构实时监控交易行为,通过规则引擎和机离线数据仓库基于Hive/Spark处理历器学习模型识别异常交易建立用户风史数据,进行深度分析和模型训练实险评分体系,动态调整风控策略利用时监控系统基于Flink/Kafka处理流式图数据库分析关联关系,揭示欺诈团伙数据,毫秒级响应异常事件,实现离线网络批量分析与实时监控的完美结合信用评分模型案例某银行整合内部交易数据、外部征信数据、社交网络数据等多维数据源,采用XGBoost算法构建信用评分模型通过特征工程提取500+维度特征,模型AUC达
0.85,大幅提升贷款审批准确率医疗健康大数据医疗大数据通过整合病历、影像、基因等多源异构数据,推动精准医疗和智慧医疗的发展海量病历数据管理采用HBase存储海量电子病历,支持快速检索和更新使用Elasticsearch构建全文搜索引擎,实现秒级病历查询通过数据脱敏和加密技术保障患者隐私安全疾病预测与个性化治疗基于历史病历数据训练疾病预测模型,提前识别高风险患者分析患者基因数据和用药反应,制定个性化治疗方案利用影像识别技术辅助医生诊断,提高诊断准确率数据隐私与安全保障医疗数据涉及患者隐私,必须严格遵守法律法规•数据脱敏去除或加密个人身份信息•访问控制基于角色的权限管理•审计日志记录所有数据访问行为•数据加密传输和存储全程加密物联网与智能制造物联网产生的海量传感器数据,结合大数据分析技术,正在推动制造业向智能化、精益化方向发展01数据采集通过各类传感器实时采集设备运行数据,包括温度、压力、振动、电流等参数,通过工业网关汇聚到数据平台02实时监控使用Kafka接收流式数据,Flink进行实时计算,监控设备运行状态,异常情况立即告警,可视化展示生产全景03故障预测基于历史数据训练机器学习模型,预测设备故障时间和类型,提前安排维护计划,降低意外停机损失04优化决策分析生产数据找出瓶颈环节,优化生产参数和工艺流程,提高生产效率和产品质量,降低能耗成本新能源汽车数据分析案例某新能源汽车企业建立车联网大数据平台,实时采集数百万辆在线车辆的行驶数据、电池数据、充电数据等通过大数据分析优化电池管理策略,延长电池寿命15%;预测充电站使用高峰,优化充电站布局;分析驾驶行为数据,为保险定价提供依据第四章大数据实战与平台操作从理论到实践,掌握大数据平台的搭建、配置、开发和运维技能,培养动手解决实际问题的能力集群搭建与管理Hadoop搭建一个稳定可靠的Hadoop集群是开展大数据工作的基础,需要掌握从规划设计到安装部署的完整流程软件安装环境准备下载Hadoop安装包,解压到指定目录,配置环境变量编辑core-site.xml、hdfs-准备3台以上Linux服务器,配置SSH免密登录,安装JDK,配置主机名和hosts映射,关闭site.xml等配置文件,设置NameNode、DataNode等角色防火墙和SELinux性能调优集群启动根据业务特点调整JVM参数、数据块大小、副本数等配置监控集群资源使用情况,优化作业格式化NameNode,启动HDFS和YARN服务验证各节点进程是否正常,通过Web UI查调度策略看集群状态集群监控要点常见问题排查•磁盘使用率和I/O性能•DataNode掉线检查磁盘空间和网络•网络带宽和延迟•作业失败查看日志定位错误原因•CPU和内存使用情况•性能下降分析资源瓶颈优化配置•HDFS块健康状态•数据倾斜调整分区策略平衡负载•作业执行时间和失败率数据采集工具介绍数据采集是大数据处理的第一步,不同的数据源需要使用不同的采集工具,掌握这些工具是数据工程师的必备技能Sqoop-数据交换Flume-日志采集专门用于关系型数据库与Hadoop之间的数据传输分布式日志采集系统,支持多种数据源和目标采用支持MySQL、Oracle、PostgreSQL等主流数据Agent架构,包含Source、Channel、Sink三个组库,可以进行全量和增量数据导入导出,自动并行传件,支持数据过滤、路由和聚合,保证数据可靠传输提高效率输典型命令应用场景Web服务器日志、应用日志、系统日志等sqoop import--connectjdbc:mysql://host/db\--table user--target-dir/data/userKafka-流数据管道高性能消息队列,既可以作为数据采集的缓冲层,也可以作为数据传输的管道支持多生产者多消费者模式,保证消息顺序和持久化,是实时数据采集的首选方案核心概念Topic、Partition、Producer、Consumer、Consumer Group数据处理实战通过实际案例学习MapReduce、Spark和Flink的编程开发,理解不同框架的适用场景和开发模式MapReduce程序开发开发流程定义Mapper类实现map方法,定义Reducer类实现reduce方法,在Driver类中配置作业参数并提交案例日志分析统计每个IP的访问次数Mapper读取日志提取IP,输出IP,1;Reducer累加相同IP的计数,输出IP,count打包成jar文件提交到集群执行Spark批处理示例批处理使用Spark SQL读取Hive表数据,通过DataFrame API进行聚合计算,如用户购买金额统计、商品销量排行等,结果写回Hive或导出到MySQL流处理使用Spark Streaming消费Kafka数据,滑动窗口计算实时指标,如每分钟订单量、实时销售额等,结果写入Redis供前端展示Flink实时计算案例场景电商实时大屏,展示当前在线用户数、实时订单量、热卖商品等指标实现Flink消费Kafka中的用户行为日志和订单流,使用窗口函数统计各项指标,通过侧输出流处理延迟数据,最终将结果写入MySQL数据库,前端通过WebSocket实时获取更新数据仓库与分析工具数据仓库是企业数据分析的基础设施,配合强大的分析和可视化工具,能够为业务决策提供有力支撑Hive数据建模Superset可视化遵循维度建模方法论,构建ODS(操作数开源的数据探索与可视化平台,支持多种据层)、DWD(明细数据层)、DWS数据源连接拖拽式操作创建各类图表,(汇总数据层)、ADS(应用数据层)分包括折线图、柱状图、饼图、地图等组层架构合理设计分区策略,如按日期分合多个图表构建交互式Dashboard,支持区;使用分桶技术优化join操作;建立合过滤器和下钻分析,满足不同角色的数据适的索引加速查询查看需求查询优化谓词下推、列裁剪、小表join大表使用MapJoin、合理使用分区剪裁Kylin超高速OLAP基于预计算技术的分析引擎,将Hive中的多维数据构建成Cube,查询时直接读取预计算结果,实现亿级数据秒级响应适合固定维度组合的复杂查询场景,如多维报表、用户行为分析等核心概念维度、度量、Cube、Cuboid、增量构建大数据安全与治理数据安全和治理是大数据平台建设的重要组成部分,关系到企业数据资产的安全性和可用性访问控制与权限管理建立细粒度的权限管理体系,包括身份认证集成企业LDAP/AD,统一身份管理授权机制基于角色RBAC和属性ABAC的权限控制数据脱敏敏感字段加密或脱敏处理审计日志记录所有数据访问和操作数据血缘与质量监控数据血缘追踪数据从源头到应用的完整链路,包括数据来源、转换逻辑、依赖关系等数据质量监控包括完整性、准确性、一致性、及时性检查,发现问题及时告警华为云DGC数据治理华为云DataArts Studio(原DGC)提供一站式数据治理能力数据目录自动发现和登记数据资产数据标准定义统一的数据标准和规范数据质量配置质量规则自动检测数据血缘可视化展示数据流转关系数据安全敏感数据识别和保护数据治理是一个持续的过程,需要建立制度、流程和工具三位一体的治理体系,确保数据质量和安全云上大数据服务实践云计算与大数据的结合为企业提供了更灵活、更经济的大数据解决方案,降低了大数据技术的使用门槛华为云MRS服务架构云端部署与弹性扩展大数据搬迁方案MRS(MapReduce Service)是华为云提供根据业务需求选择合适的集群规格和节点数量,从自建机房迁移到云端的完整方案评估现有集的企业级大数据集群云服务完全兼容开源几分钟内完成集群创建支持节点弹性伸缩,高群规模和业务特点,制定迁移计划;使用CDMHadoop生态,预集成Hadoop、Spark、峰期自动扩容,低谷期自动缩容,按需付费降低数据迁移服务批量迁移数据;采用双写或者增量HBase、Hive、Flink等组件,开箱即用提成本支持数据和计算分离,存储使用OBS对象同步方式平滑切换;提供迁移工具和技术支持,供集群监控、告警、日志分析等运维工具存储,计算资源独立扩展确保业务连续性大数据技术生态全景大数据技术生态系统包含数据采集、存储、计算、分析、可视化等多个层次,各类开源和商业工具相互补充,构成完整的技术栈数据采集层数据存储层、、、等、、、等Flume KafkaSqoop CanalHDFS HBaseKudu OBS管理调度层计算处理层、、等、、、等Oozie AzkabanDolphinScheduler MapReduceSpark FlinkPresto可视化层数据分析层、、等、、、等Superset TableauDataV HiveImpala KylinClickHouse多技术融合,驱动智能未来-未来的大数据平台将更加智能化、自动化,与AI、区块链等新技术深度融合,创造更大的商业价值课程总结与学习路径建议掌握大数据技术需要持续学习和实践,以下是给学员的学习建议和职业发展路径规划加强实践训练夯实理论基础搭建本地或云上测试环境,动手实践各种大数据组件参与开源项目,阅读优秀代码基深入理解分布式系统原理、数据结构与算法、计算机网络等基础知识掌握Linux操作系于真实数据集完成端到端的大数据项目,积累实战经验统和Shell脚本编程学习至少一门编程语言,推荐Java或Python持续学习进阶关注行业应用关注大数据技术发展趋势,学习新框架和新工具深入某个专业方向,如实时计算、数据了解不同行业的大数据应用场景和业务痛点学习领域知识,如金融风控、电商推荐、工治理、机器学习平台等考取相关技术认证,如华为云HCCDA、HCCDP认证业物联网等培养从业务问题到技术方案的转化能力推荐学习资源职业发展路径•官方文档各组件的官方文档是最权威的学习资料初级数据开发工程师,掌握ETL开发和数据处理•在线课程Coursera、Udacity等平台的大数据课程中级大数据工程师,设计和优化大数据架构•技术博客InfoQ、美团技术团队、阿里云开发者社区等高级数据架构师,规划企业级数据平台•开源社区参与Apache项目,与社区开发者交流专家技术专家或数据科学家,引领技术创新谢谢!欢迎提问与交流感谢大家的聆听!希望通过本次培训,大家对大数据技术有了全面的认识和理解大数据之路任重道远,让我们一起在数据的海洋中探索前行,用技术创造价值!联系方式持续学习如有任何问题或需要进一步交流,欢迎随时联系大数据技术日新月异,保持学习热情,不断提升自我。
个人认证
优秀文档
获得点赞 0