还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据基础培训课件第一章大数据概述与发展背景大数据已成为当今数字经济的核心驱动力本章将探讨大数据的基本概念,发展历程及其在现代社会中的重要意义,帮助您建立对大数据生态系统的全面认识了解基础概念把握发展脉络掌握大数据的定义、特征及基本原理了解大数据从概念提出到国家战略的演进历程认识技术价值什么是大数据?大数据本质上是数据规模与复杂性的跨越式增长,已远超传统数据处理技术的处理能力广义定义物理世界到数字世界的数据映射与提炼,是数字化转型的基础资源和关键支撑大数据不仅仅是数据本身,更是对世界的全新认知方式狭义定义通过获取、存储、分析大容量数据挖掘价值的技术架构,包含分布式存储、并行计算、流处理等新型计算模型与工具大数据时代,数据已成为与物质资源和人力资源同等重要的生产要素大数据的五大特征()5V数据量()数据速度()数据种类()Volume VelocityVarietyPB、EB级的海量数据规模,远超传统数据库高速数据生成与处理,要求毫秒级响应微博包括结构化(数据库表)、半结构化(XML、处理能力中国移动日均产生5PB数据,相当每秒生成数万条信息,需要实时处理与分析JSON)和非结构化(图像、音频、视频、社交于500万部高清电影媒体内容)数据数据价值()数据真实性()Value Veracity通过高级分析技术挖掘潜在商业价值数据密度低,但总体价值高,如用户行为数据驱动的精准营销大数据发展演进概念萌芽期()11980s大数据概念最早于1980年代提出,当时主要关注科学计算领域的大规模数据处理问题2技术发展期()2000-2010互联网
2.0时代用户生成内容激增,Google发表MapReduce和GFS论文,Hadoop开源项目启动,奠定大数据技术基础产业形成期()32010-2015物联网感知层数据自动产生,Spark、Storm等新一代计算框架涌现,大数据应用从互联网企业向传统行业扩展4战略发展期()2015-20202015年大数据正式上升为中国国家战略,《促进大数据发展行动纲要》发布,政府数据开放共享加速推进融合创新期(至今)52020互联网数据规模震撼真相每分钟产生的数据量年全球数据统计2023用户观看694,444小时的YouTube视频全球数据总量达到120ZB(泽字节)发送
2.3亿封电子邮件互联网用户超过53亿人进行510万次搜索查询全球每天产生的数据量约为
2.5千兆字节创建50万条微博内容到2025年,预计物联网设备将产生
79.4ZB数据第二章大数据产业链全景大数据已形成完整的产业生态链,从数据生产到价值变现构成了一个闭环系统本章将为您呈现大数据产业的全景视图,帮助理解各环节的关键角色与价值贡献产业链结构关键环节了解大数据从产生到应用的完整链条掌握硬件基础设施、技术平台与应用层面的核心组成市场规模大数据产业链结构数据生产与采集数据从哪里来?•物联网传感器温度、湿度、位置等实时感知数据•系统日志服务器、应用程序运行记录•用户行为网页点击、购买、社交媒体互动•公共数据政府开放数据、金融市场数据数据存储与管理如何安全高效地存储?•分布式文件系统HDFS、GFS•分布式数据库HBase、Cassandra•云存储服务阿里云OSS、腾讯云COS•数据湖/数据仓库支持结构化与非结构化数据混合存储数据处理与分析如何提取有价值的信息?•批处理MapReduce、Spark批处理•流处理Flink、Spark Streaming•机器学习与深度学习TensorFlow、PyTorch•图计算GraphX、Giraph数据应用与可视化如何创造业务价值?•商业智能报表、仪表盘•决策支持系统预测模型、推荐系统•数据可视化工具ECharts、Tableau产业链关键环节详解硬件基础设施技术平台•服务器集群x86架构为主,ARM架构•Hadoop生态HDFS、YARN、兴起HBase•存储设备全闪存、混合存储阵列•新一代计算引擎Spark、Flink•网络设备高速交换机、智能路由•数据治理工具Atlas、Datahub•主要厂商浪潮、华为、戴尔、联想•主要厂商阿里云、腾讯云、华为云应用层解决方案•金融风控反欺诈、信用评分•智慧城市交通优化、环境监测•医疗健康疾病预测、药物研发•主要厂商数梦工场、星环科技、易鲸捷大数据市场规模与趋势第三章大数据关键技术详解大数据技术体系庞大复杂,本章将聚焦最基础、最关键的几项核心技术,帮助您建立对大数据技术栈的系统理解,为后续实践打下基础本章要点掌握这些核心技术,将帮助您理解•分布式存储系统原理与应用大数据平台的工作原理,为后续应用开发和系统优化奠定基础每项•大数据计算框架的演进与特点技术都有其特定的应用场景和优化•资源管理与调度机制方向•数据采集与迁移工具链分布式存储系统Hadoop HDFSHBaseHDFS是一个高可靠、高吞吐量的分布式文件系统,专为处理大规模数据集设计HBase是一个分布式、面向列的NoSQL数据库,基于HDFS构建架构特点主从架构(NameNode和DataNode)架构特点主从架构(HMaster和RegionServer)数据块默认128MB,远大于传统文件系统数据模型稀疏、分布式、多维排序映射表复制策略默认3副本,保证数据可靠性行键设计决定数据分布与查询性能适用场景大文件存储、批处理分析适用场景海量结构化和半结构化数据的随机读写局限性不适合小文件和低延迟访问实际应用用户画像、实时查询系统大数据计算框架MapReduce•经典批处理计算模型•编程模型Map和Reduce两阶段•优势高容错、适合海量数据•局限磁盘IO密集,迭代计算低效•应用日志分析、ETL处理Spark•基于内存的统一计算框架•核心抽象RDD、DataFrame、Dataset•优势内存计算,速度快10-100倍•生态SQL、MLlib、GraphX、Streaming•应用机器学习、交互式查询Flink•原生流处理框架•事件时间语义,精确一次处理•优势低延迟、高吞吐,状态管理•生态DataStream API、Table API•应用实时监控、实时推荐计算框架的演进反映了从批处理到流处理、从磁盘计算到内存计算的技术进步现代大数据架构通常采用Lambda架构或Kappa架构,结合多种计算框架的优势资源管理与调度统一资源管理器YARNYARN YetAnother ResourceNegotiator是Hadoop
2.0引入的集群资源管理系统,将资源管理和作业调度分离核心组件ResourceManager全局资源管理器,负责整个集群的资源分配NodeManager节点资源管理器,负责单个节点的资源管理ApplicationMaster应用程序协调器,负责管理应用的执行Container资源容器,封装CPU、内存等计算资源优势特点•支持多种计算框架(MapReduce、Spark、Flink)共存•提高集群资源利用率•多租户支持与资源隔离其他资源管理系统•灵活的调度策略容量调度器、公平调度器除YARN外,Mesos和Kubernetes也是大数据领域常用的资源管理系统Kubernetes在容器化大数据应用中越来越受欢迎数据采集与迁移工具实时日志采集数据库数据交换Flume SqoopApacheFlume是一个分布式、可靠、高Apache Sqoop专为在关系型数据库与可用的日志收集系统Hadoop间高效传输数据而设计核心概念Source、Channel、Sink核心功能导入导出,增量导入工作原理Push模式,数据源主动推送工作原理基于MapReduce并行处理优势高效并行传输,可压缩优势可扩展,支持故障恢复适用场景数据仓库ETL流程适用场景服务器日志、IoT数据流现状新版Sqoop2支持有限,部分被现状在实时流处理场景中逐渐被Kafka替Spark替代代现代数据采集架构中,Kafka作为中心消息总线,结合各种数据源连接器(如Debezium)正成为主流方案,提供更好的扩展性和实时性能第四章大数据软件安装与环境搭建理论知识需要通过实践巩固本章将引导您动手搭建大数据处理环境,从Linux基础到分布式集群部署,循序渐进建立实验平台1基础与环境准备Linux掌握Linux基础命令和环境配置,为大数据软件安装做准备2集群搭建Hadoop从伪分布式到完全分布式,逐步构建Hadoop核心组件3计算引擎部署在Hadoop基础上安装Spark和Flink,扩展计算能力通过亲身实践,您将深入理解各组件之间的协作关系,为后续开发应用打下坚实基础系统基础与安装Linux服务器安装步骤常用命令与环境配置Ubuntu Linux
1.下载Ubuntu Server
20.04LTS镜像#文件操作ls-la#列出所有文件详细信息mkdir-p#创建多级目录chmod755#修改文件权限#用户管理useradd hadoop#添加hadoop用户passwd
2.创建启动U盘或配置虚拟机hadoop#设置用户密码#网络配置ifconfig#查看网络接口信息ping#测试网络连通性netstat-tunlp#查看开放端口#环境变量vim~/.bashrc#编辑
3.设置语言、键盘布局和网络环境配置文件source~/.bashrc#使配置生效
4.配置磁盘分区(建议/boot、swap、/)
5.创建用户并安装SSH服务器
6.完成安装并登录系统大数据环境推荐Ubuntu或CentOS,这两种发行版在企业环境中应用广泛,文档和社区支持完善集群搭建Hadoop1单节点伪分布式安装伪分布式模式是在单机上模拟集群环境,适合初学者学习和测试环境准备安装JDK
1.8,配置SSH免密登录下载解压获取Hadoop
3.
3.x版本,解压到指定目录配置文件修改core-site.xml,hdfs-site.xml,mapred-site.xml,yarn-site.xml格式化执行hdfs namenode-format命令启动服务使用start-dfs.sh和start-yarn.sh脚本验证通过jps命令和Web界面检查进程2多节点分布式集群配置要点真实分布式环境需要多台服务器,角色分工明确,配置更复杂集群规划确定NameNode、DataNode、ResourceManager等角色分配网络配置修改hosts文件,确保各节点互通分发配置使用scp或rsync将配置分发到各节点高可用配置配置HDFS HA、YARN HA,避免单点故障集群平衡使用hdfs balancer命令平衡集群数据监控告警配置监控系统,如Prometheus+Grafana与环境部署Spark Flink安装与配置安装及基础使用Spark
3.x Flink
1.16下载解压获取预编译版本或自行编译下载解压获取适合Hadoop版本的二进制包环境设置配置SPARK_HOME和PATH变量环境设置配置FLINK_HOME和PATH变量配置文件修改spark-env.sh、spark-defaults.conf配置文件修改flink-conf.yaml、masters、workers依赖Hadoop指定HADOOP_CONF_DIR环境变量集成YARN配置HADOOP_CLASSPATH环境变量启动服务使用start-master.sh和start-worker.sh启动服务使用start-cluster.sh脚本验证访问Web UI(默认8080端口)验证访问Web UI(默认8081端口)执行测试运行spark-shell或pyspark交互式环境执行测试提交示例作业测试#Spark简单测试代码scala valdata=1to10000scala valdistData=#Flink示例作业提交./bin/flink runexamples/streaming/WordCount.jarsc.parallelizedatascala distData.filter_%2==
0.count第五章大数据基础编程实践掌握理论和环境后,本章将带您进入实际编程环节,通过具体案例学习大数据处理的核心编程范式,从文件操作到分布式计算,逐步提升实战能力编程HDFS学习HDFS的基本操作和Java API编程MapReduce掌握MapReduce并行计算模型编程Spark使用RDD和DataFrame处理数据编程Flink构建实时流处理应用文件操作与编程HDFS命令行操作基础示例HDFS JavaAPI#创建目录hdfs dfs-mkdir-p/user/hadoop/input#上传文件hdfs dfs-put localfile.txt/user/hadoop/input/#下载文件hdfs dfs-get//读取HDFS文件示例Configuration conf=new Configuration;FileSystem fs=FileSystem.getURI.create hdfs://localhost:9000,/user/hadoop/output/file.txt./#查看文件内容hdfs dfs-cat/user/hadoop/input/file.txt#查看目录内容hdfs dfs-ls/user/hadoop/#设置权限conf;Path path=new Path/user/input/file.txt;FSDataInputStream in=fs.openpath;BufferedReader reader=new BufferedReaderhdfs dfs-chmod755/user/hadoop/input#查看文件状态hdfs dfs-stat/user/hadoop/input/file.txt#删除文件或目录hdfsdfs-rm-r newInputStreamReaderin;String line;while line=reader.readLine!=null{/user/hadoop/temp/System.out.printlnline;}reader.close;in.close;fs.close;//写入HDFS文件示例FSDataOutputStream out=fs.create newPath/user/output/result.txt;out.writeBytesHello,HDFS!\n;out.close;编程入门MapReduce经典案例解析WordCountWordCount是大数据的Hello World,完美展示了MapReduce的基本工作原理阶段阶段Map Reducepublic class WordMapperextends Mapper{publicclassSumReducer extendsReducer{private finalstatic IntWritableone=new privateIntWritable result=new IntWritable;IntWritable1;private Textword=new Text;@Override publicvoid reduceTextkey,Iterable@Override publicvoid mapLongWritablekey,Text values,Context contextthrows IOException,value,Context contextInterruptedException{int sum=0;forthrows IOException,InterruptedException{IntWritable val:values{sum+=val.get;}String line=value.toString;result.setsum;context.writekey,result;}}StringTokenizer tokenizer=newStringTokenizerline;whiletokenizer.hasMoreTokens{word.settokenizer.nextToken;context.writeword,one;}}}基础编程Spark编程模型与操作RDD DataFrameSQLRDD弹性分布式数据集是Spark的核心抽象,提供了内存计算能力DataFrame API提供了更高级的抽象,支持SQL操作,性能更优//Scala示例词频统计val textFile=sc.textFilehdfs://input.txtval counts=textFile.flatMapline=line.split//创建DataFrameval df=spark.read.jsonhdfs://people.jsondf.showdf.printSchema//基本查询df.selectname.showdf.filter$age.mapword=word,
1.reduceByKey_+_counts.saveAsTextFilehdfs://output//更复杂的数据转换val lines=
21.showdf.groupByage.count.show//SQL查询df.createOrReplaceTempViewpeopleval sqlDF=spark.sql SELECTname,age FROMpeoplesc.textFilehdfs://logs.txtval errors=lines.filter_.containsERRORval messages=WHERE age30ORDER BYagesqlDF.show//保存结果sqlDF.write.parquethdfs://output.parqueterrors.map_.split\t2messages.cache//缓存数据val keywords=messages.filter_.containsmemorykeywords.count流处理编程Flink流数据模型介绍简单流处理任务示例Flink将一切视为无界数据流,提供事件时间语义和精确一次处理保证//Java示例实时词频统计StreamExecutionEnvironment env=数据源(Source)Kafka、文件、自定义源StreamExecutionEnvironment.getExecutionEnvironment;//转换(Transformation)map、filter、window等操作设置事件时间语义env.setStreamTimeCharacteristicTimeCharacteristic.EventTime;//从Kafka读取数据数据汇(Sink)输出到外部系统DataStream text=env.addSourcenew时间语义事件时间、处理时间、摄入时间FlinkKafkaConsumer...;//词频统计(5秒滚动窗口)窗口计算滚动窗口、滑动窗口、会话窗口DataStream windowCounts=text.flatMaps,out-{状态管理支持有状态计算,保障故障恢复for Stringword:s.split\\s{out.collectnewWordWithCountword,1L;}}.keyByvalue-value.word.windowTumblingEventTimeWindows.ofTime.seconds
5.sumcount;//输出结果到控制台windowCounts.print;//执行任务env.executeStreamingWord Count;第六章大数据典型应用案例理论与技术的最终目的是解决实际问题本章将探讨大数据在各行业的实际应用案例,展示如何将所学技术转化为解决方案,创造商业价值电商用户行为分析金融风控大数据应用从用户点击流到个性化推荐从风险识别到欺诈预防智慧城市与物联网从实时监测到智能决策通过这些案例,您将了解如何将抽象的技术概念转化为实际的业务解决方案,真正发挥大数据的价值电商用户行为分析数据存储与处理层数据采集层•日志实时采集Flume/Kafka•网站埋点页面访问、点击、停留时间•流处理Flink实时统计•APP埋点启动、浏览、分享、收藏•批处理Spark离线分析•交易数据购买、支付、退款记录•数据仓库Hive/Presto•社交数据评论、分享、点赞业务应用层数据分析层•个性化推荐协同过滤/内容推荐•用户分群RFM模型分析•精准营销定向优惠/触发营销•行为路径漏斗分析•库存优化预测备货/调拨•商品关联关联规则挖掘•产品优化A/B测试/用户反馈•转化预测机器学习模型实时推荐系统架构示意典型企业案例阿里巴巴猜你喜欢推荐系统每天处理数百亿次点击事件,实时计算用户兴趣,将转化率提升超过20%金融风控大数据应用关联规则挖掘与欺诈检测聚类分析在风险分层中的应用金融机构利用大数据技术构建全方位风险防控体系,实现毫秒级欺诈识别技术实现流程多源数据整合交易记录、社交行为、设备信息、位置数据特征工程构建上千维特征向量,捕捉异常行为模式实时计算Flink实时流处理,对每笔交易进行评分规则引擎基于专家经验和机器学习的复合规则体系决策反馈自适应学习系统,根据反馈优化模型某互联网金融平台通过大数据风控系统,将欺诈损失率从
0.8%降至
0.1%以下,每年为企业节省上亿元损失通过聚类算法对客户进行风险分层,针对不同风险等级采取差异化策略应用价值•实现风险的精准量化与分级•优化授信额度与利率定价•提高审批效率,改善用户体验•降低不良率,提升资金效率智慧城市与物联网传感器数据实时处理交通流量预测与优化智慧城市通过遍布城市的物联网传感器网络结合多源数据,构建城市交通大脑,实现交,采集并分析实时数据流,实现城市管理智通流量预测与信号灯智能调控能化系统组成典型应用场景数据源视频监控、GPS轨迹、电子收费系环境监测空气质量、噪声、水质实时监控统分析模型时空数据挖掘、图计算、深度学能源管理智能电网负载均衡、用电高峰预习测优化策略自适应信号灯控制、动态道路资公共安全视频分析、异常行为识别源分配垃圾处理智能垃圾桶填满度检测、清运路展示平台交通态势可视化、拥堵预警线优化杭州城市大脑项目通过AI+大数据技术,使主城区通行时间平均缩短
15.3%,救护车到达医院时间缩短一半第七章大数据未来趋势与挑战随着技术的不断演进,大数据领域正在经历深刻变革本章将探讨大数据的未来发展方向、面临的机遇与挑战,帮助您把握行业脉搏大数据领域正在从技术导向转向业务价值导向,从单一技术平台转向融合多种先进技术的综合解决方案了解这些趋势,对个人职业发展和企业战略规划都具有重要指导意义云原生大数据基于容器和微服务架构的弹性数据平台融合AI大数据与人工智能深度结合,互相赋能数据隐私隐私计算技术应对日益严格的数据合规要求大数据的未来展望云原生大数据平台兴起数据隐私保护与合规挑战传统大数据架构正向云原生架构转型数据安全与隐私保护成为行业焦点•容器化部署Kubernetes编排,资源•隐私计算联邦学习、多方安全计算灵活调度•数据脱敏差分隐私、匿名化技术•Serverless计算按需使用,降低使用•数据主权跨境数据流动监管加强门槛•合规建设GDPR、《个人信息保护法•存算分离数据与计算资源独立扩展》等•湖仓一体结合数据湖灵活性和数据仓结语拥抱数据驱动的智库的性能能时代与大数据深度融合AI大数据已成为数字经济时代的关键生产要素大数据和AI相互赋能,形成良性循环掌握大数据技术,不仅是技术人员的必修课,也是各行各业拥抱数字化转型的基础能•大模型训练依赖海量数据支撑力希望本次培训能为您开启大数据技术之•AI技术提升数据处理智能化水平门,助力您在数据驱动的智能时代把握先机•数据处理全流程自动化与智能化、创造价值!•人机协同的数据分析与决策支持。
个人认证
优秀文档
获得点赞 0