还剩4页未读,继续阅读
文本内容:
《大数据分析与实成(第Spark版)》2教学设计课程名称授课年级授课学期教师姓名计划课课题名称第7章Spark Streaming实时计算框架6课时时数据的业务价值随着时间的流逝会迅速降低,因此在数据发生后必须尽快对其进行计算和处理,而传统的大数据处理模式对于数据加工均遵循传统日清日毕模式,即以小时甚至以天为计算周期对当前数据进行累计并处理,显然这类处理模式教学引入无法满足对数据实时计算的需求,此时新的大数据处理模式---------------------------实时计算便应运而生Spark中的Spark Streaming就是为了满足实时计算需求而设计的框架本早以头时计算为基础逐步讲解Spark Streaming的相关知识•使学生了解什么是实时计算,能够说出实时计算的特征以及应用场景•使学生了解Spark Streaming简介,能够说出Spark Streaming优点和缺点•使学生熟悉Spark Streaming的工作原理,能够叙述Spark Streaming如何处理数据流•使学生熟悉Spark Streaming的DStream和编程模型,能够叙述DStream教学目标的结构和编程模型的构成•使学生掌握Spark Streaming的API操作,能够通过Scala API实现输入操作、转换操作、输出操作和窗口操作•使学生掌握Spark Streaming整合Kafka,能够使用使用Direct方式接收Kafka输入的数据流•输入操作•转换操作•输出操作教学重点•窗口操作•案例一一电商网站实时热门品类统计•Spark Streaming整合Kafka•转换操作教学难点•窗口操作•Spark Streaming整合Ka珠a教学方式课堂教学以PPT讲授为主,并结合实际操作进行教学第
一、二课时(实时计算概述、Spark Streaming简介、Spark Streaming工作原理、SparkStreaming的DStream、Spark Streaming的编程模型、输入操作、转换操作、输出操作)
一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固讲教学过解程
二、通过直接导入的方式导入新课实时计算是一种数据处理方式,它能够在数据产生后立即对其进行处理和分析,从而能够及时地获得有用的决策支持Spark Streaming作为一个实时计算框架,能够为开发人员提供快速、高效的实时数据处理能力在本节课中,我们将学习Spark Streaming的基础知识
三、新课讲解知识点1-实时计算概述教师通过PPT的方式讲解实时计算概述1介绍实时计算的特征
①实时处理无界的数据流
②高效的计算
③实时的数据集成2介绍实时计算的应用场景
①实时智能推荐
②实时欺诈检测
③实时交通管理知识点2-Spark Streaming简介教师通过PPT的方式讲解Spark Streaming简介1Spark Streaming的优点
①准实时性
②容错性
③易用性
④易整合性2Spark Streaming的缺点知识点3-Spark Streaming工作原理教师通过PPT的方式讲解Spark Streaming工作原理1介绍Spark Streaming支持的输入和输出数据源2介绍Spark Streaming内部的工作原理知识点4-Spark Streaming的Dstrean教师通过PPT的方式讲解Spark Streaming的DStream01介绍DStream的概念2讲解DStream的内部结构知识点5-Spark Streaming的编程模型教师通过PPT的方式讲解Spark Streaming的编程模型1介绍Spark Streaming的编程模型2介绍DStream的转换过程知识点6-输入操作教师通过PPT结合实际操作的方式讲解输入操作1Socket1介绍从Socket实时接收输入的数据流生成DStream的语法格式2演示在Spark Streaming程序中从TCP Socket实时接收输入的数据流并生成DStream2文件系统
①介绍从文件系统实时接收输入的数据流生成DStream的语法格式3演示在Spark Streaming程序中从HDFS实时接收输入的数据流并生成DStream知识点7-转换操作教师通过PPT结合实际操作的方式讲解转换操作1介绍Spark StreamingAPI提供的与转换操作相关的算子,包括map、flatMapfilter、repartiton unioncountreduce countByValuereduceByKey joincogroup、transform updateStateByKey2演示使用mapfl atMapfilterunion、count、reduce、countByValue、reduceByKey jointransform和updateStateByKey算子处理DStream知识点8-输出操作教师通过PPT结合实际操作的方式讲解输出操作1介绍Spark StreamingAPI提供的与输出操作相关的算子,包括print、saveAsTextFiles、saveAsObjectFiles、saveAsHadoopFiles和foreachRDD2演示使用saveAsTextFiles和foreachRDD算子将DStream中的数据输出到文件和MySQL
四、归纳总结教师回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导
五、布置作业教师通过高校教辅平台.ityxb.com布置本节课作业以及下节课的预习作业第
三、四课时窗口操作、案例------电商网站实时热门品类统计、Spark Streaming整合Kafka
一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固讲解
二、通过直接导入的方式导入新课在上一节课中,我们学习了Spark Streaming的输入操作、转换操作和输出操作本节课,我们进一步学习Spark Streaming的窗口操作,并通过案例对SparkStreaming进行综合运用,此外,我们还将学习如何整合Kafka,以便更好地应用Spark Streaming进行实时数据处理
三、新课讲解知识点1-窗口操作教师通过PPT结合实际操作的方式讲解窗口操作1介绍窗口操作的概念2介绍Spark StreamingAPI提供的与窗口操作相关的算子,包括window、countByWindow、reduceByWindow、reduceByKeyAndWindow和countByValueAndWindow3演示使用window和reduceByKeyAndWindow算子实现窗口操作知识点2-案例一一电商网站实时热门品类统计教师通过PPT结合实际操作的方式讲解案例一一电商网站实时热门品类统计1创建数据表2实现Spark Streaming程序3测试Spark Streaming程序知识点3-Spark Streaming整合Kafka教师通过PPT结合实际操作的方式讲解Spark Streaming整合Kafkao1介绍Direct方式从Kafka接收输入数据流的执行流程2介绍使用Direct方式实时接收Kafka输入的数据流并创建DStream的语法格式3演示使用Direct方式实时接收Kafka输入的数据流并创建DStream
①导入依赖
②实现Spark Streaming程序
③启动ZooKeeper4启动Kafka
⑤创建Topic
⑥启动Kafka生产者
⑦测试Spark Streaming程序第
五、六课时上机练习上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的熟练程度上机一考察知识点为输入操作、转换操作、输出操作、窗口操作形式单独完成题目1在Spark Streaming程序中实现输入操作,要求如下1从TCP Socket实时接收输入的数据流并生成DStream2从HDFS实时接收输入的数据流并生成DStream2在Spark Streaming程序中实现转换操作,要求如下1使用map算子对DStream进行处理,将DStream中的每个元素数据类型转换为Int类型之后乘以22使用fl atMap算子对DStream进行处理,将DStream中的每个元素通过分隔符空格拆分为多个元素3使用filter算子对DStream进行处理,返回DStream中大于30的元素4使用union算子对DStream进行处理,将两个DStream的元素进行合并5使用count算子对DStream进行处理,统计DStream中每个RDD的元素数量6使用reduce算子对DStream进行处理,对DStream内的元素进行相加的聚合操作7使用countByValue算子对DStream进行处理,统计DStream内每个元素出现的次数8使用reduceByKey算子对DStream进行处理,统计DStream内每个元素出现的次数9使用join算子对DStream进行处理,将两个DStream内每个元素键相同的值进行合并10使用transform算子对DStream进行处理,对DStream内的每个RDD进行处理,将RDD内每个元素通过分隔符(空格)拆分为多个元素11使用updateStateByKey算子对DStream进行处理,统计元素出现的次数12)在Spark Streaming程序中实现输出操作,要求如下1使用saveAsTextFiles算子演示将DStream的元素保存到HDFS的/sparkstreaming/output目录,并将每个批数据单独保存为一个文件,其中文件的前缀为staff,文件的后缀为txt2使用foreachRDD算子将DStream的元素保存到MySQL的数据表user
(4)在Spark Streaming程序中实现窗口操作,要求如下3使用窗口算子window执行窗口操作,分别指定窗口长度和滑动间隔为3秒和1秒,即每经过1秒,便把过去3秒内的DStream汇总到一个窗口4使用窗口算子reduceByKeyAndWindow执行窗口操作,分别指定窗口长度和滑动间隔为3秒和1秒,即每经过1秒,便把过去3秒内的DStream汇总到一个窗口,并且将窗口中键相同元素的值应用于func进行累加的聚合操作上机二(考察知识点为案例一一电商网站实时热门品类统计)形式单独完成题目实现电商网站实时热门品类统计,要求为每经过10秒便统计过去30秒内销售额排名前3的品类,并将统计结果保存到MySQL的表中上机三(考察知识点为整合)Spark StreamingKafka形式单独完成题目在Spark Streaming程序中使用Direct方式实时接收Kafka输入的数据流并创建DStream教学后记。
个人认证
优秀文档
获得点赞 0