还剩5页未读,继续阅读
文本内容:
《大数据分析与实成(第Spark版)》2教学设计课程名称授课年级授课学期教师姓名第2章Spark基础8课时课题名称课时Spark是一个快速、通用的分布式计算引擎,用于大数据的处理和分析,它可以让开发人员快速地处理大量数据,并在分布式环境中执行大规模的并行计算教学引入Spark不仅计算速度快,而且内置了丰富的APL使得开发人员能够很容易地编写程序接下来,本节课从Spark基础知识说起,针对Spark运行架构及流程、Spark集群部署以及Spark相关操作进行详细讲解•使学生了解Spark概述,能够说出Spark生态系统中不同组件的作用•使学生了解Spark的特点,能够说出Spark的4个显著特点•使学生了解Spark应用场景,能够说出Spark在大数据分析和处理领域的常见应用场景•使学生熟悉Spark与MapReduce的区别,能够说出Spark与MapReduce在编程方式、数据处理和数据容错方面的区别•使学生掌握Spark基本架构,能够说出Master和Worker的职责•使学生掌握Spark运行流程,能够叙述Spark如何处理提交Spark程序教学目标•使学生熟悉Spark的部署模式,能够叙述Standalone模式、High Availability模式和Spark onYARN模式的概念•使学生掌握Spark的部署,能够基于不同模式部署Spark•使学生熟悉Spark初体验,能够将Spark程序提交到YARN集群运行•使学生掌握Spark Shell,能够使用Spark Shell读取HDFS文件实现词频统计•使学生掌握Spark程序的开发,能够基于本地模式和集群模式开发Spark程序•基本概念•Spark基本架构教学重点•基于Spark onYARN模式部署Spark•Spark Shell命令•案例——开发Spark程序•Spark基本架构•Spark运行流程教学难点•基于High Availability模式部署Spark•Spark初体验•案例一一开发Spark程序教学方式课堂教学以PPT讲授为主,并结合实际操作进行教学第
一、二课时(Spark概述、Spark的特点、Spark应用场景、Spark与MapReduce的区别、基本概念、Spark基本架构、Spark运行流程、Spark的部署模式)
一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固讲解教学过
二、通过直接导入的方式导入新课程Spark诞生于加州大学伯克利分校的AMP实验室,最初的目标是解决MapReduce处理大规模数据的性能瓶颈,后来加入Apache孵化器项目,经过短短几年的发展,成为Apache的顶级开源项目本节课我们针对Spark的基础知识进行讲解
三、新课讲解知识点1-Spark概述教师通过PPT的方式讲解Spark概述Spark生态系统中的组件1Spark SQL2Spark Streaming3Structured Streaming4MLlib5GraphX6Spark Core知识点2-Spark的特点教师通过PPT的方式讲解Spark的特点1速度快2易用性3通用性4兼容性知识点3-Spark应用场景教师通过PPT的方式讲解Spark应用场景1流处理2机器学习3数据挖掘4图形计算5计算密集型工作负载知识点4-Spark与MapReduce的区别教师通过PPT的方式讲解Spark与MapReduce的区别1编程方式不同2数据处理不同3数据容错性不同知识点5-基本概念教师通过PPT的方式讲解基本概念1Application2Driver Program3Cluster Manager4SparkContext5Worker Node6Executor7Task11DAG Scheduler12Task Scheduler知识点6-Spark基本架构教师通过PPT的方式讲解Spark基本架构1Master
①资源管理
②任务调度
③容错管理2Worker
①任务执行
②资源利用
③节点状态报告知识点7-Spark运行流程教师通过PPT的方式讲解Spark运行流程根据Spark运行流程图讲解Spark运行流程的六个步骤知识点8-Spark的部署模式教师通过PPT的方式讲解Spark的部署模式1Standalone模式2High Availability模式3Spark onYARN模式
四、归纳总结教师回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导
五、布置作业教师通过高校教辅平台.ityxb.com布置本节课作业以及下节课的预习作业第
三、四课时基于Local模式部署Spark、基于Standalone模式部署Spark、基于HighAvailability模式部署Spark、基于Spark onYARN模式部署Spark
一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固讲解
二、通过直接导入的方式导入新课在使用Spark之前,我们需要完成Spark的部署在本节课中,我们将讲解如何通过不同模式部署Spark集群,包括基于Local模式、Standalone模式等
三、新课讲解知识点1-基于Local模式部署Spark教师通过PPT结合实际操作的方式讲解基于Local模式部署Sparko1上传Spark安装包2创建目录3安装Spark4启动Spark知识点2-基于Standalone模式部署Spark教师通过PPT结合实际操作的方式讲解基于Standalone模式部署Sparko1集群规划2创建目录3安装Spark4创建配置文件spark-env.sh5修改配置文件spark-env.sh6创建配置文件spark-defaults.conf7修改配置文件spark-defaults,conf8创建配置文件workers9修改配置文件workers10创建Spark记录日志的目录11分发Spark安装目录12启动Spark集群13启动历史服务器14查看Spark的Web UI知识点3-基于High Availability模式部署Spark教师通过PPT结合实际操作的方式讲解基于High Availability模式部署Sparko1关闭基于Standalone模式部署的Spark2创建目录3安装Spark4创建并修改配置文件spark-env.sh5创建并修改配置文件spark-defaults,conf6创建并修改配置文件workers7分发Spark安装目录8创建Spark记录日志的目录9启动ZooKeeper集群10启动Spark集群11启动STANDBY状态的Master12启动历史服务器13查看Spark集群运行状态14查看Master状态15测试故障恢复知识点4-基于Spark onYARN模式部署Spark教师通过PPT结合实际操作的方式讲解基于Spark onYARN模式部署Sparko1关闭Spark集群和历史服务器2创建目录3安装Spark4创建并修改配置文件spark-env.sh
四、归纳总结教师回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导
五、布置作业教师通过高校教辅平台.ityxb.com布置本节课作业以及下节课的预习作业第
五、六课时Spark初体验、Spark Shell命令、读取HDFS文件实现词频统计、案例——开发Spark程序
一、复习巩固教师通过上节课作业的完成情况,对学生吸收不好的知识点进行再次巩固讲解
二、通过直接导入的方式导入新课Spark部署完成后,便可以利用Spark集群来运行Spark程序来实现数据分析任务在本节课中,我们将讲解如何向Spark集群提交Spark程序,以及如何开发WordCount程序
三、新课讲解知识点1-Spark初体验教师通过PPT结合实际操作的方式讲解Spark初体验通过Spark提供的命令行工具spark-submit,将Spark程序提交到YARN集群中运行知识点2-Spark Shell命令教师通过PPT结合实际操作的方式讲解Spark Shell命令1介绍启动Spark Shel的基础语法格式2介绍Spark Shell常用的运行模式知识点3-读取IIDFS文件实现词频统计教师通过PPT结合实际操作的方式讲解读取HDFS文件实现词频统计1创建文件2上传文件3启动Spark Shell4编写Spark程序知识点4-案例一一开发Spark程序教师通过PPT结合实际操作的方式讲解案例一一开发Spark程序1环境准备
①创建项目
②导入依赖和插件2基于本地模式开发WordCount程序在IntelliJ IDEA中开发和运行WordCount程序,并将结果输出到控制台3基于Spark onYARN模式开发WordCount程序在IntelliJ IDEA中开发WordCount程序,并将其封装为jar文件之后提交到YARN集群运行
四、归纳总结教师回顾本节课所讲的内容,并通过提问的方式引导学生解答问题并给予指导
五、布置作业教师通过高校教辅平台.ityxb.com布置本节课作业以及下节课的预习作业第
七、八课时上机练习上机练习主要针对本章中需要重点掌握的知识点,以及在程序中容易出错的内容进行练习,通过上机练习可以考察同学对知识点的掌握情况,对代码的熟练程度上机一考察知识点为基于High Availability模式部署Spark.基于Sparkon YARN模式部署Spark形式单独完成题目1在虚拟机HadoopK Hadoop2和Hadoop3中基于High Availability模式部署Spark集群2在虚拟机Hadoopl中基于Spark onYARN模式部署Spark上机二考察知识点为读取HDFS文件实现词频统计、案例一一开发Spark程序形式单独完成题目1基于Spark onYARN模式运行Spark Shell,读取HDFS文件实现词频统计2在IntelliJ IDEA中开发WordCount程序,并将其封装为jar文件之后提交到YARN集群运行教学后记。
个人认证
优秀文档
获得点赞 0