第2章 Spark基础-教学设计

佚名 · 0905

教学，设计

文件大小19.09 KB

文件格式docx

分享时间2025-05-15

更多此类文档

立即下载

还剩5页未读，继续阅读

文本内容:

《大数据分析与实成（第Spark版）》2教学设计课程名称授课年级授课学期教师姓名第2章Spark基础8课时课题名称课时Spark是一个快速、通用的分布式计算引擎，用于大数据的处理和分析，它可以让开发人员快速地处理大量数据，并在分布式环境中执行大规模的并行计算教学引入Spark不仅计算速度快，而且内置了丰富的APL使得开发人员能够很容易地编写程序接下来，本节课从Spark基础知识说起，针对Spark运行架构及流程、Spark集群部署以及Spark相关操作进行详细讲解•使学生了解Spark概述，能够说出Spark生态系统中不同组件的作用•使学生了解Spark的特点，能够说出Spark的4个显著特点•使学生了解Spark应用场景，能够说出Spark在大数据分析和处理领域的常见应用场景•使学生熟悉Spark与MapReduce的区别，能够说出Spark与MapReduce在编程方式、数据处理和数据容错方面的区别•使学生掌握Spark基本架构，能够说出Master和Worker的职责•使学生掌握Spark运行流程，能够叙述Spark如何处理提交Spark程序教学目标•使学生熟悉Spark的部署模式，能够叙述Standalone模式、High Availability模式和Spark onYARN模式的概念•使学生掌握Spark的部署，能够基于不同模式部署Spark•使学生熟悉Spark初体验，能够将Spark程序提交到YARN集群运行•使学生掌握Spark Shell,能够使用Spark Shell读取HDFS文件实现词频统计•使学生掌握Spark程序的开发，能够基于本地模式和集群模式开发Spark程序•基本概念•Spark基本架构教学重点•基于Spark onYARN模式部署Spark•Spark Shell命令•案例——开发Spark程序•Spark基本架构•Spark运行流程教学难点•基于High Availability模式部署Spark•Spark初体验•案例一一开发Spark程序教学方式课堂教学以PPT讲授为主，并结合实际操作进行教学第

一、二课时（Spark概述、Spark的特点、Spark应用场景、Spark与MapReduce的区别、基本概念、Spark基本架构、Spark运行流程、Spark的部署模式）

一、复习巩固教师通过上节课作业的完成情况，对学生吸收不好的知识点进行再次巩固讲解教学过

二、通过直接导入的方式导入新课程Spark诞生于加州大学伯克利分校的AMP实验室，最初的目标是解决MapReduce处理大规模数据的性能瓶颈，后来加入Apache孵化器项目,经过短短几年的发展，成为Apache的顶级开源项目本节课我们针对Spark的基础知识进行讲解

三、新课讲解知识点1-Spark概述教师通过PPT的方式讲解Spark概述Spark生态系统中的组件1Spark SQL2Spark Streaming3Structured Streaming4MLlib5GraphX6Spark Core知识点2-Spark的特点教师通过PPT的方式讲解Spark的特点1速度快2易用性3通用性4兼容性知识点3-Spark应用场景教师通过PPT的方式讲解Spark应用场景1流处理2机器学习3数据挖掘4图形计算5计算密集型工作负载知识点4-Spark与MapReduce的区别教师通过PPT的方式讲解Spark与MapReduce的区别1编程方式不同2数据处理不同3数据容错性不同知识点5-基本概念教师通过PPT的方式讲解基本概念1Application2Driver Program3Cluster Manager4SparkContext5Worker Node6Executor7Task11DAG Scheduler12Task Scheduler知识点6-Spark基本架构教师通过PPT的方式讲解Spark基本架构1Master

①资源管理

②任务调度

③容错管理2Worker

①任务执行

②资源利用

③节点状态报告知识点7-Spark运行流程教师通过PPT的方式讲解Spark运行流程根据Spark运行流程图讲解Spark运行流程的六个步骤知识点8-Spark的部署模式教师通过PPT的方式讲解Spark的部署模式1Standalone模式2High Availability模式3Spark onYARN模式

四、归纳总结教师回顾本节课所讲的内容，并通过提问的方式引导学生解答问题并给予指导

五、布置作业教师通过高校教辅平台.ityxb.com布置本节课作业以及下节课的预习作业第

三、四课时基于Local模式部署Spark、基于Standalone模式部署Spark、基于HighAvailability模式部署Spark、基于Spark onYARN模式部署Spark

一、复习巩固教师通过上节课作业的完成情况，对学生吸收不好的知识点进行再次巩固讲解

二、通过直接导入的方式导入新课在使用Spark之前，我们需要完成Spark的部署在本节课中，我们将讲解如何通过不同模式部署Spark集群，包括基于Local模式、Standalone模式等

三、新课讲解知识点1-基于Local模式部署Spark教师通过PPT结合实际操作的方式讲解基于Local模式部署Sparko1上传Spark安装包2创建目录3安装Spark4启动Spark知识点2-基于Standalone模式部署Spark教师通过PPT结合实际操作的方式讲解基于Standalone模式部署Sparko1集群规划2创建目录3安装Spark4创建配置文件spark-env.sh5修改配置文件spark-env.sh6创建配置文件spark-defaults.conf7修改配置文件spark-defaults,conf8创建配置文件workers9修改配置文件workers10创建Spark记录日志的目录11分发Spark安装目录12启动Spark集群13启动历史服务器14查看Spark的Web UI知识点3-基于High Availability模式部署Spark教师通过PPT结合实际操作的方式讲解基于High Availability模式部署Sparko1关闭基于Standalone模式部署的Spark2创建目录3安装Spark4创建并修改配置文件spark-env.sh5创建并修改配置文件spark-defaults,conf6创建并修改配置文件workers7分发Spark安装目录8创建Spark记录日志的目录9启动ZooKeeper集群10启动Spark集群11启动STANDBY状态的Master12启动历史服务器13查看Spark集群运行状态14查看Master状态15测试故障恢复知识点4-基于Spark onYARN模式部署Spark教师通过PPT结合实际操作的方式讲解基于Spark onYARN模式部署Sparko1关闭Spark集群和历史服务器2创建目录3安装Spark4创建并修改配置文件spark-env.sh

四、归纳总结教师回顾本节课所讲的内容，并通过提问的方式引导学生解答问题并给予指导

五、布置作业教师通过高校教辅平台.ityxb.com布置本节课作业以及下节课的预习作业第

五、六课时Spark初体验、Spark Shell命令、读取HDFS文件实现词频统计、案例——开发Spark程序

一、复习巩固教师通过上节课作业的完成情况，对学生吸收不好的知识点进行再次巩固讲解

二、通过直接导入的方式导入新课Spark部署完成后，便可以利用Spark集群来运行Spark程序来实现数据分析任务在本节课中，我们将讲解如何向Spark集群提交Spark程序，以及如何开发WordCount程序

三、新课讲解知识点1-Spark初体验教师通过PPT结合实际操作的方式讲解Spark初体验通过Spark提供的命令行工具spark-submit,将Spark程序提交到YARN集群中运行知识点2-Spark Shell命令教师通过PPT结合实际操作的方式讲解Spark Shell命令1介绍启动Spark Shel的基础语法格式2介绍Spark Shell常用的运行模式知识点3-读取IIDFS文件实现词频统计教师通过PPT结合实际操作的方式讲解读取HDFS文件实现词频统计1创建文件2上传文件3启动Spark Shell4编写Spark程序知识点4-案例一一开发Spark程序教师通过PPT结合实际操作的方式讲解案例一一开发Spark程序1环境准备

①创建项目

②导入依赖和插件2基于本地模式开发WordCount程序在IntelliJ IDEA中开发和运行WordCount程序，并将结果输出到控制台3基于Spark onYARN模式开发WordCount程序在IntelliJ IDEA中开发WordCount程序，并将其封装为jar文件之后提交到YARN集群运行

四、归纳总结教师回顾本节课所讲的内容，并通过提问的方式引导学生解答问题并给予指导

五、布置作业教师通过高校教辅平台.ityxb.com布置本节课作业以及下节课的预习作业第

七、八课时上机练习上机练习主要针对本章中需要重点掌握的知识点，以及在程序中容易出错的内容进行练习，通过上机练习可以考察同学对知识点的掌握情况，对代码的熟练程度上机一考察知识点为基于High Availability模式部署Spark.基于Sparkon YARN模式部署Spark形式单独完成题目1在虚拟机HadoopK Hadoop2和Hadoop3中基于High Availability模式部署Spark集群2在虚拟机Hadoopl中基于Spark onYARN模式部署Spark上机二考察知识点为读取HDFS文件实现词频统计、案例一一开发Spark程序形式单独完成题目1基于Spark onYARN模式运行Spark Shell,读取HDFS文件实现词频统计2在IntelliJ IDEA中开发WordCount程序，并将其封装为jar文件之后提交到YARN集群运行教学后记。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小19.09 KB

文件格式docx

分享时间2025-05-15

更多此类文档

立即下载