还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《大数据分析与实战(第版)》Spark2课程教学大纲(课程英文名称)课程编号学分X学分学时66课时(其中讲课44课时上机22课时)先修课程Hadoop大数据开发与实践适用专业大数据技术
一、课程的性质与目标本课程是大数据技术及相关专业的一门校定必修专业课通过学习课程使得学生掌握大数据技术方面的主要思想和基本步骤,并通过部署、使用和典型应用案例加深了解,同时对Spark及其生态体系中相关大数据技术的理论知识有所了解,如分布式数据库HBase、分布式发布订阅消息系统Kafka等开设本学科的目的是让学生掌握如何使用大数据技术解决特定业务领域的问题完成本课程学习后能够熟练的应用大数据技术解决企业中的实际生产问题
二、课程设计思路和教学要求课程设计理念本课程坚持以理论为基础,注重实践教学”的教学理念,致力于培养学生的能力,以满足职业发展和就业需求通过清晰明确的教学目标,培养学生所需的职业能力、职业发展所需的技能和终身学习的能力,采用一站式教学方法,为学生的发展提供全方位的支持的不足,能够说出在处理复杂的流earning Spark Streaming了解
1.SparkStr靛够叙述处理数据的特点i StreamingStructured Streaming式数据时的弊端编程模型,能够描述如何i StreamingStructured Streaming学习目标了解
2.Structure熟悉
3.的操作,能够通过的方式实现输i StreamingAPI Scala API处理实Structure和输出操作E时数据峪,能够说出处理流数据中事件时间、注入时间和处理时间的掌握
4.入操能够使用完成滚动窗口,滑动窗口和Structure Structured Streaming作、转换操个掌握物联网
7.1了解时间的分音数据分析,能够模拟生成数据并分析
5.寸区别知识点掌握程度重点难点掌握窗口操
6.的不足了解Spark Streaming作,会话窗口操作简介了解Structured Streaming编程模型熟悉Structured Streaming输入操作掌握V学习内容转换操作掌握V输出操作掌握V时间的分类了解窗口操作掌握V V案例一物联设备数据分析-准备数据掌握V案例一物联设备数据分析-分析数据掌握V V第9章Spark MLlib机器学习库学习单元机器学习库课时课时Spark MLlib6了解什么是机器学习,能够说出有监督学习、无监督学习和半监督学习之间的
1.区别了解机器学习的应用,能够说出机器学习常见的应用领域
2.学习目标熟悉,能够说出的算法架构
3.Spark MLlibSpark MLlib掌握工作流程,能够叙述机器学习如何处理数据并训练模型
4.Spark MLlib掌握的数据类型,能够使用对本地向量、标记点和
5.Spark MLlibSpark MLlib本地矩阵进行相关操作熟悉的基本统计和分类方法,能够使用对数据进行
6.Spark MLlibSpark MLlib处理和分析掌握电影推荐系统,能够使用实现电影推荐
7.Spark MLlib知识点掌握程度重点难点什么是机器学习了解机器学习的应用了解简介熟悉Spark MLlib工作流程掌握Spark MLlib数据类型掌握V V摘要统计熟悉学习内容相关统计熟悉V分层抽样熟悉线性支持向量机熟悉V逻辑回归熟悉V案例一构建电影推荐系统一案例分析熟悉案例一构建电影推荐系统一案例实现掌握V V第10章综合案例一在线教育学生学习情况分析系统学习单元综合案例一在线教育学生学习情况分析系统课时课时
8.了解在线教育学生学习情况分析系统,能够说出本系统的背景和流程1了解存储系统,能够完成的安装和启动
2.Redis Redis掌握构建项目结构模块开发,能够独立创建好项目结构学习目标
3.掌握在线教育数据的生成模块开发,能够独立编写程序向发送数
4.Spark Kafka据掌握实时分析学生答题情况模块开发,能够使用对在线教
5.Structured Streaming育系统的数据进行实时分析.掌握实时推荐题目模块开发,能够基于推荐模型实现实时推荐题目6掌握学生答题情况离线分析模块开发,能够使用对实时推荐的题目
7.Spark SQL进行离线分析掌握数据可视化模块开发,能够使用对离线分析结果进行可视化展示
8.FineBI知识点掌握程度重点难点系统概述了解的安装和启动了解Redis模块开发一构建项结构掌握V模拟生成数据熟悉V向Kafka发送数据掌握V模块开发一实时分析学生答题情况掌握V V模块开发一实时推荐题目掌握V V模块开发——学生答题情况离线分析掌握V安装、启动与配置熟悉FineBI实现数据可视化掌握V学习内容■课时分配见章目讲课上机合计第1章Scala语言基础628第2章Spark基础628第3章Spark RDD弹性分布式数据集426第4章Spark SQL结构化数据处理模块426第5章H Base分布式数据库426第6章Kafka分布式发布订阅消息系统426第7章Spark Streaming实时计算框架426第8章Structured Streaming流计算引擎426第9章Spark MLlib机器学习库426第10章案例——在线教育学生学习情况分析系统448合计442266
五、考核模式与成绩评定办法()本课程为考试课程,期末考试采用百分制的闭卷考试模式学生的考试成绩由平时成绩30%()()((和期末考试70%组成,其中,平时成绩包括出勤5%、作业5%)、上机成绩20%X
六、选用教材和主要参考书(本大纲是根据黑马程序员编著的教材Spark大数据分析与实战(第2版)》所设计的
七、大纲说明本课程的授课模式为课堂授课+上机,其中,课堂主要采用多媒体的方式进行授课;上机主要是编写程序,要求学生动手完成指定的程序设计或验证撰写人审定人批准人执行时间课程设计思路:本书通过理论知识加实际操作的方式系统地讲解了Spark相关知识,使学生能够全面地了解使用Spark的开发流程本书涉及Scala语言基础、Spark基础、Spark RDD弹性分布式数据集、SparkSQL结构化数据处理模块、HBase分布式数据库、Kafka分布式发布订阅消息系统、Spark Streaming实时计算框架、Structured Streaming流计算引擎、Spark MLlib机器学习库,通过案例——在线教育学生学习情况分析系统帮助学生掌握系统的开发流程,包括模拟生成数据、实时分析学生答题情况、实时推荐题目、学生答题情况离线分析和数据可视化等本书知识结构简单明了,示例生动具体,内容设计新颖,思路清晰操作系统•CentOS Stream9•Windows10及以上开发工具•JDK
1.8•VMware Workstation16Pro•••MySQL8•••••••FineBI
5.1•SecureCRT•IntelliJ IDEA
三、课程的主要内容及基本要求第1章Scala语言基础学习单元语言基础课时课时Scala8了解的基本概念,能够描述的特性
1.Scala Scala熟悉的安装,能够在和操作系统中安装
2.Scala WindowsLinux Scala熟悉插件的安装,能够在中安装插件
3.Scala IntelliJ IDEA Scala掌握程序的开发,能够在中开发程序
4.Scala IntelliJIDEA Scala学习目标掌握的基础语法,能够熟练使用中的变量、常量、运算符、
5.Scala Scala控制结构语句、方法和函数掌握数据结构,能够熟练使用中的数组、元组和集合
6.Scala Scala掌握面向对象,能够熟练使用中的类、单例对象、继承和特质
7.Scala Scala知识点掌握程度重点难点初识了解Scala的安装熟悉Scala在中安装插件熟悉IntelliJIDEAScalaScala初体验掌握V变量掌握V常量掌握学习内容数据类型掌握V运算符掌握V控制结构语句掌握V V方法和函数掌握V V数组掌握V元组掌握V V集合掌握V V类和对象掌握V单例对象掌握继承掌握V特质掌握V第2章Spark基础学习单元基础课时课时Spark8了解概述,能够说出生态系统中不同组件的作用
1.Spark Spark了解的特点,能够说出的个显著特点
2.Spark Spark4了解应用场景,能够说出在大数据分析和处理领域的常见应用场
3.Spark Spark景熟悉与的区别,能够说出与在编程方式、
4.Spark MapReduceSpark MapReduce数据处理和数据容错方面的区别掌握基本架构,能够说出和的职责学习目标
5.Spark MasterWorker掌握运行流程,能够叙述如何处理提交程序
6.Spark Spark Spark熟悉的部署模式,能够叙述模式、模式和
7.Spark StandaloneHigh Availability模式的概念Spark onYARN掌握的部署,能够基于不同模式部署
8.Spark Spark熟悉初体验,能够将程序提交到集群运行
9.Spark SparkYARN掌握,能够使用读取文件实现词频统计
10.Spark ShellSpark ShellHDFS掌握程序的开发,能够基于本地模式和集群模式开发程序
11.SparkSpark知识点掌握程度重点难点概述了解Spark的特点了解Spark应用场景了解Spark与叩的区别熟悉Spark MReduce基本概念掌握VSpark基本架构掌握VSpark运行流程掌握V的部署模式熟悉Spark学习内容基于模式部署了解Local Spark基于模式部署熟悉Standalone Spark基于模式部署熟悉VHigh AvailabilitySpark基于模式部署掌握VSpark onYARN Spark初体睑熟悉VSpark命令掌握VSpark Shell读取文件实现词频统计掌握HDFS案例一开发程序掌握V VSpark第3章Spark RDD弹性分布式数据集学习单元弹性分布式数据集课时课时Spark RDD
6.了解,能够从不同方面介绍1RDD RDD掌握的创建,能够基于文件和数据集合创建
2.RDD RDD掌握的处理过程,能够使用转换算子和行动算子操作
3.RDD RDD熟悉的分区,能够指定的分区数量
4.RDD RDD熟悉的依赖关系,能够区分的窄依赖和竟依赖
5.RDD RDD学习目标掌握持久化机制,能够使用方法和方法持久化
6.RDD persistcache RDD熟悉容错机制,能够叙述的故障恢复方式
7.RDD RDD熟悉的概念,能够叙述什么是
8.DAG DAG掌握在中的运行流程,能够说出被解析为执行的过程
9.RDD SparkRDD Task知识点掌握程度重点难点简介了解RDD基于文件创建掌握RDD V基于数据集合创建掌握RDD转换算子掌握V行动算子掌握V学习内容的分区熟悉RDDRDD的依赖关系熟悉V持久化机制掌握V V容错机制熟悉V的概念熟悉DAGRDD在Spark中的运行流程掌握V V第4章Spark SQL结构化数据处理模块学习单元结构化数据处理模块课时课时Spark SQL6了解,能够说出的特点
1.Spark SQLSpark SQL熟悉架构,能够说明内部组件的运行流程
2.Spark SQLCatalyst熟悉的基本概念,能够说明与在结构上的区别
3.DataFrame DataFrameRDD掌握的创建,能够通过读取数据文件创建
4.DataFrame DataFrame学习目标.掌握的常用操作,能够使用风格和风格操作5DataFrame DSLSQL DataFrame掌握的函数操作能够使用标量函数和聚合函数操作
6.DataFrame DataFrame掌握与的转换,能够通过反射机制和编程方式将转换成
7.RDD DataFrameRDDDataFrame了解能够说出、与的区别
8.Dataset,RDD DataFrameDataset掌握的创建,能够通过读取数据文件创建
9.Dataset Dataset掌握操作数据源,能够使用操作和
10.Spark SQLSpark SQLMySQL Hive知识点掌握程度重点难点的简介了解Spark SQL架构熟悉VSpark SQL简介熟悉DataFrame的创建掌握VDataFrame的常用操作掌握VDataFrame的函数操作掌握V VDataFrame学习内容反射机制推断掌握V VSchema编程方式定义掌握V VSchema简介了解Dataset的创建掌握VDataset操作掌握VSpark SQLMySQL操作掌握VSpark SQLHive第5章H Base分布式数据库学习单元分布式数据库课时课时H Base6了解的基础知识,能够说出的特点和数据模型
1.HBase HBase熟悉架构,能够叙述中各组件的作用
2.HBase HBase.了解物理存储,能够说出如何存储数据3HBase熟悉读写数据流程,能够叙述读写数据的流程
4.HBase HBase学习目标掌握局可用集群的搭建,能够独完成图可用集群的搭建
5.HBase HBase掌握的操作,能够使用操作
6.HBase ShellHBase ShellHBase掌握的操作,能够使用操作
7.HBase Java API JavaAPI HBase掌握集成,能够实现通过向的数据表插入数据
8.HBase HiveHive HBase知识点掌握程度重点难点的简介了解HBase的数据模型了解HBase学习内容HBase架构熟悉V物理存储了解HBase读写数据流程熟悉V搭建HBase高可用集群掌握V V的操作掌握VHBase Shell的操作掌握V VHBaseJavaAPI集成掌握HBase Hive第6章Kafka分布式发布订阅消息系统学习单元分布式发布订阅消息系统课时课时Kafka6了解消息队列,能够说出消息队列的主要应用场景
1.熟悉的概念,能够叙述的优点
2.Kafka Kafka学习目标熟悉的基本架构,能够叙述基本架构的内容
3.Kafka Kafka掌握的工作流程,能够叙述生产者生产消息过程和消费者消费消息过程
4.Kafka掌握集群的搭建,能够独立完成部署集群
5.Kafka Kafta掌握的基本操作,能够使用命令和操作
6.Kafka ShellScala APIKafka掌握,能够使用实现单词计数功能
7.Kafka StreamsKafka Streams知识点掌握程度重点难点消息队列简介了解简介熟悉Kafka的基本架构熟悉KafkaKafka工作流程掌握V学习内容搭建Kafka集群掌握V VKafka的Shell操作掌握VKafka的ScalaAPI操作掌握V V概述熟悉Kafka StreamsKafkaStreams实现单词计数功能掌握V V第7章Spark Streaming实时计算框架学习单元实时计算框架课时课时Spark Streaming6了解什么是实时计算,能够说出实时计算的特征以及应用场景
1.了解简介,能够说出优点和缺点
2.Spark StreamingSpark Streaming熟悉的工作原理,能够叙述如何处理数据
3.Spark StreamingSpark Streaming流熟悉的和编程模型,能够叙述的结构和
4.Spark StreamingDStream DStream学习目标编程模型的构成掌握的操作,能够通过实现输入操作、转换
5.Spark StreamingAPI ScalaAPI操作、输出操作和窗口操作掌握整合,能够使用使用方式接收输入
6.Spark StreamingKafka DirectKafka的数据流知识点掌握程度重点难点实时计算概述了解简介了解Spark Streaming工作原理熟悉Spark Streaming的熟悉Spark StreamingDstrean的编程模型熟悉SparkStreaming学习内容输入操作掌握V转换操作掌握V V输出操作掌握V窗口操作掌握V V案例——电商网站实时热门品类统计掌握VSpark Streaming整合Kafka掌握V V第8章Structured Streaming流计算引擎学习单元流计算引擎课时课时StructuredStreaming6。
个人认证
优秀文档
获得点赞 0