还剩2页未读,继续阅读
文本内容:
《Spark大数据分析》课程教学大纲[课程编号]:[英文名称]:Spark BigData Analysis[课程性质]:专业必修课(专业核心课)[先修课程]:Linux基础、Python程序设计、大数据技术导论、数据库技术[适用专业]:数据科学与大数据技术[学分数]:2[总学时]:36[理论学时]:24[实践学时]:12教材Spark大数据分析技术曹洁清华大学出版社
一、课程简介Spark是立足于内存计算,是大数据系统领域的全栈式数据计算与分析平台,在大数据分析与处理中被广泛应用本课程主要介绍Spark大数据处理框架、Spark RDD编程、Spark SQL结构化数据处理、HBase分布式数据库、Spark Streaming流计算、Spark MLlib机器学习和数据可视化等通过本课程的学习,学生能够深入理解Spark大数据处理技术框架的运行机制、针对不同类型数据的处理技巧和分析方法,提高大数据分析与处理能力
二、课程目标
1.通过学习本课程,达到以下目标
(1)知识目标掌握扎实的大数据基础知识和大数据开发技术方法、工具和环境
(2)能力目标具备一定的大数据处理技术开发能力,培养独立思考和判断、分析问题和解决问题以及较强的实践动手能力
(3)素质目标培养学生勤奋踏实,适应大数据行业快速发展的素质,具备良好的大数据处理技术职业道德
2.课程目标与毕业要求关系■——一课程目标123毕业要求观测点_—---------------一___能够融合软件工程专业知识,应用科学原理、采用科学方法,根
4.1q据工程需要选择研究路线,设计实验方案了解软件行业的发展趋势,能够认识到自主学习和终身学习的
12.1V重要性能够通过各种途径收集、分析、归纳软件工程相关信息,获取
12.2新知识、新技术,能够根据软件技术和行业的发展需求进行不断学q习
三、课程内容
(一)理论课课程内容知识点、重点、难点及课程思点学时;甲二.保木王早序号w教学组织形式-H-分知识点大数据的基本概念,代表性大数据技术,大数据编程语言重点大数据的定义,大数据的特征,大数据思维,课前线上预习、大数据技12代表性大数据技术课堂讲授、互动术概述难点大数据的特征,大数据思维讨论课程思政点三次信息化浪潮的启示,信息化是当今时代发展的大趋势知识点Spark运行机制,Spark的安装及配置,在VirtualBox上安装Linux集群,Hadoop的安装与配置,Spark的安装及配置,使用PySpark编写Python代码,安装pip工具和一些常用的数据分析库,使用PySpark Shell编写Python代码,安装Anaconda和课前线上预习、Spark框配置Jupyter Notebook课堂讲授、互动o24架及部署重点Hadoop的安装与配置,Spark的安装及配置,讨论、课后作安装Anaconda和配置Jupyter Notebook难点业、单元测试Hadoop的安装与配置,Spark的安装及配置,安装Anaconda和配置Jupyter Notebook课程思政点Spark诞生的启示,人无完人,取人之长、补己之短知识点RD1)创建的方式,RDD转换操作,RDD行动操作,RDD之间的依赖关系,RDD的持久化,案例实战Spark的Spark RDD实现词频统计RDD编程重点RDD创建的方式,RDD转换操作,RDD行动操作课前线上预习、难点RDD创建的方式,RDD转换操作,RDD行动操作课堂讲授、课堂34课程思政点中国芯片之殛,如果一味依赖外国的产演示、课后作业、单元测试品,不能在芯片上实现独立自主,国家安全和发展必将时刻处于威胁之下知识点创建DataFrame对象的方式,将DataFrame保存为不同格式文件的方式,DataFrame的常用操作,使用Spark SQL读写MySQL数据库课前线上预习、重点DataFrame创建;DataFrame常用操作难点课堂讲授、课堂4Spark SQL3DataFrame创建;DataFrame常用操作课程思政点演示、课后作通过DataFrame的吊用操作方法的讲解,引导学生保业、单元测试持严谨的工匠精神,永攀科学高峰!知识点HBase系统架构和数据访问流程,IIBase数据表,HBase安装与配置,HBase的Shell操作,HBase的Java API操作,HBase案例实战和Python操作HBaseo重点HBase数据表,HBase的Shell操作,HBase的HBase分布53Java API操作式数据库难点:HBase数据表,HBase的Shell操作,HBase的Java API操作课程思政点命令行模式中,一个空格的位置不正确就会导致结果不正确,引导学生养成严谨认真的良好习惯知识点Spark Streaming工作原理,SparkStreaming编程模型,DStream创建和DStream操作重点Streaming编程模型,DStream创建和62DStream操作课前线上预习、Spark难点DStream创建和DStream操作课堂讲授、课堂课程思政点引入“科技改变生活,创新引领未来”,Streami ng演示、课后作逐步建立学生勇于创新与挑战的意识流计算业、单元测试知识点MLLib基本数据类型,机器学习流水线,基本统计,特征提取、转换和选择,分类算法,回归算法,聚类算法和协同过滤推荐算法重点MLLib基本数据类型,机器学习流水线,基本课前线上预习、Spark统计,特征提取、转换和选择课堂讲授、课堂7MLlib机器4难点机器学习流水线,基本统计,特征提取、转换演示、课后作学习和选择业、单元测试课程思政点分布式迭代中的大局观知识点WordCloud绘制词云图库,PyeCharts数据可视化库和Plotly数据可视化库重点Word点oud绘制词云图库,PyeCharts数据可课前线上预习、视化库和Plotly数据可视化库课堂讲授、课堂难点:WordCloud绘制词云图库,PyeCharts数据可演示、课后作业视化库和Plotly数据可视化库8数据可视化2课程思政点通过优秀诗词的可视化,引入文化自信
(二)实验课课程内容学时序教学组织形实验名称类别实验内容r~i1V课前预习、课堂创建虚拟机,安装操作系统,安装讲授、案例教学Hadoop的安装与12验证性JDK,配置SSH免密码登录,安装配置HadoopSpark的安装与配Spark应用开发环境配置,Spark课前预习、课堂程序调试讲授、体验学习置22验证性Spark RDD转换操作和行动操课前预习、课堂作,RDD持久化,PySpark API;讲授、案例教学、3RDD编程实战2验证性RDD综合实例体验学习课前预习、课堂讲Spark SQL创建表、查询数据;授、案例教学4Spark SQL应用2验证性Spark SQL文件处理课前预习、课堂讲授、案例教学52验证性DStream创建和DStream操作Spark Streaming流数据处理课前预习、课堂讲Spark StreamingMLlib机器学授、案例教学、体Spark MLlib应用2综合性习流水线、分类与回归、推荐算法验学习、拓展自学实战6。
个人认证
优秀文档
获得点赞 0