还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《数据清洗与预处理》课程标准
一、课程名称数据清洗与预处理
二、适用专业大数据技术应用专业
三、课程学时与学分72学时,4学分
四、课程性质本课程是大数据技术应用专业的一门专业核心课程,是从事数据采集工程师、数据分析师等岗位必须学习的课程,将为后续学习《数据可视化》、《大数据分析》等课程奠定基础本课程开设在第4学期,学习该课程之前需具备一定的数据采集、数据存储能力,《Python程序设计基础》、《数据库技术应用》是该课程的前导课程本课程学习的知识和技能可以为考取大数据分析与应用X证书(初级)做知识和技能准备
五、课程目标通过本课程的学习,能完成电商商品数据清洗与预处理任务、电商用户评论数据清洗与预处理任务、智能制造数据清洗与预处理任务、学生信息管理数据清洗与预处理任务、动物图像数据清洗与预处理任务,达到以下具体目标
(一)素养目标
1.培养学生的政治思维、政治洞察力与政治敏感性,培养学生的社会主义核心价值观、爱国主义情操(培养规格1)
2.了解大数据、网络信息等产业文化,遵守职业道德准则和行为规范,具备社会责任感和担当精神(培养规格3)
3.具备大数据思维,具备较强的逻辑思维能力(培养规格7,培养规格8)
4.形成诚实、守信、善于沟通、合作和富有爱心的思想品质(培养规格9)
5.具备创新、创意的思维和团队协作精神(培养规格9)
6.具备吃苦耐劳的优秀品质与较强的抗压能力(培养规格10)
(二)知识目标
1.了解数据清洗与预处理在大数据真实项目分析流程中的重要作用(培养规格6)
2.掌握数据清洗工具Kettle的安装、配置与基本使用方法(培养规格16)息管理数据清洗与预处理、动物图像数据清洗与预处理重在考核学生通过运用综合能力,做出的实践成果,详见附件2《数据清洗与预处理》课程综合评价表附件1:项目评价考核明细表1)考核项目1-—电商商品数据清洗与预处理考核项目1——电商商品数据清洗与预处理采用过程性评价,考核评价表如下表所示:考核项目1——电商商品数据清洗与预处理考核评价表班级姓名学号:考核项目1电商商品数据清洗与预处理自我评小组评教师评价序号评价标准分值价30%价30%40%能够准确介绍电商商品数据的基本信息,能够做到110可视化展示能够介绍数据清洗工具Kettle的安装与配置步骤,220并演示测试用例能够快速使用Kettle导入电商商品数据,并使用320相关的控件展示原始数据能够准确使用Kettle提供的转换控件完成数据预430处理任务,并能总结预处理所使用的方法能够独立完成从Kettle导出数据的任务,使用相关520工具展示经过预处理后的商品数据集,与原始数据对比说出前后的变化合计1002)考核项目2——电商用户评论数据清洗与预处理考核项目2——电商用户评论数据清洗与预处理采用过程性评价,考核评价表如下表所不考核项目2——电商用户评论数据清洗与预处理考核评价表班级姓名学号:考核项目2电商用户评论数据清洗与预处理自我评小组评教师评序号评价标准分值价30%价30%价40%能够快速使用相关工具展示原始电商用户评论数120据,判断数据质量情况能够正确处理数据中文编码乱码问题,给出解决215方案能够正确介绍Python使用正则表达式处理文本的步325骤,快速使用正则表达式处理文本数据存在的问题能够熟练使用Python第三方库完成中文分词处420理能够使用Python第三方库完成数据的预处理任520务,总结所使用的预处理方法合计1003考核项目3——智能制造数据清洗与预处理考核项目3——智能制造数据清洗与预处理采用过程性评价,考核评价表如下表所示:考核项目3——智能制造数据清洗与预处理考核评价表班级姓名学号:考核项目3智能制造数据清洗与预处理自我评小组评教师评价序号评价标准分值价30%价30%40%能够快速介绍智能制造设备运行数据的字段含义120及特点,制定数据清洗与处理的策略能够熟练安装、部署Python第三方库Pandas,介绍210核心数据结构DataFramc的特性和使用方法能够使用Pandas对数据进行描述性分析,比较320info和describe函数的使用场景能够快速使用Pandas完成智能制造数据清洗与430预处理任务,介绍数据预处理的完整过程能够熟练使用Pandas导出预处理的数据,熟练使520用相关配置参数,获得目标数据格式合计1004)考核项目4——学生信息管理数据清洗与预处理考核项目4-—学生信息管理数据清洗与预处理采用过程性评价,考核评价表如下表所示考核项目4——学生信息管理数据清洗与预处理考核评价表班级姓名学号:考核项目4学生信息管理数据清洗与预处理自我评小组评教师评价序号评价标准分值价30%价30%40%能够正确介绍学生信息管理数据在各个业务数据库110的分布情况,制定相应的数据清洗与预处理策略2能够熟练掌握Kettle的操作规范流程10能够独立完成多源数据导入Kettle,并展示导入330结果能够熟练使用Kettle创建数据合并、转换、去重、430排序等转换实例,并执行5能够快速从Kettle中导出数据,并展示处理结果20合计1005)考核项目5——动物图像数据清洗与预处理考核项目5——动物图像数据清洗与预处理采用过程性评价,考核评价表如下表所示:考核项目5——动物图像数据清洗与预处理考核评价表班级姓名学号:考核项目5动物图像数据清洗与预处理自我评小组评教师评价序号评价标准分值价30%价30%40%能够准确介绍数字图像的定义、存储方式等基础110知识能够快速安装、配置图像数据处理有关的Python210第三方库能够编写Python程序读取图像数据,并可视化展320示能够快速完成速图像旋转、缩放、平移、裁剪等425操作能够快速完成速图像图像模糊、图像锐化、阈值525化等图像预处理任务能够将经过预处理的动物图像数据保存为规定格610式,并能说出不同图片格式的差异点合计
1003.掌握Python第三方库Pandas的安装、配置与使用方法(培养规格11)
4.掌握结构化数据去重、缺失值处理、数据转换等基本的预处理方法(培养规格16)
5.掌握非结构化数据文本编码、文本替换、分词等处理方法(培养规格16)
6.了解图像数据的预处理方法与实践工具(培养规格16)
(三)能力目标
1.能够使用数据清洗工具Kettle处理结构化数据(培养规格16)
2.能够使用数据清洗工具Kettle处理非结构化文本数据(培养规格16)
3.能够使用Python第三方库读取、处理结构化数据,并能导出数据(培养规格16)
4.能够使用Python第三方库处理文本数据,进行文本编码检测、简单的分词处理(培养规格16)
5.能够使用Python第三方库读取、展示图像数据,并能完成简单的预处理(培养规格16)
6.具备考取大数据分析与应用X证书(初级)的能力(培养规格16)
六、课程内容与要求本课程以多种行业场景下的数据清洗与预处理任务为载体,坚持立德树人的根本要求,结合学生学习特点,遵循职业教育人才培养规律,落实课程思政要求,有机融入思想政治教育内容,紧密联系工作实际,突出应用性和实践性,注重学生职业能力和可持续发展能力的培养合理设计学习单元、能力点、学习内容与要求本课程按照数据类型和复杂性、数据清洗工具的使用复杂程度、技能水平从单一技能到综合技能、技术沿革从传统技术到智能技术的规律编排学习单元,合理序化教学内容学习单元1-5在知识体系上是并列关系其中,
1、4属于结构化数据清洗与预处理,使用Kettle数据清洗工具;
2、
3、5属于非结构化数据清洗与预处理,使用Python语言进行数据清洗与预处理任务表1课程内容与要求建议序号学习单元能力点学习内容与要求学习成果学时
1.了解电商网站商品相关数据
1.经过数据预电商商品数
1.在数据脏、舌L、差的情况下,的含义、特点及意义处理的高质量据清洗与预116能够使用Kettle数据清洗工具
2.掌握数据清洗工具Kettle的商品数据集1处理执行数据替换、删除安装步骤份等操作,以保证数据准确性
3.了解Kettle的概念模型,掌握
2.能够熟练掌握数据去重、缺Kettlo的操作规范流程失值填补等常用的数据预处理
4.掌握使用Kettle校验将电商方法与实现方式商品数据源基本格式规范的方
3.在数据不规范的情况下,能法够利用人工检验或脚本校准处
5.掌握在Kettle中创建、执行商理数据,保证数据内容的符合品数据去重、缺失值替换等转换行业标准实例的操作过程,掌握使用Kettle导出处理数据的方法6,了解数据清洗与预处理专有名词、规范专业术语与行业用语的使用方式,与团队保持顺畅沟通交流
7.了解大数据行业法规法则,自觉维护行业良好风气
1.能够编写Python脚本程序
1.了解电商用户评论数据数据
1.经过数据清洗与预处理的对商品用户评论数据进行预处的含义、特点高质量电商用理
2.了解中文分词的含义、停用户评论数据集
2.能够使用正则表达式对文本词表的作用1份字符串进行处理,去除多余字
3.掌握Python第三方库符、空格等Pandaschardet的安装配置步电商用户评论数据清洗
3.能够使用分词工具对文本数骤、基本使用方法216与预处理据进行分词
4.了解正则表达式的语法规
4.能够使用Python第三方库则,学习Python内置标准库re的对中文编码格式进行处理,保使用方法证数据内容的符合行业标准
5.掌握使用Pandas对文本数据进行预处理的步骤
6.掌握Pandas chardet对文本数据编码格式进行判断的方法,根据需求进行编码转换7,熟悉使用正则表达式进行文本替换的语法规则
8.掌握使用Pandas对文本数据进项简单分词处理的基本流程
9.了解了解软件与信息技术行业信息,掌握大数据行业前沿技术动态,不断进行自我知识更新与学习L能够熟练使用Python第三方
1.经过数据清
1.了解智能制造设备运行数据洗与预处理的库Pandas的核心数据结构的特点、字段含义及意义高质量招聘网DataFrame完成数据读入、简
2.掌握Python第三方库Pandas站数据集1单数据处理任务的安装配置步骤、基本使用方法份
2.能够使用Python工具完成
3.掌握使用Pandas对智能制造数据替换、删除、去重等数据设备运行数据进行初步诊断的步预处理任务,保证数据无噪声骤
3.能够使用数据清洗工具利
4.熟悉使用Pandas进行数据去智能制造数用将数据按比例缩放,使数据重、缺失值处理、标准化、格式据清洗与预之间具有可比性316转换等清洗任务的方法处理
5.掌握使用Pandas导出数据的方法与常用配置项
6.了解行业发展动态了解行业现状与热门资讯,分析行业未来发展趋势与底层逻辑,随时调整自我职业规划
7.掌握与团队协作、沟通解决问题的方式方法,开展外部交流,有效跨部门推进工作进程
1.能够使用数据清洗工具
1.经过数据清L了解学生信息管理数据在各个洗预处理的学Kettle对接主流数据库,完成业务数据库的分布情况,为多源生信息管理数多源数据整合数据整合做准备据集若干份
2.能够使用数据清洗工具
2.根据学生信息管理数据的特Kettle完成数据预处理任务,点和业务需求,学习制定数据清保证数据准确性洗与预处理的策略
3.在数据不规范的情况下,利
3.掌握数据清洗工具Kettle的用人工检验或脚本校准处理数操作规范流程据,保证数据内容的符合行业
4.掌握使用Kettle完成多个数标准据源整合的步骤,顺利导入目标学生信息管理数据库412数据清洗与预
5.熟悉在Kettle中创建、执行处理学生管理数据合并、转换、去重、排序等转换实例的操作过程
6.掌握使用Kettle导出处理数据的方法
7.掌握与团队协作、沟通解决问题的方式方法,开展有效跨部门沟通,推进工作进程
8.了解大数据行业最新前沿技术发展动向,不断进行自我知识更新与学习
1.能够使用Python图像处理
1.了解数字图像处理的基础知
1.经过预处理的动物图像数工具完成图像数据读取、图像识,理解数字图像的存储方式动物图像数据集1份展示、简单预处理等任务
2.掌握Python第三方库据清洗与预
5122.能够使用Python图像处理OpenCV、NumPy、Pillow的安装处理工具对不规范的图像处理进行与配置步骤处理,统一输出标准化的图像
3.熟悉使用Python图像处理工数据具读取图像数据、渲染展示图像
3.能够熟练使用Python图像的步骤处理工具调用常用的数字图像
4.掌握使用Python图像处理工处理算法完成图像处理的预处具进行动物图像旋转、缩放、平理任务,保证图像数据符合行移、裁剪等操作的方法业标准
5.掌握使用Python图像处理工具进行图像模糊、图像锐化、图像阈值化等图像预处理的步骤
6.自学能力能够主动通过自学了解软件与信息技术行业信息,掌握大数据行业最新技术,熟悉数据采集处理等岗位相关技能
7.了解大数据行业法规法则,自觉维护行业良好风气
七、课程实施
(一)师资队伍
1.专任教师职业能力具备优秀的专业课教学开展与组织能力,掌握Python编程能力、大数据组件使用能力、数据清洗与预处理能力,能够以情境任务要求处理数据知识结构了解数据处理工程师、数据分析师的各项职业岗位要求;在专业领域中,具备大数据技术、数据分析等较为深入的专业知识背景资质具备中职学校专业课任教资格和企业实践经历
2.兼职教师职业能力企业优秀讲师或行业企业专家,具备有3到5年的数据处理相关行业从业经验,参与过多个大数据分析项目开发过程,具有较强的专业技能,具备良好的专业课教学开展与组织能力,具备优秀的Python编程能力,掌握主流的大数据组件,数据清洗与预处理实战工具,能够以情境任务要求处理数据知识结构在行业领域中,深入了解数据处理工程师、数据分析师、算法工程师的各项职业岗位要求;在专业领域中,具备大数据技术、数据分析等深入的专业知识背景资质具备数据清洗、数据处理相关行业从业背景和企业工作经历
(二)实验实训条件
1.校内实训基地根据不同的项目学习需要,选择教室、校企合作实习实训基地、实训设备等进行教学
(1)实训场地数据清洗与预处理实训室、大数据实践创新中心;
(2)实训设备笔记本电脑45套、可视化大屏6套、台式计算机40台、服务器1台,满足数据清洗与预处理的要求
2.校外实训基地目前大数据技术应用有1个联想校外实训室,能够同时满足50名学生进行实习实训能够满足学校教师、企业专家共同办公,满足专业人才学徒制人才培养要求,符合企业研发、生产要求本校外实训基地具备如下条件
(1)联想组织机构健全,领导和工作(或技术)人员素质高,管理规范,在新一代信息技术领域发展前景好
(2)基于联想“端-边-云-网-智”技术框架下,其研究方向与经营的业务与本专业对口,且联想属于世界五百强企业,社会形象好
(3)符合学生专业实习实训条件,并且能够满足学生顶岗实训一个月以上
(4)有相应的技术人员担任实训指导教师
(三)教学资源
1.教材按照教材必须在政治上坚持四项基本原则,符合党和国家的方针和政策,能运用辩证唯物主义和历史唯物主义的观点阐述本课程的基本规律的原则选择教材教材必须符合本课程教学大纲的要求,符合学生层次的实际,教材内容的阐述要循序渐进,富于启发,有利于对学生能力和素质的培养充分考虑教材的变动与更新,保证教材内容有用、新鲜和实用为保证教学质量,优先选择国家规划教材《数据清洗》(机工版)主要介绍了数据清洗技术的基本概念与应用,提供了详实的理论知识,并涵盖了主流的数据清洗工具如Kettle.Python、R等,配套教学资源丰富多样,作为主要教材;《数据清洗》(清华版)在此基础上提供了多种数据清洗的综合实训内容,能够对核心技能点加大练习力度,作为辅助教材两本教材相辅相成有助于同学们提高数据清洗与预处理的实操能力,在教材内容基础上也可以结合学习单元自主开发模块化教材,包括活页式工作页、学习页、评价表等,同时也可采用校企合作资源库课程资源包
2.图书文献配备《数据清洗与ETL技术》、《数据清洗》等图书可用于学生课余时间巩固课堂所学知识和技能,拓展视野,有助于学生了解数据清洗、预处理过程与数据仓库构建之间的紧密联系,加强理解数据清洗与预处理的重要作用,提高数据清洗工具如Kettle、Python的实操能力,对于拓展数据清洗技术技能有辅助作用亦可用于专业教师教科研等工作的开展,方便师生查询、借阅
(四)教学方法面对新的教学变革,采用线上线下混合式教学模式组织教学,在教学中渗透理实一体化、思政育人的教学理念该课程是大数据技术应用专业核心课程之一,在教学的过程中应注重锻炼学生的实操能力为主,把数据清洗与预处理的知识技能融入到课程的实操训练当中,通过本门课程的学习,学生能够使用相应的数据清洗工具完成结构化数据、非结构化数据的清洗与预处理任务在教学过程中采用讲演法、任务驱动法、项目教学法、案例分析法等教学方法,辅以餐垫法、工作站法、展览馆法等特色的教学组织方式,提升学生自主探究、合作学习的意识,培养良好的学习习惯;在每个学习单元,学生进行自主探究学习与小组合作讨论学习,加强操作训练;以企业生产过程中实际的工作任务作为案例,在实践中引导学生学会分析问题、解决问题在教学过程中应充分利用实训环境,按照行动导向六步骤,采用任务驱动法等教法,引导学生开展自主、探究、合作的学习活动,在实践中引导学生学会分析问题、解决问题通过教师示范操作,强调岗位标准,强化学生的职业规范,提升学生数据清洗与预处理实操技能,提高学生自主探究的能力,逐步养成严谨科学的职业习惯在解决问题的过程中,学生养成耐心、细致、精益求精的工作态度,强化学生的质量意识本课程在课堂上除了板书讲解等教学手段外,还采用多媒体教学课件、学习网站、视频演示、模拟系统,职教云平台等现代化教学手段,使用了大数据、人工智能、虚拟仿真实训等信息技术,以提高学生的学习兴趣、拓展学习方法,使学生可以有更多的途径获取知识和技能
(五)教学评价严格落实培养目标和培养规格要求,围绕大数据技术应用专业的人才培养目标,通过教师、企业、学生三个评价主体从核心素质、关键知识、综合能力、实践成果四个维度,通过课堂评价(占比20%)、项目评价(占比50%)、课程评价(占比30%)三种形式收录反映学生成长过程和发展水平的描述与实证材料,全面评价学生综合素质,客观反映学生的个性差异和特长,突出评价对学生全面发展的促进作用
1.课堂评价(20%)通过教师评价、学生互评、学生自评三个主体侧重核心素质的评价课堂评价采用线上线下混合评价方式,借助职教云、雨课堂、云班课等信息化平台对学生在课堂上的学习过程、互动情况等展开评价,结合学生自评、互评等多种评价方式,利用数字信息化直观展示学生的整体情况,让教师在课程中帮助学生更清晰的认识自己学习笔记的检查20%(学生将学习笔记在规定时间内拍照上传信息化平台)评价标准为四级式A、B、C、D,要求完整、字迹工整、有重点、难点的标记学习材料的保存15%(教师线下课堂检查)评价标准为四级式A、B、C、D,要求完整、字迹工整、有错误工作页进行了正确的修改教师评价40%(借助信息化平台开展评价)学生出勤(10%)、学习成果展示(10%)、学习过程表现(师生互动、课堂练习、随堂测试等)(10%)、实操(10%)学生互评15%组内其他同学的评价(10%),组外同学的评价(5%)0学生自评10%自己对自己的评价
2.项目评价(50%)阶段测评项目评价以小组为单位,进行综合素质评价及每一个项目作品成果评价,针对每一个项目,累计各个工作阶段实施评分、素质评分、项目成果评分,将评分数据由学习平台进行统计,最终项目结束后按照评分公布优秀项目组,学生素质通过多维能力雷达图展示,实现学生的增值性评价,学生养成职业认同感其中《素质评分表》如下表所示,每个项目素质评价内容相同,各项目评价考核表详见附件1《项目评价考核明细表》,每个项目考核内容不同
3.课程评价(30%)期末考试理论考试(30%)试卷,从试题库中抽取100分的试题进行考核,试题类型有主观题:80%,填空题、选择题和判断题组成;客观题20%,简答题、论述题考核时间为90分钟、闭卷考核内容为学习内容中涉及到的所有内容,重点为技术类要求掌握的知识以及其它能够用试卷考核的内容项目测试(70%)为学生提供5个真实案例项目,每个小组随机抽取一个工作项目,并且按照任务书的要求完成1个完整的工作项目考核时间6节课前四节课为项目制作,最后两节课为项目结果说明展示考核人员企业员工和专业教师组成考核内容电商商品数据清洗与预处理、电商用户评论数据清洗与预处理、智能制造数据清洗与预处理、学生信。
个人认证
优秀文档
获得点赞 0