还剩5页未读,继续阅读
文本内容:
Python爬虫大数据采集与挖掘课程教案《爬虫大数据采集与挖掘》微课视频版,第二版,清华大学出版社,Python
2025.1总课堂学时根据实际情况调整36第章概述共学时12课次学时12对应章第章概述11教学内容互联网大数据特征、技术、应用与发展趋势2教学方式课堂讲授3教学重点互联网大数据处理的技术体系、合规性4教学难点爬虫的个技术特性55教学过程结合搜索引擎、舆情监测等讲解互联网大数据的作用、特征、技术体系、6合规性要求等作业无7第章页面及相关处理技术共学时2Web2课次学时22对应章第章12教学内容页面相关规范、正则表达式、相关编程基础2Web Python教学方式课堂讲授3教学重点网页编码体系、正则表达式4教学难点正则表达式提取超链接5教学过程结合实际网页,介绍常见标签、页面编码及处理方法6作业思考题、、7235第章应用架构与协议共学时3Web2课次学时32对应章第章13教学内容服务器相关知识、协议、协,议等2Web Robots HTTP教学方式课堂讲授3()教学重点协议、报文及查看方法4Robots HTTP()教学难点对请求许可的定义、请求的头部信息5Robots HTTP()教学过程结合实际网页,介绍协议、报文、及查看方法()6RobotsHTTPCookies7作业思考题、35第章普通爬虫页面采集技术与实现(共学时)4Python4课次(学时)42()对应章
14.1-
4.3o()教学内容普通爬虫体系结构、异常处理、超链接提取2()教学方式课堂讲授+实践3()教学重点爬虫体系结构、异常处理4requests.get^()教学难点请求的头部信息及在中的使用、相对链接和绝对链接5HTTP requests.get的差别()教学过程结合实际静态网页的采集,介绍请求头的在程序中的使用,介绍6HTTP内容获取和超链接提取、针对不同网站进行异常错误处理演示等()作业思考题、734课次(学时)52()对应章
14.4-
4.5()教学内容、爬虫策略与实现、爬虫的多线程技术2robots()教学方式课堂讲授3()教学重点包的使用、两种遍历策略、算法4Robots PythonPageRank()教学难点对于一个网站的遍历、多线程技术理解与实现5Web()教学过程编程调用,结合某个抽象连接图介绍两种遍历策略及相关数据6Robots结构和实现、算法、爬行策略的综合考虑、多线程技术实现PageRank()作业思考题、768第章动态页面采集技术与实现(共学时)5Python4课次(学时)62()对应章第五章1()教学内容动态网页的形式、采集和实现2()教学方式课堂讲授+实践3()教学重点的分析与使用4Ajax()教学难点的分析与使用、及使用5Ajax Cookie()教学过程结合实际动态网页的采集,介绍的跟踪分析、的使用6Ajax Cookies()作业思考题、734课次7学时2对应章第五章1教学内容使用参数和模拟浏览器进行动态网页采集2URL教学方式课堂讲授3教学重点带参数的、模拟浏览器技术4URL教学难点和的区别、携带参数的方法5POST GETURL教学过程结合实际动态网页的采集,介绍请求;针对登录型复杂页面介绍模6URL拟浏览器的配置、使用方法作业思考题、725第章信息提取与实现共学时6Web Python2课次学时82对应章第六章1教学内容信息提取、存储、不同的提取包选择介绍2Web Python教学方式课堂讲授3教学重点:的使用,的解析4BeautifulSoup JSON教学难点、的编写、的存储5CCS XPathSQLite教学过程结合实际网页介绍的使用,介绍三种存储方法6BeautifulSoup作业无7第章主题爬虫页面采集技术与实现共学时7Python2课次学时92对应章第七章1教学内容主题爬虫应用场景、技术框架、主题相关技术2教学方式课堂讲授3教学重点主题爬虫技术框架、主题相关度计算4教学难点主题表示与相关度计算5教学过程结合实际新闻频道,介绍与预设主题相关的页面采集6作业无7第章爬虫与实现共学时8DeepWeb Python2课次:学时102对应章第八章1()教学内容爬虫应用场景、技术框架、相关技术2Deep Web()教学方式课堂讲授+案例分析3()教学重点爬虫技术架构与实现4DeepWeb()教学难点爬虫健壮性的技术5DeepWeb()教学过程结合图书查询,介绍知识库、表单、结果处理方法6()作业无7第章微博信息采集与实现(共学时)9Python2课次(学时)112()对应章第九章1()教学内容微博信息采集2()教学方式课堂讲授+案例分析3()教学重点微博使用、微博爬虫4API()教学难点微博的调用方法、微博自动登录5API()教学过程结合个人微博,使用采集个人微博信息;针对微博热搜等,介绍微6API博爬虫技术()作业无7第章反爬虫技术与爬虫对抗技术(共学时)102课次(学时)122()对应章第十章1()教学内容反爬虫与爬虫对抗2()教学方式课堂讲授+小组讨论(爬虫与反爬虫两组)3()教学重点爬虫检测、爬虫突破检测4()教学难点爬虫特征5()教学过程结合新浪股票、百度等网页,介绍反爬虫机制以及突破爬虫检测的若干6手段()作业无7第章互联网大数据处理与挖掘技术(共学时)118课次次(学时)2()对应章
111.1-
11.2()教学内容文本预处理与向量空间模型2()教学方式课堂讲授3()教学重点词汇切分、表示4VSM()教学难点的计算5TF-IDF()教学过程运用实例介绍词汇切分方法和的应用,结合简单文本集进行6jieba VSM表示()作业无7课次(学时)142()对应章
111.3-
11.4()教学内容分布式表示、文本分类2()教学方式课堂讲授3()教学重点分布式含义、分类器(基于向量空间和基于概率模型)4()教学难点基于概率文本模型的分类器5()教学过程结合具体例子介绍文本分布式表示、分类器的原理和实现6Python()作业无7课次(学时)152()对应章:1ll.5-ll.7o()教学内容聚类分析、主题建模和情感分析2()教学方式课堂讲授3()教学重点聚类与主题模型及其应用场景4()教学难点主题建模的随机变量依赖5()教学过程结合实例或模拟数据介绍聚类分析,结合实例介绍主题建模及实现;结6合的语料介绍分类器在情感中的使用方法SnowNLP()作业无7课次(学时)162()对应章
111.8-
11.10o()教学内容社交网络、时间序列和可视化2()教学方式课堂讲授3()教学重点社交网络、时间序列分析技术和应用场景4()教学难点时间序列预测方法5()教学过程结合实例介绍、的应用,结合股票交易数据介绍时间6NetworkX Pajek序列预测过程()作业无7第章互联网大数据处理与挖掘技术的应用(共学时)124课次(学时)172合运用对应章第十二章新闻舆情分析教学内容互联网大数据采集与挖掘技术的综合应用教学方式课堂讲授+学生作业交流点评教学重点新闻舆情分析原型系统构建教学难点新闻采集技术、主题建模、文本预处理、关键词分词及可视化的综结合具体案例,按照软件系统开发的过程介绍每个环节及主要技术教学过程:6作业无7课次学时182对应章第十二章酒店评论文本分析或自动化测试Web教学内容互联网大数据采集与挖掘技术的综合应用教学方式课堂讲授+学生作业交流点评教学重点酒店评论文本挖掘的原型系统构建教学难点评论信息采集、提取与存储,评论文本聚类与可视化等的综合运用教学过程结合具体案例,按照软件系统开发的过程介绍每个环节及主要技术6作业无7。
个人认证
优秀文档
获得点赞 0