还剩4页未读,继续阅读
文本内容:
《网络爬虫技术》教学大纲Python课程名称网络爬虫技术Python课程类别必修适用专业大数据技术类相关专业总学时学时(其中理论学时,实验学时)642440总学分学分
4.0
一、课程的性质数字经济时代,数字资源已经成为互联网竞争和经营的生产要素和核心竞争力,而如何获取数据资源并基于此产出有价值的数据,已成为重要的资源配置数据企业能够收集、获取的数据越多,越可能在行业竞争中具有优势地位行业的发展带动岗位的需求,越来越多的爬虫工程师岗位涌现,工作中对爬虫技术的需求也越来越多网络爬虫技术是数据分析、数据挖掘、人工智能等技术的数据基础,是从互联网上批量获取数据的重要技术之一,特开设网络Python爬虫技术课程
二、课程的任务通过本课程的学习,掌握使用基本语法完成爬虫任务编写,使用库向指Python Requests定网址发送请求,或库对静态网页进行解析,库爬取动态页面;Xpath Beautiful Soup Selenium使用文件、数据库、数据库对爬取下来的数据进行存储;使用表单登JSON MySQL MongoDB录方法、登录方法实现模拟登录;使用和工具抓包,并分析终端Cookie HTTP Analyzer Fiddler协议;使用框架进行网页内容爬取,理论结合实践,每个章节中都配有多个案例,为学Scrapy生将来从事数据采集、数据爬取的工作、研究奠定基础
三、课程学时分配序号教学内容理论学时实验学时其它第章了解爬虫与爬虫环1Python122境第章爬虫基础知识准备2224第章简单静态网页爬取一一获取33610某企业官网基本信息第章爬取动态网页一获取图书4468基本信息第章模拟登录一一登录某企业官5524网第章终端协议分析一一获取某音6626乐客户端和数据PC APP第章使用爬虫——爬取7Scrapy746某企业官网新闻动态总计2440
四、教学内容及学时安排理论教学
1.章节名称主要内容教学目标学时序号.掌握爬虫的概念1和分类,了解爬虫的法律2问题.爬虫的概念
1.掌握爬虫爬虫的分类3robots
2.协议以及该协议的常了解爬虫与爬虫的合法性与协议
3.robots12见字段爬虫环境.网站反爬虫的目的与手段Python
4.了解反爬虫的目.爬取策略制定45的和常用手段.爬虫需要用到的编程环境、工具介绍
6.掌握制定爬虫策5略的方法.了解爬虫相关库6及环境配置的方法了解常用的网页
1.开发技术掌握网页的结构
2.了解网页开发技术
1.和常用的标签,并能了解网页的结构
2.完成简单的网页创建了解网页的分类
3.了解不同类型网
3.了解网页的数据结构爬虫基础知识准
4.页的区别,并能加以22熟悉请求方法与过程备
5.HTTP区分熟悉常见状态码
6.HTTP,掌握网页中常用4熟悉头部信息
7.HTTP的数据结构熟悉
8.Cookie掌握请求
5.HTTP方法和过程,并能分析协议中的头HTTP部信息.掌握浏览1Chrome器开发者工具的使用方法掌握使用
2.urllib3和库实现,使用浏览器查看网页Requests1Chrome请求的流程使用库实现请求HTTP
2.urllib3HTTP掌握的基.使用库实现请求
3.Xpath3Requests HTTP简单静态网页爬本语法和常用函数.使用解析网页4Xpath36取——获取某企,掌握创建使用库解析网页4Beautiful
5.Beautiful Soup对象的方法Soup,使用正则表达式解析网页6业官网基本信息,掌握正则表达式5将数据存储为文件
7.JSON解析网页的常用方法将数据存储到数据库
8.MySQL.掌握使用6JSON模块和库PyMySQL存储数据的方法,掌握逆向分析定1位动态数据所在网址.逆向分析判断网页类型1的方法,逆向分析获取动态网页信息2掌握库.使用库打开浏览器对象并
2.Selenium3Selenium的安装和配置方法访问页面爬取动态网页.掌握库3Selenium库进行元素选取、交互、页4——获取图书基
4.Selenium6的常用函数面操作、等待本信息.了解4MongoDB数据库和数据库
5.MongoDB MySQL数据库和数MySQL的区别据库的区别将数据存储到数据库
6.MongoDB掌握存
5.MongoDB储数据的基本方法.掌握表单登录和1登录的流程Cookie
2.掌握使用开发查找提交入口Chrome
1.者工具查找登录入口查找并获取需要提交的表单数据
2.模拟登录--------的方法.使用请求方法登录53POST2登录某企业官网.掌握发送.使用浏览器登录3POST4Cookie请求的方法基于表单登录的登录
5.Cookie.掌握保存和加载4实现登录的方Cookie法解
1.T HTTP Analyzer工具的基础知识掌握酷我音乐客
2.PC户端数据的爬取流程终端协议分析1,了解HTTP Analyzer工具.了解工具3Fiddler------获取某音.爬取酷我音乐客户端数据2PC的基础知识62乐客户端和PC了解工具
3.Fiddler,掌握4HTTPAPP数据
4.分析酷我音乐APP数据和工Analyzer Fiddler具的抓包和数据分析方法.掌握酷我音乐5App客户端的数据分析方法.了解框架各1Scrapy.了解爬虫框架1Scrapy组件的作用以及数据熟悉常用命令
2.Scrapy流向创建爬虫项目
3.Scrapy,熟悉的常用2Scrapy使用爬虫Scrapy.修改脚本4items/pipelines命令及其作用7——爬取某企业
4.编写脚本5spider掌握爬取
3.Scrapy官网新闻动态.修改脚本6settings文本信息的方法定制下载中间件
7..掌握下载器中间4•定制中间件8Spider件、中间件的定Spider制方法学时合计
24.实验教学2序号实验项目名称实验要求学时网络爬虫.在系统上安装Python1Windows/Linux PythonPyCharm12环境搭建MySQL、MongoDB数据库.使用进行代码编写、运行、安装卸载第三方库2PyCharm操作学会、数据库配置操作
3.MySQLMongoDB使用标签和样式创建网页
1.html CSS分析请求的过程爬虫基础知识准
2.HTTP
24.使用浏览器查看报文并分析报文的头部信息备3HTTP从浏览器中查看报文中信息的方法
4.Cookie简单静态网页爬
1.使用Chrome浏览器查看网页源码,并定位节点.使用和实现请求发送和接收响2urllib3Requests HTTP取——获取某企应结果3业官网基本信息
3.使用Xpath、BeautifulSoup或者正则表达式对响应的内10容进行解析.将数据存储到文件中4JSON,将数据存储到数据库中5MySQL判断网页类型
1..使用逆向分析的方法获取网页信息2库及浏览器驱动安装
3.Selenium爬取动态网页4,使用Selenium库爬取动态网页4——获取图书基
5.网页元素选取8本信息网页元素交互
6.网页页面操作
7.网页页面等待
8.将数据存储到数据库中
9.MongoDB.查找提交的入口1查找并获取需要提交的表单数据
2.模拟登录一一登
5.使用方法发送登录请求实现模拟登录43POST录某企业官网.从浏览器中查找4Cookie.使用模拟登录5Cookie安装工具,并掌握基本用法终端协议分析一
1.HTTP Analyzer一获取某音乐2,使用HTTPAnalyzer爬取酷我音乐PC端数据66PC客户端和APP
3.安装Fiddler工具,并掌握基本用法数据.使用分析酷我音乐并获取数据4Fiddler APP,.使用常用命令1Scrapy通过爬取网页信息
2.Scrapy使用Scrapy爬虫
3.修改items/pipelines脚本7——爬取某企业
4.编写spider脚本6官网新闻动态
5.修改settings脚本根据需求定制下载器中间件
6.根据需求定制中间件
7.Spider学时合计40
五、考核方式突出学生解决实际问题的能力,加强过程性考核课程考核的成绩构成二平时作业()10%课堂参与()期末考核()期末考试建议采用开卷形式,试题应包括发送+20%+70%,HTTP请求、解析静态网页内容、解析动态网页内容、数据存储为文件、数据存储至JSON UMySQL数据库、数据存储到数据库、使用表单和模拟登录、使用获MongoDB CookieHTTPAnalyzer取端数据、使用获取端数据、框架使用等部分,题型可采用判断题、选PC FiddlerAPP Scrapy择、简答、编程题等方式
六、教材与参考资料教材
1.池瑞楠.网络爬虫技术(第版)(微课版)人民邮电出版社.Python2[M].
2023..参考资料2江吉彬.网络爬虫技术人民邮电出版社.
[1]Python[M].
2019.黄瑞军.爬虫项目教程(微课版)人民邮电出版社.
[2]Python[M].
2021.黑马程序员.网络爬虫基础教程人民邮电出版社.
[3]Python[M].
2022.。
个人认证
优秀文档
获得点赞 0