还剩3页未读,继续阅读
文本内容:
成果形式实践报告成果名称简易网站爬取程序实践报告
一、实践目的在当前竞争激烈的社会环境中,如何在万人之中脱颖而出是非常关键的一个问题,一般认为的是比自己的竞争对手多拥有一门技术就是制胜法宝,拥有一项独特的技能在职场上能很快引起他人对你的印象,当你能给别人留下一个深刻影响的时候你就成功了一步了,如若这项技能能够在你的工作中大放异彩便是如虎添翼,锦上添花,它会在工作当中或许会有意想不到的帮助所以本次暑期实践主旨在初步掌握python的使用方法和基本语法并且了解其用处;了解什么是爬虫并爬取一个网页培养个人对于python的兴趣,有意向的话可以深入学习以掌握一门新的技术
二、实践内容
1.项目的分析通过实践去爬取目标网页信息以进一步了解网络爬虫原理和工作内容用一个通俗易懂的比喻来说,我们把互联网比作大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是这只小蜘蛛,能够灵活准确地在蜘蛛网上抓取到自己想要的猎物,而这些猎物也就是我们所说的数据
2.项目的设计
1.写一个简单的html网页
2.总结讲的爬虫过程,看发下去的网页
3.新建一个
1.py文件,输入import requests,如果报错,自己配置电脑Requests
4.解释倒入的五个库和包import requestsfrom requests.exceptions importRequestExceptionimport reimport jsonfrom multiprocessingimport Pool
5.设计一个能够爬取猫眼电影网前100部受欢迎电影排名及其名字的程序
6.项目使用说明该程序可以将猫眼网站上的能够爬取下来的信息再结合我们所需的信息通过代码的形式表现出来,实现能够快速从该网站上爬取我们需要的信息,做到精简有效,已与查询和参考
三、实践过程的目的
1.了解Python编写软件,并学习基础代码作为python语言的开发软件,了解各部分功能,才能给我们在后续的学习过程操作中打下坚实的基础,换句话讲,只有熟悉了工具,才可以做出好的作品随后又通过熟悉基础的语句循环更进一步的了解Python的运作原理及用法
2.在老师带领下用Python制作建议网站和爬虫代码在拥有基础功之后便开始逐步加深,曾经学过的word制作网站在Python中适用性不大,但相对而言,用Python做网站更加简单易懂,基于Python的内置代码很容易就能用简洁明了的代码写出一个网站;爬虫则是基于5个倒入的库和包的基础代码下进行,实现能够从一个网页爬取基础的信息的代码
四、实验总结社会实践是如今大学生课外教育的一个重要方面,该项活动也影响着许多学校对于学生的一部分平时成绩的评定,同样它也是大学生培养自我能力的一种重要渠道,所以对我来说,在暑期去参加实践活动使我能够更深层次的认识社会、了解社会作为一名当代大学生,学习不应只停留在知识层面,也应当融入实践,俗话说“实践是检验真理的唯一标准”我们的实践应该根据自身所需要提升的能力来制定,不是为了实践而实践,而是应当注重实践的过程,并从中锻炼自己、提高能力我相信,实践出真知,马云曾在一次讲座中就大学生社会实践报告对学生们说“当代大学生要想有所成就,就应该学好自己的专业或者某一自己擅长的领域,并在努力成为这一领域的佼佼者”当前的社会竞争愈发激烈,人与人之间的关系受到物质化的冲击,在这个人为刀俎我为鱼肉的残酷社会中,拥有一技之长极其重要据不完全的统计,如今多数的普通工作职位就有约合40个大学生或者硕士生竞争,若是我们不能磨砺出一项属于我们的独特技能,便会被这个社会所淘汰就企业而言,企业都要求应聘者在某一领域拥有特长,企业家看中的更多在于是求职者在专业领域的影响力和实际操作能力而非知识层面当今社会分工繁琐,一个博而不精的人无法成为21世纪的强有力的佼佼者,所以正值青春的我们应当博览群书,积累多方面的技艺,在今后的工作中有的放矢,发展成为全方面的人才学习的过程本身就是一个取长补短的过程,本次的实践是学习计算机语言的一种python,python是一种计算机程序设计语言,是一种面向对象的动态类语言,最初被设计用于编写自动化脚本,现在越来越多用于独立的、大型项目的开发这次实践是我第一次接触python,也是我第一次接触计算机语言,对于我来说是一个不小的挑战同样,这次的实践只有两个周的时间,而我需要在这段时间学习python的基本用法并且能够爬取目标网页所需要的信息,对我来说无疑是一个不小的难题通过这些基础的学习实践,让没有基础的同学能够循序渐进,能够更好地融入到课堂,能够跟上课堂的步伐,熟练地运用python软件并了解基础语法,并在此基础上理解到python语言的严谨性和魅力,为我们在今后学习python或想要更加深入的同学打下坚实的基础,感受到python这门语言的魅力而在这个过程中,能够取其精华去其糟粕的人便能掌握先机,快人一步,如若是工作中拥有这一项技能,对于个人,对于他人,领导对你的印象都是一个不错的加分项Python特点易于学习,易于阅读,易于维护,拥有一个广泛的标准库,互动模式,可移植,可扩展,巨大的数据库,GUI编程,可嵌入有了一周的学习经验以及python的基础之后,老师上课的内容和布置的作业的难度开始急剧上升,有不少对我来说有困难的题,比如说是做一个99乘法表,用户登录三次重试机会等等,这些都是我在编写的时候遇到的困难,所以这个时候我往往会向我的同学或者老师寻求帮助,通过沟通交流得知自己的不足以及自己为,学习就要保持一个虚心请教的态度才能突破现在的自我,精进自己的技艺之后我们又了解了网络爬虫的定义网络爬虫,又有网页蜘蛛,网络机器人等称呼,是一种按照一定的规则,能够自动地,有目的性地抓取万维网信息的程序或者脚本,而这些信息脚本可以提供给他人进行类似于数据分析的工作网络爬虫的产生背景21世纪至今,互联网快速发展,逐步成为人民生活不可分割的一部分,互联网成为大量信息的载体,能够有效地攫取并加以应用这些信息便成为一个艰巨的挑战传统的搜索引擎普遍是作为一个人们检索信息的辅助工具,这也仅仅是用户通过互联网的了解世界的入口,也就是说这类的普通引擎难以快速地跟上当代人们的需求,无法做到个性化这一特点如1各方面领域、不同需求的用户往往对所需信息的选择有不同的搜索目的与需求,普通的搜索引擎给予的反馈结果大都包含用户们不需要的内容2通用搜索引擎的目标是广泛的人群,而非少数,尽可能扩大的网络覆盖率才是他们的重中之重,而搜索引擎服务器资源与网络数据资源相比是相对极其有限的,故而两者之间的矛盾逐步加深缺难以有有效的方法去解决3万维网数据形式的丰富性和网络技术的不断发展,聊天信息、图片、视频、数据、音频多媒体等多方位的各类数据大量出现时,普通的搜索引擎在处理这些含量密集且复杂的信息数据时,具有一定数据结构也无能为力,难以达到精确地发现和用户需求的地步4一般的搜索引擎基本上只是提供基于关键字的搜索,却难以对支持根据实际语义的信息进行准确的查询,这和我们需要的东西大相径庭就好比如今手机市场主流是安卓,IOS缺很少有Windos系统的手机,仅仅蛮族大部分普通人的需求却无法进行专业化和精简化这些通用性搜索引擎也存在着部分局限性,为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生聚焦爬虫是一个能够自动下载网页的程序,类似于我们所说的脚本,它能够精确地根据目标信息进行抓取,选择出万维网上的网页与相关的链接,获取我们所需要的重要信息与一般定义上的爬虫不同的是,这类爬虫并不追求大的覆盖,而是将目标定为抓取与我们所特定主题内容相关的网页,以便我们能准确找到我们需要的信息随后我们有只做了一个简易的登录网站,而在实践课结课的前一天我们对我们所学的知识惊醒了简单的梳理,然后完成我们最开始定下的目标从目标网页上爬取需要的数据,其基本由下面的步骤完成导入网络进行下载import requests,导入网络进行下载过程有报错异常,然后倒入一个报错库fromrequests,exceptions importRequestException,导入RE importre,爬出来的所有图片,文字存在这里importjson,进程池frommultiprocessing importPoolpython然后后续的程序我们在老师的辅导下逐步完善o在这两个周能够学习到关于python的东西不过是沧海一粟,一方面在于这次实践活动的时间的确有限,没有充足的时间去更加全面的掌握该门语言的更多魅力,即便我们把能利用的时间的较多一部分投入到Python的学习中,但是效率并不如我们预期的那样理想,大概是因为我是第一次接触计算机语言的缘故,对于基础语言和语法并不能达到炉火纯青的地步,致使我遇到问题时大都一脸茫然,无从下手,轻言放弃,于是就去借助百度查看别人的代码或者看同学的代码,这只能说明我的基础知识掌握的还是不够牢固,解决问题的能力几乎为零这就好比写作文,别人拿到个题目就有一个良好的思路,加上自己的才思开始奋笔疾书,可我想了半小时,也不知道自己应该怎样抓住读者眼球,让自己的文章妙笔生花说实话有时候自己也挺有挫败感,第一,代码都是抄别人的,自己理解不到位;第二,需要花上比他人更多的时间才能完成相同的任务量,这显得我的工作效率低下不过总的来说在这次的暑期实践活动的整个学习中也是很开心的,和同学一起讨论代码怎么写,如何做到简介精炼,哪里出了错应该怎样去修改,又或者是将一段代码修改成更加准确符合标准的代码,即便是遇到一些不会的,老师也会细心解答止匕外,我认为计算机里语言是一个更加注重实践的学科,而python语言恰好也是比较注重严谨的一种,在掌握了基础的python语言之后,需要不断地去尝试才能逐步清楚准确地掌握python语言的运用以及在不同的地方哪些语言表达更加完善,达到言简意赅的境界,特别是python这种对于计算机语言要求特别严谨的这种计算机语言是一门注重逻辑性的学类,在计算机语言里的每一个代码都会起到一个承前启后的作用,一步接一步,然后才能得到最终的结果总的来说,此次暑期的实践经历让我对自己的学习生活进行了反省,让我受益匪浅,更加明确了自己的奋斗目标和决心,本次工作经历也让我学会保持一个主动乐观的态度去面对繁重的学习生活,不管前进的道路上又什么曲折,保持主动的态度永远是首要的丰富的暑期实践生活已经过去,我也即将再次回归到学校,毋庸置疑的是我必须努力奋斗,不断学习充实自我,加强个人身体的素质,增强体质锻炼,让自己劳逸结合,做到松弛有度综上,大学生在步入社会之前需要积累的远远不止书本层面上的知识,除此之外还需要踊跃参加社会实践,积累丰富的社会经验大学生更多地应当在社会实践中培养独立思考的、独立工作和独立解决问题的能力,囤积正能量去发现自我,改变自我,超越自我通过参加不同的实践性活动巩固所学的理论知识,增强自身在书本以外的实际经验的积累,去触及的那些更多的,新鲜的知识和技能毕竟我们学习的最终目的是将知识转化成真正的能力要依靠实践的经验和锻炼,否则永远只是夸夸其谈,授之以鱼不如授之以渔便是这个道理日益严峻的就业形势和日新月异的社会,我们这些大学生应该转变现有观念,不要简单地把暑期实践作为挣钱或者是积累社会经验的手段,更重要的是借机培养自己的创业和社会实践能力,这既是新时代的社会对于我们的要求,也是国家对于新型人才的筛选如今的招聘单位越来越看重大学生的实践和动手能力以及与他人的交际能力,毕竟到了工作岗位上,纸上得来终觉浅,而实践动手,擅长沟通,有广阔的人脉,这些却能成为工作中巨大的助力作为一名当代大学生,只要是自己所能承受的,就应该把握所有的机会,肯于吃苦,勤于吃苦,坚持严格要求自己,到了今后步入社会与他人竞争就多了更多地一份资本;相反,倘若坐以待毙,没有奋发向上的干劲,缺乏多方面技艺的人,在今后的道路上会四处碰壁也是常有的,所以吃得苦中苦,方为人上人。
个人认证
优秀文档
获得点赞 0