大数据分析项目实践对北京朝阳区出租房房价的分析

佚名 · 0905

实践，分析，项目

文件大小20.66 KB

文件格式docx

分享时间2024-10-10

更多此类文档

立即下载

还剩6页未读，继续阅读

文本内容:

成果形式:成果名称对实践报告北京朝阳区出租房房价的分析大数据分析项目实践对北京朝阳区出租房房价的分析

一、实践目的

1.素养提升1知识的运用本次大数据分析项目的实践，不仅是对大二学习的数据库的一次复习，也是对我们自身使用统计学相关知识的考验通过这次实践，我们能更加熟练地掌握数据库相关知识，并且对统计学也能有更加深入的了解和体悟2相关软件的学习本次实践的目的是让我们体验并学会数据分析方面的小项目的实施以此为目标，我们主要学习了三个软件Mysql、FineReport和Python,并附带学习了Mysql的可视化工具Navicat,Python的编辑软件Pycharm以及简易数据爬取工具八爪鱼采集器3增强自身对社会的认识对于大部分学生，本次实践的实习单位，光环北京光环致成国际管理咨询有限公司，是学生第一次接触的正式岗位负责教学我们的老师也是企业的正式员工，根据员工的精神面貌和行为特点可以让我们对社会有一个更加直接和清醒的认识

2.提供资本1面试资本通过本次实践，我们学习了数据分析方向小项目的实施方式以及相关软件在数据分析方面的应用，这个项目也确实是初级数据分析，此次的经历可以作为实习经历填入简历中以丰富自己的面试资本，并由此提高自己的社会竞争力2调整自身在经过本次实践，对社会和职场有了模糊的印象后，可以对自己的生活方式做一个批判和改进，自己现在的生活方式是否正确以及是否做好了进入社会的准备通过调整来使自己更加适应社会

3.自我认识增强1确定就业方向本次实践提供的是数据分析方向的实习，从这次实习我们可以大致联想出从事数据分析行业的工作方式和生活方式，这有利于我们排除不适合我们的就业方向，尽量在就业前选出我们适合并且舒适的职业2调整未来规划通过本次实践，我们对数据分析领域的工作有了更加具体的认识，同时我们也认识到工作本身也伴随着工具的使用，因此在未来规划中加入对应工具的学习将会大大提升我们的社会竞争力，去争取更好的岗位

二、实践内容

1.Mysql的学习以及应用首先，我们学习了Mysql软件的安装以及跳过Mysql验证的代码编写；因为Mysql直接运行很麻烦，于是我们继续安装了Mysql的可视化软件Navi catPremium,并且后续操作都会在该软件中进行；接下来我们开始学习各项数据库相关的代码如查看、创建、删除数据库等，并简单复习了数据库的相关知识；再之后我们学习了Navi cat这一可视化工具在非编程时如何使用以及数据如何导入；最后我们学习了查询相关语句，该语句会在下一个学习的软件FineReport当中用到

2.FineReport的学习以及应用我们先学习了FineReport的安装，安装并不复杂；接下来我们学习了如何将FineReport与Mysql数据库相连接并且学习了简单的操作界面的使用；之后我们正式开始学习报表，首先是行式报表，过程很简单，是基础报表；然后我们进阶学习了交叉报表并了解了父子格和拓展方向的概念；最后我们学习了决策报表，通过决策报表我们可以制作包括折线图、和流向地图等一系列图表，同时我们也可以通过制作混合型决策报表把上述图形汇合在一个报表内

3.Python的学习以及应用我们首先学习了Python的安装，Python本身是一门编程的语言，因此我们又安装了JetBrains PyCharm来对Python进行编辑操作对于Python的学习其实就是对一串从网页爬取数据的代码的学习，在为期四天的Python学习中，这串代码被分到三天的课程中在这之后，老师带我们从网页源代码中提取需要信息并设置Python的伪装最后，以电影网站为例，我们学习了如何从网上爬取相应的字段信息

4.数据分析小项目的实践在完成数据爬取、数据收集和数据处理的课程后，下一步要做的是具体项目的实践，按照要求，我们需要使用上述三种软件或者给出的数据去完成一份最终报表

三、实践过程

1.Mysql1安装我们通过老师下发的文件获得安装包，安装时语言选择utf8o在安装过程中我们要设置密码，但由于部分同学的电脑由于版本问题导致密码无法编辑，于是我们学习了如何通过修改Mysql的配置文件my.ini来实现跳过密码验证的功能2数据库命令语句在安装完成后，我们就开始了对Mysql的数据库的命令语句的学习数据库的命令语句主要包括对数据库、表和数据的直接处理三类对数据库的处理有查看数据库、切换数据库创建和删除数据库，主要用到了show,use,create,drop对表的处理有c查看表、查看表结构、创建数据表、删除表内数据、删除全部数据保留表等，比如查看表结构使用的查询是:show tables;最后是对数据的处理，有插入数据、查看数据、修改数据有/无关联条件、查询所有数据，比如查询所有数据select*from表名；3Navi cat非编程语句的使用Navi cat非编程语言除了可以实现简单的表的创建与删除之类的操作，最重要的就是与Mysql建立连接，使得可以对Mysql中的数据库进行可视化操作如果无法建立连接，一般是用户名和密码的问题，可以通过修改配置文件来跳过验证4Navi cat内编程语句的使用Navi cat非编程语句可以更加快捷地实现简单的Mysql语句，比如表格数据库的建立删除等，但更加复杂的数据处理则必须用编程来实现比如，插入数据insert into表名字段1,字段2,字段3value1,2,3;修改数据关联条件update empset empnc=123where empnc=1;单行数据查询select*fromemp where sal=5000;运算符查询select*from empwhere sal5000;别名的使用select empnoas编号，ename as姓名from emp;and关键字的使用select*from empwheresal=5000and sal=30005函数的学习在Mysql的学习时间中，最后学习的是函数一共介绍了五种函数，分别是count函数、max函数、min函数、avg函数和加密函数前四种函数很简单，分别是用来计数、求最大、求最小、求平均的值得一提的是加密函数，老师一共介绍了两种加密方式:select passwordroot;输出后会得到一个32位的字符串,另一种也就是换了个算法:select MD5root;

2.FineReport1安装FineReport的安装包较Mysql的要大，因此不使用网上下载的形式，安装包通过U盘拷贝的方式在学生中传递2与数据库的连接在服务器选项中选择定义数据库连接，选择JDBC模式，然后在数据库类型中选择Mysql的数据库类型之后要对URL进行修改，在localhost后要加上”3306”并在最后加上要连接的数据库名字3行式报表的学习行式报表在报表制作中是非常简单的基础报表在新建报表后，导入数据库,将选中的变量拖拽至同一行就完成了行式报表的制作，为了美观可以继续编辑行标题以及自定义边框在教学中还有分界线的概念，文本中的数据长度超过分界线的部分会被强制分页分界线无法通过直接拖拽来进行操作，必须选定模板中的页面设置，通过自定义纸张大小类型来改变4交叉报表的学习交叉报表比起行式报表多出了列变量在制作交叉报表前，我们先学习了单元格拓展方向和父子格这两个概念单元格拓展方向是指变量所附带的数据排列方向，有横向和纵向两种，根据交叉表的最终表现要求的不同会需要使用不同的拓展方向父子格是指两个单元格的从属关系，子格根据父格来进行数据排列，但父格不受子格的影响父子格也分为左父格和上父格，分别是对应父格相对于子格的位置5决策报表决策报表主要是把数据制作成各种图表，比如饼图、地图、雷达图和词云等在课时中，我们主要学习了地图新特性、点地图、柱状图、饼图和混合型报表，我主要介绍混合型报表混合型报表本身是一个空模板，需要你将你想要制作的图形拖入相应位置中在制作混合型报表时，常常会遇到数据无法直接使用的情况，这时就需要在左下角的数据库查询中手动输入代码来对数据做一些处理在这一过程中，我们新学到了oeder by语句、desc limit以及union all语句

3.Python1安装Python的安装相对简单，要注意的只有如果曾经安装过旧版本，那在安装新版本前必须清除注册表2数据类型的介绍对于我们将要实现的项目，我们只用接触到Python中相对简单的数据类型，即int整数、float小数类型、str字符串类型、字典类型，相应也有语句，如b=int a,意思是把字符串b转化为int类型并赋值给a字典类型是一个字3在网页获取数据的方式在网页中获取数据需要用到网页的代码，我们直接看到的数据图片都会在代码中显示，而如何在复杂的代码中把需要的数据爬取出来就是我们学习Python的原因一般除了IE浏览器，普通浏览器都会有审查元素的功能，如果没有找到也可以通过按F12唤出在网页中我们进行的操作不多，主要把用户名和相应的代码复制了，剩下的大部分还是在Pycharm中通过编程进行4爬取数据的数据代码#发送请求#引入导入使用urllib的包ttrequest的模块request.pyfrom urllibimportrequestfrom bs4import BeautifulSoupfor i in range10:page=str i*10url=^https://maoyan.com/board/4offset=zr+pageheader={“User-Agent〃:〃Mozilla/

5.0Windows NT

10.0;W0W64AppleWebKit/

537.36KHTML,like GeckoChrome/

49.

2623.221Safari/

537.36SE

2.X MetaSr

1.0}#在reques t模块中,有个大写的Reques t,可以封装headers信息r=request.Requesturl,headers=headerftreques t中的url open模块,可以打开网页#把封装好的信息放到urlopen中#urlopen发送请求接受响应response=request,urlopenr#读取响应信息html=response,read.decode#prin th tml并解析响应解析源代码#创建soup对象参数1等待被解析的对象参数2解析器soup=BeautifulSouphtml,html.parser fflxmlindex=soup,selecti・board-index name=soup,select^p.name astar=soup.selectp.starreleasetime=soup,select^p.releasetime/7img=soup,selectimg.board-img〃foriinrange10:print index[i].text,name[i].text,star[i].text.strip,releasetime[i].text,img[i].get^data-src^

四、实践体会经过十天的校内短学期企业项目实习实践，前三天通过对mysql的学习对数据库做了初步的了解，了解了数据库的重要性，以及数据库在数据统计中所占的重要地位对数据库做了一定的了解之后的三天我们开始了帆软的学习，FineReport报表软件是一款纯Java编写的、集数据展示（报表）和数据录入（表单）功能于一身的企业级web报表工具，它“专业、简捷、灵活”的特点和无码理念，仅需简单的拖拽操作便可以设计复杂的中国式报表，搭建数据决策分析系统我们通过对帆软的学习，知道了如何使我们的数据库中的数据具体的表现出来，以及如何让数据能过更好的表达于人然后，只会数据的表达是远远不够的，我们还需要收集数据，学会更快的收集我们所需要的数据所以最后四天，我们学习了使用python,学习如何使用python爬取数据Python爬虫即使用Python程序开发的网络爬虫（网页蜘蛛,网络机器人），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据通过对python的学习，我们能够加快对数据的收集，以及对数据的处理，加强我们得统计数据的效率Python就是对数据的爬取，可以让我们直接在网页上高效地获取数据，恭喜我终于获得了除了统计年鉴之外的数据整理方式主要是python能主动翻页,这样之前繁杂的数据也有了短暂收集完毕的可能Mysql是一个数据库，通过对它的学习，我多少回忆起了一些大二学习的数据库的知识Mysql和python一样，主要靠的是编码，这也算是我与编码的第一次接触Finereport主要就是一个报表制作器，它能做出非常好看的报表，简单易懂，主要还是好看通过十天的学习，我觉得我对统计学的了解得到了很大的升华，从而进入了统计的一个新领域尽管这十天的学习仅仅是学习了这三款软件的皮毛，然而通过对它们的了解，对未来有一个初步的规划，在这个过程中继续对这些软件进行深入的学习人要走进知识宝库，不可能一蹴而就我们要学习的东西太多了，所以我们更应该积极进取，努力学习培训学习虽然已经结束了，但我知道有更重的学习和工作任务在后面思想在我们的头脑中，工作在我们的手中，坐而言，不如起而行！路虽远，行则将至;事虽难，做则必成。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小20.66 KB

文件格式docx

分享时间2024-10-10

更多此类文档

立即下载