还剩7页未读,继续阅读
文本内容:
第五章数据处理和可视化表达知识点梳理
一、知识框架
二、知识点归纳
(一)认识大数据
1、大数据的概念是指无法在可承受的时间范围内用常规软件工具进行高效捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
2、大数据的特征
(1)从互联网产生大数据的角度来看(“4V”特征)
①大量(Volume)数据体量巨大
②多样(Variety)数据类型繁多
③低价值密度(Value)价值密度低
④高速(Velocity)变化速度快
(2)从互联网思维的角度来看
①样本渐趋于总体
②精确让位于模糊
③相关性重于因果
(3)从大数据存储与计算的角度来看
①分布式存储
②分布式并行计算
3、传统数据与大数据的区别
4、大数据带来的影响:
(1)积极影响
①方便支付
②方便出行
③方便购物与产品推介
④方便看病与诊断病情
(2)负面影响
①个人隐私泄露
②信息伤害与诈骗
(二)数据的采集
1、数据采集的三种基本方法
(1)系统日志采集法
①系统日志采集方法在目标主机上安装一个小程序,将目标主机的文本、应用程序、数据库等日志信息有选择地定向推送到日志服务器进行存储、监控和管理
②系统日志采集法的作用A监视系统中发生的事件O检查错误发生的原因n寻找受到攻击时攻击者留下的痕迹
(2)网络数据采集法
①网络数据采集方法通过网络爬虫或者网站公开API等方式从网站上获取数据信息
②网络爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件3其他数据采集法
2、Python网络数据采集第三方库numpyscipypandasmatplotlib
3、python导入第三方库的方式importmodele关键字模块名frommoduleimportname关键字模块名关键字方法名
4、数据的存储方式1把数据存在本地内部2把数据放在第三方公共或私有的“云端”存储
5、数据的保护1数据安全保护技术数据加密、数据备份、数据镜像、增加防火墙2数据的隐私保护
①数据收集时进行数据精度处理
②数据共享时进行访问控制
③数据发布时进行人工加扰
④数据分析时进行数据匿名处理
6、隐私泄露的解决办法
(1)技术手段数据隐私保护的四种方式
(2)提高自身保护意识
(3)对数据使用者进行道德和法律上的约束
(三)数据的分析
1、数据分析的步骤
(1)特征探索
①数据特征探索的主要任务对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分部特征,求最大值、最小值、极差等描述性统计量
(2)关联分析
①关联分析的概念分析并发现存在于大数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式
②常见案例超市某些商品捆绑促销,新高考选修学科的选择
(3)聚类与分类
①聚类与分类的概念一种探索性分析,不必事先给出分类标准,从样本数据出发,自动进行分类,进而达到“物以类聚,人以群分”的效果
②常见的算法K-Means算法,自下而上的聚类分析方法4建立模型5模型评价
2、数据分类1数据分类的概念是数据分析处理中最基本的方法,基于样本数据先训练构建分类函数或者分类模型,该分类器具有将待分类数据项映射到某一特点类别的功能2常见的数据分类技术贝叶斯分类技术三数据的可视化表达
1、数据分析的步骤1数据可视化的呈现类型
①探索类帮助人们发现数据背后的价值
②解释类简单明了地呈现数据
2、数据分析类型及其对应的可视化呈现1有关趋势的分析分组柱形图、堆叠柱形图、折线图、柱线混合图2有关比例的分析百分比圆环图、饼图、圈图、堆叠面积图3有关逻辑关系的分析散点图、雷达图、网络关系图、词云4有关空间关系的分析数据地图、动态热力图、3D动态显示图
3、数据可视化表达的工具Seaborm主要关注统计模型的可视化,基于且高度依赖于Matplotib.Bokeh能实现交互式可视化,独立于Matplotib能通过浏览器与数据驱动文档的风格呈现
三、练习题
1、从互联网产生大数据的角度来看,大数据具有的特征是(A)A、“4V”特征大量(Volume)>多样(Variety)、低价值密度(Value)>高速(Velocity)B、样本渐趋于总体,精确让位于模糊,相关性重于因果C、分布式存储,分布式并行计算D、没有特征
2、下列可以用于分析数据趋势的是(B)A、饼图B、折线图C、动态热力图D、词云图
3、数据分析的方法不包括(A)A、线性分析B、关联分析C、聚类分析D、数据分类
4、思考题如果要求你对本班同学喜欢看的书籍进行分类统计,并对其进行数据分析,你会怎么做?参考答案1
(1)项目需求分析(分析书籍分类统计的项目)书名、图书类别、出版时间、来源、同学姓名、性别等
(2)数据采集(能够选择合适的工具采集和保存信息)可使用文件共享或选择协同办公软件采集书籍信息记录,能够使用硬盘存储或云存储方式保存数据
(3)数据分析与可视化表达采用词云图、折线图或饼图等方式,按照图书类别分析出本班同学的图书喜好,能分析出某位同学的兴趣爱好参考答案2
(1)项目需求分析(分析书籍分类统计的项目)除参考答案1统计项目外,统计图书阅读时间分布、选择图书的理由等信息
(2)数据采集(能够选择合适的工具采集和保存信息)独立或者合作设计开发出数据采集系统或软件,能够采用云存储等方式保护数据,并且考虑到同学隐私数据的保护问题
(3)数据分析与可视化表达采用词云图、折线图或饼图等方式,按照图书类别分析出本班同学的图书喜好,能分析出某位同学的兴趣爱好;使用聚类分析做出群体划分;通过数据分析除个体阅读偏好、性格特征,能提出关联图书推荐建议或为职业规划给出建议;分析出阅读量与血液成绩之间的关系,判断其学业发展趋势
5、情景题智能手环作为一种智能可穿戴设备,可以记录用户日常生活中的锻炼、睡眠、身体状况等实时数据,并利用数据给用户提供健康建议请简要分析智能手环采集数据的过程,并分析智能手环是如何利用采集的数据给用户建议的参考答案1
(1)以运动为例,通过手环中的加速度传感器捕捉到人体的各项数据,并暂时存储在手环的存储器中,有网络时自动上传至服务器
(2)手环自身一般不具备分析功能,数据分析是在服务器端完成的服务器通过使用各种算法和科学缜密的逻辑运算对采集的数据进行分析,建立健康模型最终将这些数据转变成手环可读数字一一步数、距离、消耗的卡路里数值等呈现给终端用户,还可以通过与手环相连的手机端将用户的运动、睡眠、心率等数据可视化呈现出来并给用户提供健康建议参考答案2
(1)运动时利用加速度传感器是三轴加速度传感器,而且是通过捕捉人体三个维度的各项数据,并上传至服务器端进行统计分析或者增加实例,例如利用手环监测心率,主要通过光感进行,采用绿色搭配感光光电二极管实时监测流经手腕血液的流量来获取心率信息当用户的心脏跳动时,会有更多的血液流过用户的手腕,吕光的吸收量也会越大;心脏跳动间隙,血液流量减少,绿光的吸收也会减少
(2)实际上仅仅依靠手环采集数据做分析是不全面的,还需要结合用户的年龄、身高、体重、性别等个人信息进行数据分析,因此个人信息填写正确与否直接影响数据分析的准确性传统数据大数据数据量小数据体量巨大数据类型少数据类型繁多价值密度高价值密度低更新速度慢更新速度快追求数据精准性追求数据模糊性本地存储分布式存储。
个人认证
优秀文档
获得点赞 0