还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据及其处理课程引言——探索数据世界的奥秘掌握现代社会的核心竞争力从基础到应用的全方位学习之旅什么是数据?基本定义与信息区别客观事物的符号表示数据是原始记录可被记录、存储和处理信息是经处理有意义的数据数据的分类定性数据定量数据描述性特征可测量数值12如颜色、性别如身高、温度非结构化数据结构化数据无固定格式有固定格式43如图像、视频如数据库表格数据的来源传感器温度、湿度、光照等环境数据互联网用户行为、社交媒体内容数据库企业、政府存储的结构化数据人工调查问卷、访谈、实验观察记录数据的采集方法传统采集人工记录问卷调查面对面访谈自动化采集传感器监测网络爬虫系统日志抽样采集随机抽样分层抽样便利抽样全量采集人口普查全面调研系统性监测数据采集的注意事项真实性确保数据来源可靠完整性避免缺失和截断及时性保证数据的时效价值数据采集工具问卷调查工具网络爬虫传感器设备问卷星、爬虫、设备、环境监测器Python ScrapyIoT框架SurveyMonkey移动应用位置跟踪、健康监测应用数据采集实例社会调查1问卷设计明确调查目标,设计合理问题实施调查确保样本代表性数据验证检查完整性和有效性数据采集实例物联网设备2感知层传感器采集温度数据网络层数据传输至云服务器处理层实时分析温度变化应用层智能控制和预警数据存储基础文件存储、、文本文件CSV Excel关系型数据库、MySQL SQLServer数据库NoSQL、MongoDB Redis云存储阿里云、OSS AWSS3数据整理的意义原始数据整理过程整理后杂乱无章,难以利用清洗、转换、结构化可用性高,分析便捷数据清洗与预处理问题类型处理方法适用场景缺失值均值填充连续变量缺失值众数填充离散变量异常值箱线图检测统计分析异常值法正态分布数据Z-score数据编码与标准化编码规则制定数据转换建立统一标准将原始数据转为规范格式持续维护一致性检验更新编码字典确保编码无误数据去重与整合识别重复数据通过唯一键查找标记冲突记录筛选不一致内容选择保留策略最新、最完整或合并执行去重操作或工具实现SQL数据分类与分组处理按时间、地区、类别等维度分组分组统计计算平均值、总和等指标数据整理实例表格归整11排序整理按关键字段排序2筛选有效数据去除不符合条件的记录3格式统一统一日期、货币格式4数据透视生成汇总报表数据整理实例文本格式转换2数据的表示方式概述表格结构化数据,易于查询图表视觉直观,趋势明显文本详细描述,适合定性信息地图地理分布,空间关系表格表示表格结构技巧Excel/Sheets行(记录)冻结窗格••列(字段)条件格式••单元格(数据点)数据筛选••表头(字段名)公式计算••图形表示柱状图1垂直柱状图水平柱状图分组柱状图比较不同类别数量类别名称较长时使用多维度比较分析图形表示折线图2图形表示饼图3图形表示散点图与热力图4散点图特点热力图特点展示两变量关系颜色强度表示数值••识别相关性展示多维数据••发现异常点识别模式和聚类••图形表示箱线图5构成元素应用场景中位数线对比多组数据分布四分位数箱体识别异常值上下边界分析数据离散程度异常点标记优势展示分布特征直观比较数据组有效识别异常数据图形可视化案例分析选择合适图形类型关注数据特点和目标受众避免过度设计和信息过载数据分析基础描述性分析推断性分析分析步骤概述已有数据特征基于样本推断总体明确问题
1.收集数据
2.如均值、分布、频率如假设检验、置信区间清洗处理
3.回答发生了什么回答为什么发生分析建模
4.结果解读
5.描述性统计量统计量定义特点均值所有值的平均受极值影响大中位数位于中间的值不受极值影响众数出现最多的值反映最常见情况极值最大值和最小值反映数据范围方差标准差离散程度指标衡量稳定性/数据分布及其表示正态分布偏态分布多峰分布均匀分布钟形曲线,对称分布左偏或右偏,不对称多个峰值,多子群体各值概率相等数据相关性分析相关系数计算皮尔森、斯皮尔曼等方法散点图可视化直观展示变量关系相关矩阵构建多变量相关性综合分析数据聚类与分类概述聚类分析分类分析常用方法应用场景无监督学习,自动发现有监督学习,预测类别、决策树、客户细分、图像识别、K-means数据组标签文本分类SVM数据降维与特征提取主成分分析特征选择降低数据维度确定最重要变量建模优化降维可视化提高算法效率便于理解和展示数据挖掘基础发现洞察从数据中提取有价值信息1挖掘算法2关联规则、聚类、分类等模式识别3发现数据中隐藏规律人工智能和机器学习概述与数据关系常见类型AI AI数据是的燃料监督学习•AI•算法是的引擎无监督学习•AI•洞察是的产出强化学习•AI•深度学习•简单模型应用线性回归数据准备收集自变量和因变量建立模型拟合最优直线评估模型计算平方等指标R应用预测使用模型估计新值简单模型应用决策树根据特征自动分支结构清晰直观易解释适合分类和回归问题数据处理中的常见误区样本偏差样本不代表总体选择性收集导致结论偏差过拟合模型过于复杂对训练数据拟合过度欠拟合模型过于简单无法捕捉数据规律因果关系混淆相关不等于因果忽略潜在混淆变量数据安全与隐私保护数据脱敏加密敏感信息如身份证号加密传输确保数据传输过程安全权限控制严格管理数据访问权限合规要求符合等法规要求GDPR大数据处理工具简介Hadoop SparkHive分布式存储与计算框架内存计算引擎,速度快数据仓库工具,接口SQL云计算与数据处理
99.99%TB可用性存储容量高可靠云服务几乎无限扩展1000+60%服务种类成本节约丰富的数据处理工具相比自建数据中心国内外数据处理实例阿里巴巴双谷歌搜索11每秒万笔交易日均处理亿搜索•54•50实时大屏数据可视化毫秒级搜索结果••弹性云计算资源海量数据索引••医疗领域数据应用案例疾病预测利用机器学习预测疾病风险诊疗方案优化2数据驱动的个性化治疗医院资源调配优化床位和医护资源分配医学研究大数据支持的药物研发金融领域数据应用案例客户画像多维度分析客户特征风险评估机器学习评估贷款风险欺诈检测实时识别异常交易智能投顾数据驱动的投资建议公共管理与社会治理数据案例智能交通预测与调度精准扶贫资源分配环境监测与污染防控数据可视化平台及工具工具名称特点适用场景直观易用,交互性强商业智能分析Tableau集成,成本低企业日常报表Power BIOffice国产软件,中文支持本地化需求强FineBI好开源,定制性强网页数据可视化ECharts数据职业发展方向数据分析师数据工程师数据科学家数据解读,业务洞察数据管道,系统架构模型研发,算法优化当前热门技术趋势自动化数据处理跨界数据融合减少人工干预打破数据孤岛边缘计算实时数据分析本地化数据处理加速决策流程数据伦理与社会影响算法偏见隐私保护训练数据不平衡个人数据收集过度强化社会刻板印象未经授权数据使用影响弱势群体利益数据安全风险增加数据相关常见问题答疑数据质量问题定期数据审计建立数据质量标准自动化检测流程工具选择困难先确定具体需求考虑学习成本试用多种工具比较分析结果解读结合业务背景多角度验证避免过度解读数据量过大分布式处理数据抽样分析增加计算资源课后学习与延伸资源推荐书籍在线课程网站资源《数据分数据科竞赛平台Python CourseraKaggle析》学系列开源项目GitHub《深入浅出数据分中国大学统MOOC析》计学社区交流学习DataWhale社区知乎数据分析专栏总结与展望未来发展人工智能与数据深度融合实际应用2各行业数据驱动决策核心技能数据收集、处理、分析、可视化。
个人认证
优秀文档
获得点赞 0