还剩37页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《大数据分析原理》复习课件课程大纲回顾大数据概述大数据技术大数据应用大数据实践大数据的定义、特点、产生原Hadoop生态系统、Spark、数数据仓库与数据湖、数据建模、案例分析、行业应用实践、讨因和发展趋势据存储与处理技术机器学习、数据安全与隐私保论与练习护大数据的定义与特点海量数据数据规模巨大,传统数据库难以存储和处理高速度数据生成速度快,需要实时或准实时处理多样性数据类型多样,包括结构化、半结构化和非结构化数据价值密度低数据中蕴含的价值需要通过分析挖掘才能体现大数据产生的原因与发展趋势互联网技术发展数据存储成本下降数据分析技术进步社交媒体、移动互联网、物联网等技术的云计算、分布式存储技术的进步,降低了大数据分析技术的发展,能够从海量数据快速发展,产生了海量数据数据存储成本,促使更多数据被收集和存中提取有价值的信息,为决策提供支持储大数据的关键技术分布式存储分布式计算Hadoop DistributedFile SystemHDFS是一个分布式文件系统,MapReduce、Spark等分布式计算框架,用于并行处理海量数据用于存储海量数据数据分析技术数据可视化机器学习、深度学习、数据挖掘等技术,用于分析数据,提取有价将分析结果以图形、图表等方式展现,便于理解和决策值的信息生态系统HadoopHDFS MapReduceYARN分布式文件系统,用于分布式计算框架,用于资源管理框架,用于管存储海量数据并行处理数据理集群资源Hive数据仓库工具,用于查询和分析数据的工作原理HDFSDataNode负责存储文件块,并接受NameNode的指令NameNodeClient负责管理文件系统元数据,如文件目录、文件块信息等用户或应用程序,负责访问文件系统213的编程模型MapReduce阶段Map1将输入数据进行分割,并对每个分割进行处理,生成中间结果阶段Shuffle2对Map阶段生成的中间结果进行排序和分组,将相同Key的中间结果发送到同一个Reducer阶段Reduce3对每个Key的中间结果进行聚合,生成最终结果基本使用Hive创建表加载数据查询数据分析结果使用CREATE TABLE语句创使用LOAD DATA语句将数据使用SELECT语句查询数据,对查询结果进行分析,提取有建表,定义表结构和数据类型加载到表中可以使用SQL语法进行查询价值的信息简介Spark易用通用Spark提供了简洁易用的API,方便用户开快速Spark可以用于批处理、流处理、机器学习、发和使用Spark比Hadoop MapReduce快很多,因图计算等多种场景为它在内存中执行计算的Spark CoreAPIRDD TransformationActionResilient DistributedDataset RDD是转换操作,对RDD进行处理,生成新的行动操作,对RDD进行计算,返回结果Spark的核心数据结构,表示一个不可变RDD的分布式数据集的使用Spark SQLDataFrame1DataFrame是一个结构化数据集合,类似于关系型数据库中的表格语法SQL2Spark SQL支持标准SQL语法,可以方便地查询和分析数据数据处理3可以对DataFrame进行各种数据处理操作,如过滤、排序、聚合等实时计算Spark Streaming实时数据流1Spark Streaming可以从Kafka、Flume等实时数据源中获取数据微批处理2Spark Streaming将实时数据流切分成微批,并对每个微批进行处理实时分析3可以对实时数据流进行实时分析,例如趋势分析、异常检测等机器学习在大数据中的应用12预测分类例如,预测客户流失、商品销量等例如,将邮件分类为垃圾邮件或正常邮件3聚类例如,将客户分成不同的群体数据仓库与数据湖的对比数据仓库数据湖结构化数据,用于分析历史数据,支持决策所有类型的数据,用于数据探索和机器学习数据流程ETL抽取从数据源中提取数据转换将数据转换为目标数据格式加载将数据加载到数据仓库或数据湖数据清洗技术缺失值处理异常值处理重复值处理例如,删除缺失值、填补缺失值等例如,删除异常值、修正异常值等例如,删除重复值、合并重复值等数据集成方法数据融合数据匹配将来自不同数据源的数据整合到将来自不同数据源的相同实体进一起行匹配数据转换将数据转换为一致的格式和语义数据分区与压缩分区1将数据根据特定字段进行划分,便于查询和管理压缩2对数据进行压缩,减少存储空间和网络传输量数据建模技术数据准备数据理解清洗、集成、转换数据,准备建模数据21了解数据,分析数据特点和需求模型选择根据数据特点和目标选择合适的模型3模型评估5模型训练使用测试数据评估模型性能,调整模型参数4使用训练数据训练模型,优化模型参数分布式文件存储高可用性高扩展性12数据分布式存储,即使部分节可以轻松地扩展存储容量,满点故障,也不会影响数据访问足海量数据存储需求高性能3通过并行访问数据,提高数据读写性能列式存储技术按列存储数据压缩将数据按列存储,而不是按行存储,提高查询性能对列进行压缩,减少存储空间,提高数据读取效率数据库简介NoSQL键值对数据库文档数据库列式数据库图数据库例如,Redis、Memcached例如,MongoDB、Couchbase例如,Cassandra、HBase例如,Neo4j、ArangoDB图数据库的使用场景社交网络分析欺诈检测知识图谱构建分析用户关系、推荐好友等识别欺诈行为模式,例如洗钱、虚假交构建知识图谱,用于知识推理和问答系易等统时序数据库的特点时间序列数据高性能查询数据压缩123存储时间序列数据,例如传感器数据、支持快速查询时间序列数据,例如查对时间序列数据进行压缩,减少存储金融数据等询特定时间段的数据空间内存数据库的优势高性能低延迟数据存储在内存中,访问速度快数据访问延迟低,适合实时应用流数据处理框架Kafka FlinkStorm分布式流数据平台,用于实时数据流的采集、实时流数据处理框架,支持有状态计算和窗实时流数据处理框架,支持容错性和可扩展存储和传输口操作性数据可视化基础数据准备1清洗、整理数据,准备可视化数据图表选择2根据数据特点和目标选择合适的图表类型图表设计3设计图表样式,例如颜色、字体、布局等图表解读4对图表进行解读,提取有价值的信息常见可视化工具Tableau PowerBI商业智能和数据可视化工具,支商业智能和数据可视化工具,支持数据连接、可视化分析和数据持数据连接、可视化分析和数据共享共享D
3.jsJavaScript库,用于创建交互式数据可视化数据可视化的原则准确性图表要准确地反映数据,避免误导性清晰性图表要清晰易懂,避免过于复杂或模糊简洁性图表要简洁明了,避免冗余信息美观性图表要美观大方,吸引用户注意力大数据安全与隐私保护数据加密对数据进行加密,防止未授权访问访问控制限制用户访问数据,确保数据安全隐私脱敏对敏感信息进行脱敏处理,保护用户隐私联邦学习简介模型训练2各机构在本地训练模型,并将模型参数上传到中央服务器数据分散多个机构拥有各自的数据,无法共享数1据模型聚合中央服务器聚合各机构的模型参数,生成3全局模型联邦学习的优势数据隐私保护模型精度提升各机构的数据不会离开本地,避利用多个机构的数据进行训练,免数据泄露提高模型精度跨机构协作多个机构可以共同参与模型训练,实现资源共享联邦学习的应用场景医疗领域金融领域广告领域用于疾病预测、药物研发等用于风险控制、反欺诈等用于精准广告推荐、用户画像构建等大数据伦理与隐私问题数据歧视数据泄露数据滥用算法可能会对某些群体产生歧视,例如,数据泄露可能导致个人信息被盗用,造成数据可能被滥用,例如,用于监控、广告贷款申请被拒绝等经济损失或名誉损害推送等大数据案例分析12电商推荐交通预测利用用户购买记录、浏览历史等数据,利用交通数据,预测交通流量,优化为用户推荐商品交通路线3疾病预测利用患者数据,预测疾病风险,为医生提供参考行业应用实践金融行业风险控制、精准营销、反欺诈医疗行业疾病预测、药物研发、精准医疗零售行业商品推荐、库存管理、个性化服务制造业生产优化、设备维护、质量控制课程小结大数据技术1Hadoop生态系统、Spark、数据存储与处理技术大数据应用2数据仓库与数据湖、数据建模、机器学习、数据安全与隐私保护大数据实践3案例分析、行业应用实践讨论与练习请大家积极思考并讨论以下问题•你认为大数据技术未来会如何发展?•大数据技术在你的专业领域有哪些应用前景?•如何更好地保护个人数据隐私?。
个人认证
优秀文档
获得点赞 0