还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
变量数据的整理教学课件目录变量与数据基础概念变量分类与数据类型了解数据的本质与变量的定义掌握不同类型变量的特性与组织方式数据整理的重要性数据预处理基础认识数据预处理在分析流程中的关键作用了解数据清洗、转换与整合的标准流程常用数据整理工具实战案例演示熟悉Excel、R语言与Python等主流工具第一章什么是数据?数据是信息的载体,可被存储、处理和个人信息数据传输,代表现实世界的事实或观察结果•姓名张三(字符串)在计算机科学中,数据以不同类型存•年龄25(整数)在,其类型决定了处理方式和存储空间•身高
175.5(浮点数)需求环境监测数据•温度
32.6℃(浮点数)•湿度45%(整数/百分比)什么是变量?变量是程序中用于存储数据的命名内存空间,是数据分析的基本单位变量名提供了便于识别和操作数据的方式,替代了复杂的内存地址引用,使编程和分析更加直观在数据分析中,变量代表了研究的对象特征,如人的年龄、性别、收入等属性都可作为变量易读性可变性内存管理有意义的变量名使代码更易理解变量值可在程序运行过程中改变变量命名规范基本规则推荐命名风格•以字母、下划线或美元符号开头驼峰命名法•不能以数字开头•不使用编程语言保留关键字首单词小写,后续单词首字母大写•区分大小写(Name≠name)studentName,bodyHeight•避免使用空格下划线命名法单词间用下划线连接student_name,body_height不良命名实践使用无意义的名称如a、b、x1,或使用过于简化的缩写,会严重降低代码可读性和可维护性第二章变量分类与数据类型变量的分类定性变量(类别型)表示事物的种类或质量,不可进行数学运算•名义变量性别、血型、职业•有序变量教育程度、满意度等级定量变量(数值型)表示事物的数量或大小,可进行数学运算•离散变量子女数量、访问次数•连续变量身高、体重、温度数据类型详解不同编程语言中变量的基本数据类型,决定了数据的存储方式和可进行的操作整型(Integer)存储整数值,如int(-2147483648~2147483647)、long(更大范围)示例年龄=25,学生人数=42浮点型(Floating Point)存储小数值,如float(单精度)、double(双精度)示例身高=
175.5,体重=
68.3字符型与字符串char单个字符,如AString字符序列,如北京市海淀区布尔型(Boolean)只有两个可能值true或false示例是否已婚=true,是否在线=false分类变量的组织方式频数表(Summary Table)列联表(Contingency Table)统计各类别出现的次数与比例分析两个或多个分类变量之间的关系发票大小有错误无错误总计小额(≤¥500)1585100中额(¥501-30701002000)大额4555100(¥2000)总计90210300表格显示发票金额越大,出错概率越高数值变量的组织方式有序数组(Ordered Array)频率分布表(Frequency Distribution)将数据按大小排列,便于观察分布特征将连续变量分组,统计每组频率原始[23,19,85,42,57,63,38]排序[19,23,38,42,57,63,85]年龄组频数相对频率排序后易于确定中位数、最大值和最小值18-25岁3535%26-35岁4242%36-45岁1515%46岁以上88%计算区间数量的经验公式k≈1+
3.3×log₁₀n,其中n为样本量区间宽度计算w=最大值-最小值÷k第三章数据整理的重要性为什么要整理数据?原始数据通常杂乱无章,存在缺失值、异常值和格式不一致问题,难以直接进行分析数据科学家普遍认为,数据分析项目中60%以上的时间花费在数据预处理环节,足见其重要性数据准备可能不是最有趣的工作,但却是最重要的没有高质量的数据,再先进的分析方法也无法产生可靠结果60%80%30%数据预处理时间准确率提升效率提升分析项目总时间的占比整理后的数据分析准确率后续分析阶段效率提升数据整理的目标清洗错误和缺失值识别并处理数据中的错误、异常值和缺失值,确保数据质量例如•填补缺失的年龄数据•修正录入错误(如体重185公斤明显异常)•移除重复记录统一数据格式确保数据格式一致,便于比较和分析•统一日期格式(YYYY-MM-DD)•标准化文本(大小写、标点、空格)•单位转换(将英寸转为厘米)结构化数据将数据组织成适合分析的结构•每行代表一个观察对象•每列代表一个变量•每个单元格包含单一值•变量命名规范化第四章数据预处理基础数据预处理流程概览数据导入从各种来源(文件、数据库、API等)获取原始数据•常见格式CSV、Excel、JSON、SQL等•注意编码问题(UTF-
8、GBK等)数据清洗处理数据质量问题•缺失值处理删除或填补(均值、中位数、预测值)•异常值检测箱线图、Z分数、IQR法则•重复数据删除数据转换调整数据结构和格式•变量筛选保留相关变量•重编码类别合并、二值化•标准化/归一化Z分数、Min-Max缩放数据整合与汇总将处理后的数据组织成适合分析的格式•数据合并连接多个数据源•数据聚合分组计算统计量•数据透视重组数据结构常用数据预处理工具介绍Excel•排序与筛选R语言与TidyversePython的Pandas库•数据透视表•条件格式•readr:数据导入•DataFrame操作•查找与替换•dplyr:数据操作•数据筛选与排序•函数(VLOOKUP等)•tidyr:数据整形•缺失值处理优点易用,适合小型数据集•ggplot2:数据可视化•数据合并与分组优点通用性强,生态丰富优点统计分析强大,语法一致简介TidyverseTidyverse是R语言中一系列数据科学包的集合,具有统一的设计哲学和语法,极大简化了数据处理流程核心包包括readr高效读取矩形数据dplyr数据操作的语法tidyr创建整洁数据ggplot2数据可视化系统purrr函数式编程工具整洁数据(Tidy Data)原则
1.每个变量构成一列
2.每个观察构成一行
3.每个值构成一个单元格管道操作符示例传统写法管道写法%%#创建临时变量data1-#使用管道操作符result-read.csvdata.csvdata2-read.csvdata.csv%%subsetdata1,age30data3filterage30%%-transformdata2,mutatebmi=weight/height^2bmi=weight/height^2data4%%arrangedescbmi%%-arrangedata3,summarizeavg_bmi=meanbmidescbmiresult-summarizedata4,avg_bmi=meanbmi优点代码简洁,逻辑清晰,减少错误问题创建多个中间变量,代码冗长管道操作符%%将左侧对象传递给右侧函数的第一个参数,使代码结构更符合人类思维方式,可以理解为然后第五章实战案例演示案例背景介绍研究主题社交复杂度对核心体温的影响基于IJzerman等人2018年发表的心理学研究数据研究假设
1.个体的社交网络规模与核心体温存在相关性
2.社交隔离感与较低的体温相关
3.年龄、性别等人口统计学变量可能作为调节因子数据包含150名参与者的问卷回答和体温测量记录IJzerman,H.,Lindenberg,S.,Dalğar,İ.,Weissgerber,S.C.,Vergara,R.C.,Cairo,A.H.
2018.The humanpenguinproject:Climate,social integration,and corebody temperature.Collabra:Psychology,41,
37.数据导入与初步查看使用readr导入数据检查缺失情况librarytidyverse#导入CSV文件data-read_csv社交体温#检查每列的缺失值数量colSumsis.nadata#查看前几行数据研究.csv#查看数据结构glimpsedata headdata#查看数据摘要统计summarydata初步了解数据规模和变量特征•观察数150行(参与者)•变量数42列•变量类型数值型、类别型、日期型数据清洗示例处理缺失值#方法1删除缺失行(适用于缺失比例小)data_clean-data%%drop_na体温,社交网络规模,孤独感#方法2使用均值填补(适用于数值变量)data_imputed-data%%mutate体温=if_elseis.na体温,mean体温,na.rm=TRUE,体温#方法3使用预测模型填补(高级方法)#librarymice#imputed_data-micedata,m=5,method=pmm变量筛选变量重编码#保留研究相关的变量data_selected-data_clean%%selectid,年龄,性别,体温,社交网络规模,#将性别转换为因子变量data_recoded-data_selected%%mutate性别=factor性别,levels=c1,2,孤独感,情绪状态,室外温度labels=c男,女,#创建年龄组变量年龄组=case_when年龄25~青年,年龄45~中年,TRUE~老年数据转换与整理筛选filter#筛选25岁以上的女性women_25plus-data_recoded%%filter性别==女年龄25排序arrange#按体温降序排列sorted_data-data_recoded%%arrangedesc体温创建新变量mutate#创建标准化变量transformed_data-data_recoded%%mutate体温_z=体温-mean体温/sd体温,孤独感_z=孤独感-mean孤独感/sd孤独感,社交强度=社交网络规模*5-孤独感分组汇总group_by+summarize#按性别和年龄组统计平均体温summary_stats-data_recoded%%group_by性别,年龄组%%summarize平均体温=mean体温,na.rm=TRUE,标准差=sd体温,na.rm=TRUE,样本数=n可视化预览使用ggplot2创建变量分布图变量关系散点图#体温分布直方图ggplotdata_recoded,aesx=体温+geom_histogrambins=20,#社交网络规模与体温的散点图ggplotdata_recoded,aesx=社交网络规模,y=体温,fill=#81B61C,color=white+labstitle=体温分布直方图,color=性别+geom_pointalpha=
0.7+geom_smoothmethod=lm,se=TRUE+x=体温°C,y=频数+theme_minimal labstitle=社交网络规模与体温的关系,x=社交网络规模,y=体温°C+scale_color_manual values=c男=#547808,女=#A9F00F+theme_light第六章变量数据整理的最佳实践整理数据的技巧保持数据整洁(Tidy)规范变量命名记录数据处理步骤遵循整洁数据原则采用一致的命名约定确保分析的可重复性•每行代表一个观察对象(如一名受访者)•避免空格和特殊字符•使用脚本而非手动操作•每列代表一个变量(如年龄、性别)•使用有意义的名称•详细注释每个处理步骤•每个单元格包含单一值•保持命名风格统一•版本控制原始数据和脚本•中文变量名在R中需注意编码•记录软件和包的版本提示创建数据字典,记录每个变量的名称、含义、单位、取值范围和编码方式,这对长期项目尤为重要常见错误及避免方法混淆变量类型忽视缺失值处理过度生成中间变量常见问题常见问题常见问题•将类别变量当作数值处理•默认使用删除法处理所有缺失•创建过多临时数据框•将有序变量当作名义变量•忽略缺失模式分析•变量命名混乱(data1,data
2...)•忽略日期/时间的特殊格式•简单用均值填补所有缺失•内存占用过大避免方法避免方法避免方法•明确定义变量类型•分析缺失原因和模式•使用管道操作符(%%)•使用合适的转换函数•选择合适的缺失处理方法•创建函数封装重复步骤•考虑多重填补等高级方法•及时清理不再需要的对象资源推荐在线学习资源练习数据集RStudio官方Tidyverse手册https://rstudio.github.io/cheatsheets/DataCamp数据科学课程https://www.datacamp.com/Kaggle学习平台https://www.kaggle.com/learn推荐书籍UCI机器学习数据集库https://archive.ics.uci.edu/ml/•《R forData Science》-Hadley WickhamGarrett Grolemund国家统计局公开数据http://www.stats.gov.cn/tjsj/•《Python forData Analysis》-Wes McKinney•《数据科学实战》-周志华TidyTuesday项目github.com/rfordatascience/tidytuesday加入在线社区如统计之都、R语言中文社区或Python数据科学社区,参与讨论并获取最新资源和帮助总结与答疑本课程要点回顾基础概念掌握理解变量与数据的本质,区分变量类型与数据类型数据整理流程答疑环节从数据导入、清洗到转换与整合的完整流程欢迎提问关于工具应用•变量数据整理的具体技术问题•工具选择与应用场景熟悉Excel、R语言Tidyverse和Python Pandas等主流工具•实际项目中的数据整理挑战最佳实践遵循整洁数据原则,规范变量命名,确保分析可重复性数据整理虽不起眼,却是数据分析的基石唯有高质量的数据,才能支撑起可靠的分析结果与决策。
个人认证
优秀文档
获得点赞 0