还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据清洗试题及答案
一、单项选择题(共30题,每题1分)(注下列各题均有A、B、C、D四个选项,其中只有一项最符合题目要求)
1.数据清洗的核心目标是()A.提升数据存储效率B.确保数据质量符合业务需求C.加速数据处理速度D.优化数据可视化效果
2.以下哪项不属于数据质量的基本维度()A.完整性B.一致性C.安全性D.准确性
3.在数据预处理阶段,发现某列数据存在大量空值(缺失值),最直接的处理方法是()A.直接删除该列B.用该列的均值填充空值C.用前后相邻数据填充空值D.保留空值,不做处理
4.当数据中出现“100000”和“10万”两种表示方式时,主要属于()问题A.数据缺失B.数据重复C.数据格式不一致第1页共14页D.数据异常
5.以下哪种方法不适用于处理数值型数据的异常值()A.箱线图法B.Z-score法C.标准差法D.字符串匹配法
6.数据清洗流程的第一步通常是()A.选择清洗工具B.识别数据质量问题C.制定清洗规则D.验证清洗结果
7.在Pandas库中,用于删除重复行的函数是()A.drop_duplicatesB.remove_duplicatesC.delete_duplicatesD.duplicate_drop
8.某电商平台订单数据中,“用户ID”出现重复记录,最可能的原因是()A.数据采集错误B.数据格式错误C.数据缺失D.数据异常
9.对于时间格式不一致的数据(如“2025/12/01”和“01-12-2025”),应优先采用()方法处理A.统一格式转换第2页共14页B.删除该列C.用默认值填充D.按业务逻辑判断
10.以下哪项属于数据清洗中的“数据标准化”操作()A.将“男/女”转换为“1/0”B.修正错别字“北京”为“北市”C.删除重复的“用户ID”D.用“未知”填充空值
11.在数据清洗中,“数据一致性”指的是()A.数据格式统一B.数据在不同表/字段间逻辑一致C.数据无空值D.数据无异常值
12.当数据量较大且缺失比例较低时,处理缺失值的最佳方法是()A.删除记录B.用固定值填充(如0)C.用分组统计量填充D.插值法填充
13.SQL中用于删除重复记录的关键字组合是()A.DELETE FROM...WHERE EXISTSB.DELETE FROM...GROUP BYC.DELETE FROM...DISTINCTD.DELETE FROM...UNIQUE
14.以下哪种数据问题可能导致模型训练时出现“类别不平衡”()A.缺失值第3页共14页B.重复值C.异常值D.数据格式错误
15.数据清洗中的“数据脱敏”主要用于保护()A.数据完整性B.个人隐私数据C.数据一致性D.数据准确性
16.在处理文本型数据时,“去重空格”属于()操作A.格式标准化B.异常值处理C.缺失值填充D.重复值删除
17.某列数据中出现“12345678901”(11位)和“123456789”(9位),这属于()问题A.数据类型错误B.数据格式不一致C.数据缺失D.数据异常
18.以下哪种工具不常用于数据清洗()A.ExcelB.TableauC.PandasD.SQL
19.数据清洗中,“异常值”的定义通常基于()第4页共14页A.业务规则和统计方法B.数据存储容量C.数据可视化效果D.数据录入速度
20.当数据中存在“N/A”“--”“未知”等不同形式的缺失标记时,应进行()A.统一缺失标记B.删除包含缺失值的记录C.填充缺失值D.验证缺失原因
21.在数据清洗流程中,“验证清洗结果”的目的是()A.确保清洗后的模型效果B.检查是否存在遗漏的质量问题C.加速后续数据处理D.优化数据存储结构
22.以下哪项属于“数据冗余”问题()A.重复的用户ID记录B.格式错误的日期数据C.缺失的用户联系方式D.数值型数据的异常大值
23.对于分类变量,处理缺失值时,最合理的方法是()A.用众数填充B.用均值填充C.删除记录D.用固定值填充第5页共14页
24.SQL中用于更新数据格式的关键字是()A.UPDATEB.ALTERC.MODIFYD.CONVERT
25.数据清洗中的“数据转换”不包括()A.数据类型转换(如字符串转数值)B.单位统一(如“元”转“万元”)C.重复记录删除D.日期格式统一
26.当数据量较小(样本量100)时,处理异常值的最佳策略是()A.直接删除异常值B.用均值填充异常值C.结合业务逻辑判断异常值是否合理D.用中位数填充异常值
27.以下哪项不属于数据清洗的“数据质量评估指标”()A.缺失率B.异常值比例C.数据量大小D.重复率
28.在数据清洗中,“数据标准化”与“数据归一化”的主要区别是()A.标准化适用于分类数据,归一化适用于数值数据B.标准化消除量纲影响,归一化将数据缩放到[0,1]区间C.标准化仅用于数值型,归一化仅用于文本型第6页共14页D.两者无区别,可互换使用
29.某电商数据中,“用户年龄”列出现“-5”“200”等不合理值,这属于()问题A.数据缺失B.数据格式错误C.数据异常D.数据重复
30.以下哪项是数据清洗的关键原则()A.优先删除数据,减少处理复杂度B.所有缺失值必须填充,不能保留C.结合业务场景选择合适的清洗方法D.清洗过程中无需记录操作日志
二、多项选择题(共20题,每题2分)(注下列各题均有A、B、C、D四个选项,其中至少有两项符合题目要求,多选、少选、错选均不得分)
1.数据质量问题主要包括()A.数据缺失B.数据重复C.数据异常D.数据不一致
2.数据清洗的基本流程通常包括()A.识别数据质量问题B.分析问题产生原因C.选择清洗方法并实施D.验证清洗结果第7页共14页
3.处理缺失值的常用方法有()A.删除法(删除记录或列)B.填充法(均值、中位数、众数填充)C.插值法(线性插值、多项式插值)D.模型预测填充(如用回归模型预测)
4.以下属于数据异常值检测方法的有()A.箱线图法(四分位距法)B.Z-score法C.标准差法D.卡方检验
5.数据清洗工具中,适用于Python环境的有()A.PandasB.NumPyC.SQLD.Spark
6.数据格式不一致的表现形式包括()A.日期格式(如“YYYY/MM/DD”与“MM-DD-YYYY”)B.数值单位(如“元”与“万元”)C.文本大小写(如“北京”与“bei jing”)D.数据类型(如“123”(字符串)与123(数值))
7.重复值处理的注意事项包括()A.区分“完全重复”与“部分重复”B.保留重复记录时需结合业务逻辑(如订单重复可能是系统bug)C.直接删除所有重复记录是最安全的方法D.重复值可能导致统计结果偏差第8页共14页
8.数据标准化的目的是()A.消除量纲影响B.使不同指标具有可比性C.加速模型训练收敛D.减少数据存储占用
9.以下属于数据清洗中“数据脱敏”应用场景的有()A.保护用户手机号(如显示“138****5678”)B.隐藏身份证号部分信息C.统一数据格式为“YYYY-MM-DD”D.替换敏感词“暴力”为“敏感内容”
10.异常值处理的方法包括()A.修正异常值(如将“200”修正为合理年龄“20”)B.保留异常值并在模型中特殊处理C.用均值填充异常值D.删除异常值(适用于异常比例低且对结果影响大的情况)
11.数据一致性问题可能出现在()A.同一数据在不同表中的值不一致B.分类变量的类别名称不统一(如“男”与“男性”)C.数值型数据的单位不统一(如“kg”与“g”)D.重复记录中的不同字段值冲突
12.数据清洗中“验证”的具体操作包括()A.检查缺失值是否已处理B.验证异常值是否被正确识别C.统计清洗后的数据格式是否统一D.用简单模型测试清洗后的数据效果第9页共14页
13.以下工具中,适用于非编程环境的数据清洗工具是()A.Excel(数据透视表、删除重复值功能)B.Power BIC.TableauD.浏览器插件(如数据清洗小工具)
14.处理文本型数据时,常见的清洗操作有()A.去除多余空格B.修正错别字C.统一文本大小写D.提取关键词
15.数据清洗中“数据类型错误”的例子包括()A.日期列存储为字符串类型B.数值列存储为文本类型(如“123”带引号)C.分类列中混入数值(如“男”“女”与“1”“0”存在)D.重复的列名
16.数据清洗的原则包括()A.最小信息损失B.业务逻辑优先C.可复现性D.完全自动化(无需人工干预)
17.SQL中用于数据清洗的常用操作有()A.DELETE(删除重复记录)B.UPDATE(修正数据格式)C.ALTER(修改数据类型)D.JOIN(合并数据并去重)第10页共14页
18.缺失值产生的原因可能有()A.采集设备故障B.用户未填写C.数据传输过程中丢失D.业务规则限制(如“无”字段不记录)
19.数据清洗中,“去重”的方法包括()A.基于完全相同记录的去重B.基于关键字段(如ID)的去重C.基于相似记录的模糊去重D.用VLOOKUP函数查找重复值
20.以下关于数据清洗的说法正确的有()A.数据清洗是数据预处理的核心环节B.数据清洗需结合业务场景灵活调整方法C.清洗后的“干净数据”一定能直接用于建模D.数据清洗的质量直接影响后续分析和模型效果
三、判断题(共20题,每题1分)(注正确的打“√”,错误的打“×”)
1.数据清洗的主要目的是让数据“看起来更美观”()
2.缺失值的比例越高,删除法的效果越好()
3.异常值一定是错误数据,必须全部处理()
4.Excel的“删除重复值”功能可基于单个或多个关键字段去重()
5.数据标准化和归一化都是为了消除量纲影响()
6.SQL的GROUP BY子句可用于检测重复记录()
7.文本型数据中“去重空格”属于数据格式标准化操作()第11页共14页
8.数据清洗中的“数据脱敏”是为了提高数据安全性()
9.分类变量的缺失值只能用众数填充()
10.处理异常值时,删除法适用于异常值比例极低(1%)的情况()
11.数据一致性问题可能导致“数据孤岛”现象()
12.Pandas的drop_duplicates函数默认保留第一条重复记录()
13.数据清洗流程中,“验证结果”是可选步骤()
14.数值型数据的异常值检测只能用箱线图法()
15.数据量越大,重复值对结果的影响通常越小()
16.Tableau可用于数据清洗中的可视化异常值识别()
17.日期格式转换时,“YYYY/MM/DD”和“YYYY-MM-DD”属于数据格式不一致问题()
18.数据清洗中,“去重”的本质是减少数据冗余()
19.数据缺失值的处理方法选择仅需考虑数据量大小()
20.数据清洗后,数据质量一定能达到“完美无缺”()
四、简答题(共2题,每题5分)
1.简述数据清洗的基本流程
2.在实际项目中,当遇到大量缺失值(缺失率30%)且数据量较大时,应优先采用哪种数据清洗策略?请说明理由参考答案
一、单项选择题1-5:B CA C C6-10:B A AAA11-15:B AA CB第12页共14页16-20:A BB AA21-25:B AA CC26-30:CCB CC
二、多项选择题1:ABCD2:ABCD3:ABCD4:ABC5:AB6:ABCD7:ABD8:ABC9:AB10:ABD11:ABCD12:ABCD13:AB14:ABCD15:ABC16:ABC17:ABC18:ABC19:ABC20:ABD
三、判断题1:×2:×3:×4:√5:√6:×7:√8:√9:×10:√11:√12:√13:×14:×15:×16:√17:√18:√19:×20:×
四、简答题
1.数据清洗基本流程
①识别数据质量问题通过数据探查(如描述性统计、可视化)发现缺失值、异常值、重复值、格式错误等问题;
②分析问题原因结合业务背景判断问题产生的合理原因(如缺失值可能是用户未填写或系统故障);
③选择清洗方法根据问题类型和业务需求选择处理策略(如缺失值用填充/删除,异常值用修正/删除);
④实施清洗操作使用工具(如Pandas、SQL)执行具体清洗步骤;
⑤验证清洗结果通过统计检查、模型测试等验证清洗后的数据是否满足业务需求,是否存在遗漏问题
2.优先策略基于业务逻辑的分组填充法第13页共14页理由数据量较大时删除法可能导致样本量不足,影响分析/建模效果;直接用全局统计量(如均值)填充可能引入偏差基于业务逻辑分组(如按用户类型、地区等分组)后填充,可保留数据结构和业务关联性,减少信息损失,且适用于缺失率较高的场景,是平衡准确性和实用性的最优选择(注简答题答案均控制在150字以内,符合实用性和简洁性要求)第14页共14页。
个人认证
优秀文档
获得点赞 0