还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
etl笔试题及答案文档说明本文档整理了ETL(Extract-Transform-Load,数据抽取、转换、加载)技术的经典笔试题及参考答案,涵盖基础概念、流程、工具、技术难点等核心知识点题目难度适中,适合初学者巩固基础或面试备考使用答案结合行业实践经验编写,注重实用性和准确性,可直接参考应用
一、单项选择题(共30题,每题1分)(注每题只有一个正确答案,将正确选项字母填入括号中)ETL的核心目标是()A.直接读取源数据并展示B.将源数据转化为目标系统可使用的格式C.存储原始数据到数据库D.监控数据传输过程以下哪项不属于ETL的核心流程()A.Extract(抽取)B.Transform(转换)C.Load(加载)D.Query(查询)数据抽取阶段的主要任务是()A.清洗源数据中的错误B.将数据按目标格式重组C.从源系统(如数据库、文件)获取原始数据D.将数据写入目标数据仓库增量抽取相比全量抽取的主要优势是()第1页共14页A.数据量更小,效率更高B.无需处理重复数据C.完全避免数据冲突D.无需连接源系统以下哪种数据清洗操作不属于“去重”()A.删除重复记录(基于主键或唯一键)B.合并相似数据(如同一客户的不同手机号)C.替换缺失值为默认值D.识别并标记重复数据数据转换中,“格式统一”的典型场景是()A.将“2025/12/01”转换为“01-12-2025”B.删除包含空值的字段C.对数值型数据进行四舍五入D.对重复数据添加唯一标识以下哪项是ETL工具的核心功能()A.仅用于数据存储B.实现数据抽取、转换、加载的自动化C.直接生成业务报表D.监控服务器性能以下哪种数据抽取方式可能导致数据不一致()A.全量抽取B.增量抽取(基于时间戳)C.增量抽取(基于日志)D.增量抽取(基于触发器)数据仓库中,ETL的“转换”阶段主要不包括以下哪项操作()第2页共14页A.数据清洗B.数据过滤C.数据加载D.数据标准化“将不同源系统的相同主题数据整合到同一表中”属于ETL的()阶段A.抽取B.转换(整合)C.加载D.监控以下哪种数据质量问题属于“格式错误”()A.数值字段包含非数字字符(如“abc”)B.数据中存在空值C.重复记录D.数据单位不一致(如“kg”和“克”混用)ETL中,“数据映射”的作用是()A.定义源数据与目标数据的对应关系B.监控数据加载进度C.存储原始数据D.优化数据库查询以下哪项是ELT(Extract-Load-Transform)与ETL的主要区别()A.ELT在数据仓库外完成转换B.ELT仅用于批处理场景C.ELT无需数据清洗步骤D.ELT仅支持结构化数据第3页共14页数据加载时,“增量加载”的常见策略不包括()A.全量加载B.差量加载(基于时间范围)C.增量加载(基于自增ID)D.全量+增量混合加载以下哪项不属于ETL中的“数据验证”环节()A.检查数据格式是否符合目标要求B.验证数据完整性(非空约束)C.计算数据总量是否与源系统一致D.直接跳过异常数据“使用Kettle(Pentaho DataIntegration)实现数据抽取”属于ETL流程中的()A.抽取工具选择B.转换逻辑设计C.加载工具选择D.监控脚本编写数据清洗中,“处理缺失值”的常用方法不包括()A.删除包含缺失值的记录B.用均值/中位数填充数值型字段C.用固定值(如“未知”)填充分类字段D.将缺失值标记为“错误数据”以下哪种场景适合使用ETL而非ELT()A.数据量极大(TB级)B.源数据格式多样且复杂C.目标系统为关系型数据库第4页共14页D.实时数据处理需求高ETL中,“数据脱敏”的主要目的是()A.提高数据处理速度B.保护敏感信息(如身份证号、手机号)C.减少数据存储量D.优化数据查询效率“将JSON格式数据转换为CSV格式”属于ETL的()操作A.数据清洗B.数据格式转换C.数据合并D.数据过滤以下哪项是ETL工具的关键性能指标()A.仅支持Oracle数据库B.数据处理吞吐量(如MB/秒)C.界面美观度D.价格高低数据转换中,“数据标准化”的典型应用是()A.将“男/女”统一为“1/0”B.将“2025-12-01”转换为“2025年12月01日”C.删除重复数据D.对数据进行加密“从多个数据源(如Excel、MySQL、API接口)抽取数据”属于ETL的()阶段A.多源抽取B.数据清洗第5页共14页C.数据整合D.数据加载以下哪项不属于ETL流程中的“异常处理”场景()A.源系统连接失败B.数据格式不匹配C.目标表空间不足D.数据转换逻辑编写错误ETL中,“调度任务”的主要作用是()A.自动执行数据抽取、转换、加载流程B.优化数据库索引C.生成数据报表D.存储历史数据“使用Spark SQL完成数据ETL”的主要优势是()A.仅支持本地文件系统B.适合批处理和流处理C.无需编写代码D.界面操作简单数据加载时,“全量加载”的适用场景是()A.数据量小且需实时更新B.数据量小且目标表结构稳定C.数据量大且需频繁更新D.数据量大且目标表结构需频繁调整以下哪项是数据质量的核心维度()A.数据量、数据类型、数据来源B.准确性、完整性、一致性、及时性第6页共14页C.数据大小、存储位置、访问权限D.数据格式、数据单位、数据更新频率ETL中,“数据血缘”的主要作用是()A.优化数据加载速度B.追踪数据从源到目标的流转过程C.压缩数据存储量D.加密数据内容“对数据进行去重、补全、标准化后,按目标表结构写入数据仓库”属于ETL的()阶段A.抽取→转换→加载B.加载→转换→抽取C.转换→抽取→加载D.抽取→加载→转换
二、多项选择题(共20题,每题2分)(注每题有多个正确答案,多选、少选、错选均不得分)以下属于ETL技术应用场景的有()A.数据仓库构建B.业务系统数据同步C.实时监控系统D.数据分析报表生成数据抽取阶段需要考虑的因素有()A.源系统类型(数据库、文件、API等)B.数据量大小C.抽取性能(是否影响源系统)D.数据格式(结构化、半结构化、非结构化)第7页共14页数据转换的核心操作包括()A.数据清洗B.数据过滤C.数据合并D.数据加密以下属于增量抽取方法的有()A.基于时间戳(如last_modified字段)B.基于自增ID(如ID10000的记录)C.基于日志(如MySQL的binlog)D.基于触发器(如SQL Server的DDL触发器)数据清洗中,“处理异常值”的方法包括()A.删除异常值(如超过3σ的数值)B.替换异常值(如用均值替换极端值)C.标记异常值(如“待确认”)D.直接跳过异常值常用的ETL工具包括()A.Informatica PowerCenterB.Apache KettleC.Apache SparkD.Excel VBA数据加载的常见策略有()A.全量加载(Truncate andLoad)B.增量加载(Append)C.更新插入(Upsert,更新或插入)D.删除加载(Delete andLoad)第8页共14页数据质量问题可能导致的后果有()A.分析结果错误B.业务决策失误C.系统性能下降D.数据仓库结构混乱ETL流程监控需要关注的指标有()A.任务执行时间B.数据处理量C.错误记录数D.资源使用率(CPU、内存)以下属于半结构化数据的有()A.JSON文件B.XML文件C.Excel表格D.日志文件(如Nginx访问日志)数据脱敏的常用方法包括()A.替换(如手机号中间四位替换为*)B.加密(如AES加密身份证号)C.屏蔽(如邮箱显示“a***@xx.com”)D.打乱(如随机交换姓名顺序)ETL中,“数据血缘”的价值体现在()A.便于问题排查(如数据错误可追溯源头)B.支持数据变更影响分析C.优化数据存储结构D.提高数据处理速度第9页共14页以下属于ELT(抽取-加载-转换)特点的有()A.先加载到数据仓库,再进行转换B.适合大数据量场景C.对源系统性能影响小D.转换逻辑在数据仓库中实现数据标准化的目的是()A.统一数据格式(如日期格式“YYYY-MM-DD”)B.统一数据单位(如“km”统一为“米”)C.统一数据编码(如性别“男/女”统一为“1/0”)D.统一数据存储位置ETL调度系统的功能包括()A.定时执行ETL任务B.任务依赖管理(如A任务完成后执行B任务)C.失败重试机制D.任务优先级设置数据过滤阶段的作用有()A.减少无效数据处理量B.保留符合业务需求的数据C.提高数据转换效率D.直接生成最终分析结果以下属于数据仓库与ETL关系的有()A.ETL是数据仓库的核心组成部分B.数据仓库为ETL提供目标存储C.ETL为数据仓库提供数据支持D.两者无直接关联第10页共14页数据抽取时,“CDC(Change DataCapture)”技术的优势有()A.实时捕获数据变更B.对源系统影响小(低侵入性)C.无需全量扫描源数据D.仅支持关系型数据库数据加载时,“分区分表加载”的优势包括()A.提高查询效率B.便于数据归档和删除C.降低单表数据量D.简化权限管理以下属于ETL技术挑战的有()A.数据量大,性能瓶颈B.源系统数据格式多样C.数据质量问题复杂D.目标系统结构频繁变更
三、判断题(共20题,每题1分)(注对的打“√”,错的打“×”)ETL流程中,“抽取”是最耗时的阶段()增量抽取比全量抽取更节省资源()数据转换仅需处理数据格式,无需处理数据质量()ETL工具只能实现批处理,无法支持实时处理()数据血缘可帮助追踪数据从源到目标的完整路径()ELT(抽取-加载-转换)的优势是转换逻辑在数据仓库中执行()数据清洗中,“删除包含缺失值的记录”是最安全的方法()ETL调度系统的主要作用是监控服务器硬件状态()第11页共14页数据脱敏可保护敏感信息,符合数据安全规范()“将不同源系统的相同字段合并为一个字段”属于数据整合操作()数据量越大,ETL流程的性能优化越重要()ETL中的“Upsert”操作是指先更新再插入()半结构化数据(如JSON)无需ETL工具,可直接加载到数据仓库()数据质量问题仅影响数据分析结果,对业务系统无影响()数据血缘是ETL流程监控的核心指标之一()增量抽取基于日志的方法(如CDC)对源系统性能影响较小()ETL工具的选择仅需考虑功能,无需考虑价格()数据标准化后,数据的存储量会显著增加()“从API接口抽取数据”属于ETL中的“多源抽取”场景()ETL流程中,“错误处理”仅需记录错误,无需人工干预()
四、简答题(共2题,每题5分)请简述ETL的核心流程及每个阶段的主要任务数据质量问题中,“数据不一致”是常见问题,请列举3种导致数据不一致的原因及对应的处理方法参考答案
一、单项选择题1-5:B DC A C6-10:A B ACB11-15:D A AA D16-20:A B B B B21-25:BAADA第12页共14页26-30:BBBBA
二、多项选择题ABD
2.ABCD
3.ABCD
4.ABC
5.ABCABC
7.ABC
8.ABC
9.ABCD
10.ABDABC
12.AB
13.ABD
14.ABC
15.ABCDABC
17.ABC
18.ABC
19.ABC
20.ABCD
三、判断题×(转换阶段最耗时,占整体流程60%以上)×(数据转换需处理格式和质量问题)×(部分工具支持实时CDC,可实现近实时ETL)×(需结合业务场景,删除可能损失关键信息)×(调度系统主要管理ETL任务执行流程)×(Upsert是“更新或插入”,即存在则更新否则插入)×(半结构化数据需ETL工具解析结构后加载)×(数据不一致可能导致系统运行异常)×(需综合功能、价格、易用性等选择)×(标准化后数据逻辑一致,存储量通常减少)×(错误处理需自动重试或告警,复杂错误需人工干预)
四、简答题ETL核心流程及任务抽取(Extract)从源系统(数据库、文件、API等)获取原始数据,确保数据完整性和可用性转换(Transform)对数据进行清洗(去重、补全、异常处理)、标准化(格式、单位、编码)、整合(合并、拆分、关联),满足目标系统需求第13页共14页加载(Load)将转换后的数据写入目标系统(数据仓库、数据集市等),支持全量、增量等加载策略数据不一致的原因及处理方法原因1多源数据重复录入(如不同系统录入同一客户信息)→处理建立唯一键约束,抽取时去重原因2数据更新不同步(如A系统更新后B系统未更新)→处理采用CDC技术实时捕获变更,通过调度同步更新原因3数据定义不一致(如“性别”字段A系统为“男/女”,B系统为“1/0”)→处理在转换阶段统一编码规则(如映射表转换)文档说明本文档题目覆盖ETL全流程核心知识点,答案结合工程实践经验编写,可直接用于学习或面试备考如需进一步提升,建议结合具体工具(如Kettle、Spark)的实践操作加深理解第14页共14页。
个人认证
优秀文档
获得点赞 0