etl笔试题及答案

佚名 · 0905

试题，答案

文件大小16.86 KB

文件格式docx

分享时间2025-09-26

更多此类文档

立即下载

还剩12页未读，继续阅读

本资源只提供10页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

立即下载

文本内容:

etl笔试题及答案文档说明本文档整理了ETL（Extract-Transform-Load，数据抽取、转换、加载）技术的经典笔试题及参考答案，涵盖基础概念、流程、工具、技术难点等核心知识点题目难度适中，适合初学者巩固基础或面试备考使用答案结合行业实践经验编写，注重实用性和准确性，可直接参考应用

一、单项选择题（共30题，每题1分）（注每题只有一个正确答案，将正确选项字母填入括号中）ETL的核心目标是（）A.直接读取源数据并展示B.将源数据转化为目标系统可使用的格式C.存储原始数据到数据库D.监控数据传输过程以下哪项不属于ETL的核心流程（）A.Extract（抽取）B.Transform（转换）C.Load（加载）D.Query（查询）数据抽取阶段的主要任务是（）A.清洗源数据中的错误B.将数据按目标格式重组C.从源系统（如数据库、文件）获取原始数据D.将数据写入目标数据仓库增量抽取相比全量抽取的主要优势是（）第1页共14页A.数据量更小，效率更高B.无需处理重复数据C.完全避免数据冲突D.无需连接源系统以下哪种数据清洗操作不属于“去重”（）A.删除重复记录（基于主键或唯一键）B.合并相似数据（如同一客户的不同手机号）C.替换缺失值为默认值D.识别并标记重复数据数据转换中，“格式统一”的典型场景是（）A.将“2025/12/01”转换为“01-12-2025”B.删除包含空值的字段C.对数值型数据进行四舍五入D.对重复数据添加唯一标识以下哪项是ETL工具的核心功能（）A.仅用于数据存储B.实现数据抽取、转换、加载的自动化C.直接生成业务报表D.监控服务器性能以下哪种数据抽取方式可能导致数据不一致（）A.全量抽取B.增量抽取（基于时间戳）C.增量抽取（基于日志）D.增量抽取（基于触发器）数据仓库中，ETL的“转换”阶段主要不包括以下哪项操作（）第2页共14页A.数据清洗B.数据过滤C.数据加载D.数据标准化“将不同源系统的相同主题数据整合到同一表中”属于ETL的（）阶段A.抽取B.转换（整合）C.加载D.监控以下哪种数据质量问题属于“格式错误”（）A.数值字段包含非数字字符（如“abc”）B.数据中存在空值C.重复记录D.数据单位不一致（如“kg”和“克”混用）ETL中，“数据映射”的作用是（）A.定义源数据与目标数据的对应关系B.监控数据加载进度C.存储原始数据D.优化数据库查询以下哪项是ELT（Extract-Load-Transform）与ETL的主要区别（）A.ELT在数据仓库外完成转换B.ELT仅用于批处理场景C.ELT无需数据清洗步骤D.ELT仅支持结构化数据第3页共14页数据加载时，“增量加载”的常见策略不包括（）A.全量加载B.差量加载（基于时间范围）C.增量加载（基于自增ID）D.全量+增量混合加载以下哪项不属于ETL中的“数据验证”环节（）A.检查数据格式是否符合目标要求B.验证数据完整性（非空约束）C.计算数据总量是否与源系统一致D.直接跳过异常数据“使用Kettle（Pentaho DataIntegration）实现数据抽取”属于ETL流程中的（）A.抽取工具选择B.转换逻辑设计C.加载工具选择D.监控脚本编写数据清洗中，“处理缺失值”的常用方法不包括（）A.删除包含缺失值的记录B.用均值/中位数填充数值型字段C.用固定值（如“未知”）填充分类字段D.将缺失值标记为“错误数据”以下哪种场景适合使用ETL而非ELT（）A.数据量极大（TB级）B.源数据格式多样且复杂C.目标系统为关系型数据库第4页共14页D.实时数据处理需求高ETL中，“数据脱敏”的主要目的是（）A.提高数据处理速度B.保护敏感信息（如身份证号、手机号）C.减少数据存储量D.优化数据查询效率“将JSON格式数据转换为CSV格式”属于ETL的（）操作A.数据清洗B.数据格式转换C.数据合并D.数据过滤以下哪项是ETL工具的关键性能指标（）A.仅支持Oracle数据库B.数据处理吞吐量（如MB/秒）C.界面美观度D.价格高低数据转换中，“数据标准化”的典型应用是（）A.将“男/女”统一为“1/0”B.将“2025-12-01”转换为“2025年12月01日”C.删除重复数据D.对数据进行加密“从多个数据源（如Excel、MySQL、API接口）抽取数据”属于ETL的（）阶段A.多源抽取B.数据清洗第5页共14页C.数据整合D.数据加载以下哪项不属于ETL流程中的“异常处理”场景（）A.源系统连接失败B.数据格式不匹配C.目标表空间不足D.数据转换逻辑编写错误ETL中，“调度任务”的主要作用是（）A.自动执行数据抽取、转换、加载流程B.优化数据库索引C.生成数据报表D.存储历史数据“使用Spark SQL完成数据ETL”的主要优势是（）A.仅支持本地文件系统B.适合批处理和流处理C.无需编写代码D.界面操作简单数据加载时，“全量加载”的适用场景是（）A.数据量小且需实时更新B.数据量小且目标表结构稳定C.数据量大且需频繁更新D.数据量大且目标表结构需频繁调整以下哪项是数据质量的核心维度（）A.数据量、数据类型、数据来源B.准确性、完整性、一致性、及时性第6页共14页C.数据大小、存储位置、访问权限D.数据格式、数据单位、数据更新频率ETL中，“数据血缘”的主要作用是（）A.优化数据加载速度B.追踪数据从源到目标的流转过程C.压缩数据存储量D.加密数据内容“对数据进行去重、补全、标准化后，按目标表结构写入数据仓库”属于ETL的（）阶段A.抽取→转换→加载B.加载→转换→抽取C.转换→抽取→加载D.抽取→加载→转换

二、多项选择题（共20题，每题2分）（注每题有多个正确答案，多选、少选、错选均不得分）以下属于ETL技术应用场景的有（）A.数据仓库构建B.业务系统数据同步C.实时监控系统D.数据分析报表生成数据抽取阶段需要考虑的因素有（）A.源系统类型（数据库、文件、API等）B.数据量大小C.抽取性能（是否影响源系统）D.数据格式（结构化、半结构化、非结构化）第7页共14页数据转换的核心操作包括（）A.数据清洗B.数据过滤C.数据合并D.数据加密以下属于增量抽取方法的有（）A.基于时间戳（如last_modified字段）B.基于自增ID（如ID10000的记录）C.基于日志（如MySQL的binlog）D.基于触发器（如SQL Server的DDL触发器）数据清洗中，“处理异常值”的方法包括（）A.删除异常值（如超过3σ的数值）B.替换异常值（如用均值替换极端值）C.标记异常值（如“待确认”）D.直接跳过异常值常用的ETL工具包括（）A.Informatica PowerCenterB.Apache KettleC.Apache SparkD.Excel VBA数据加载的常见策略有（）A.全量加载（Truncate andLoad）B.增量加载（Append）C.更新插入（Upsert，更新或插入）D.删除加载（Delete andLoad）第8页共14页数据质量问题可能导致的后果有（）A.分析结果错误B.业务决策失误C.系统性能下降D.数据仓库结构混乱ETL流程监控需要关注的指标有（）A.任务执行时间B.数据处理量C.错误记录数D.资源使用率（CPU、内存）以下属于半结构化数据的有（）A.JSON文件B.XML文件C.Excel表格D.日志文件（如Nginx访问日志）数据脱敏的常用方法包括（）A.替换（如手机号中间四位替换为*）B.加密（如AES加密身份证号）C.屏蔽（如邮箱显示“a***@xx.com”）D.打乱（如随机交换姓名顺序）ETL中，“数据血缘”的价值体现在（）A.便于问题排查（如数据错误可追溯源头）B.支持数据变更影响分析C.优化数据存储结构D.提高数据处理速度第9页共14页以下属于ELT（抽取-加载-转换）特点的有（）A.先加载到数据仓库，再进行转换B.适合大数据量场景C.对源系统性能影响小D.转换逻辑在数据仓库中实现数据标准化的目的是（）A.统一数据格式（如日期格式“YYYY-MM-DD”）B.统一数据单位（如“km”统一为“米”）C.统一数据编码（如性别“男/女”统一为“1/0”）D.统一数据存储位置ETL调度系统的功能包括（）A.定时执行ETL任务B.任务依赖管理（如A任务完成后执行B任务）C.失败重试机制D.任务优先级设置数据过滤阶段的作用有（）A.减少无效数据处理量B.保留符合业务需求的数据C.提高数据转换效率D.直接生成最终分析结果以下属于数据仓库与ETL关系的有（）A.ETL是数据仓库的核心组成部分B.数据仓库为ETL提供目标存储C.ETL为数据仓库提供数据支持D.两者无直接关联第10页共14页数据抽取时，“CDC（Change DataCapture）”技术的优势有（）A.实时捕获数据变更B.对源系统影响小（低侵入性）C.无需全量扫描源数据D.仅支持关系型数据库数据加载时，“分区分表加载”的优势包括（）A.提高查询效率B.便于数据归档和删除C.降低单表数据量D.简化权限管理以下属于ETL技术挑战的有（）A.数据量大，性能瓶颈B.源系统数据格式多样C.数据质量问题复杂D.目标系统结构频繁变更

三、判断题（共20题，每题1分）（注对的打“√”，错的打“×”）ETL流程中，“抽取”是最耗时的阶段（）增量抽取比全量抽取更节省资源（）数据转换仅需处理数据格式，无需处理数据质量（）ETL工具只能实现批处理，无法支持实时处理（）数据血缘可帮助追踪数据从源到目标的完整路径（）ELT（抽取-加载-转换）的优势是转换逻辑在数据仓库中执行（）数据清洗中，“删除包含缺失值的记录”是最安全的方法（）ETL调度系统的主要作用是监控服务器硬件状态（）第11页共14页数据脱敏可保护敏感信息，符合数据安全规范（）“将不同源系统的相同字段合并为一个字段”属于数据整合操作（）数据量越大，ETL流程的性能优化越重要（）ETL中的“Upsert”操作是指先更新再插入（）半结构化数据（如JSON）无需ETL工具，可直接加载到数据仓库（）数据质量问题仅影响数据分析结果，对业务系统无影响（）数据血缘是ETL流程监控的核心指标之一（）增量抽取基于日志的方法（如CDC）对源系统性能影响较小（）ETL工具的选择仅需考虑功能，无需考虑价格（）数据标准化后，数据的存储量会显著增加（）“从API接口抽取数据”属于ETL中的“多源抽取”场景（）ETL流程中，“错误处理”仅需记录错误，无需人工干预（）

四、简答题（共2题，每题5分）请简述ETL的核心流程及每个阶段的主要任务数据质量问题中，“数据不一致”是常见问题，请列举3种导致数据不一致的原因及对应的处理方法参考答案

一、单项选择题1-5:B DC A C6-10:A B ACB11-15:D A AA D16-20:A B B B B21-25:BAADA第12页共14页26-30:BBBBA

二、多项选择题ABD

2.ABCD

3.ABCD

4.ABC

5.ABCABC

7.ABC

8.ABC

9.ABCD

10.ABDABC

12.AB

13.ABD

14.ABC

15.ABCDABC

17.ABC

18.ABC

19.ABC

20.ABCD

三、判断题×（转换阶段最耗时，占整体流程60%以上）×（数据转换需处理格式和质量问题）×（部分工具支持实时CDC，可实现近实时ETL）×（需结合业务场景，删除可能损失关键信息）×（调度系统主要管理ETL任务执行流程）×（Upsert是“更新或插入”，即存在则更新否则插入）×（半结构化数据需ETL工具解析结构后加载）×（数据不一致可能导致系统运行异常）×（需综合功能、价格、易用性等选择）×（标准化后数据逻辑一致，存储量通常减少）×（错误处理需自动重试或告警，复杂错误需人工干预）

四、简答题ETL核心流程及任务抽取（Extract）从源系统（数据库、文件、API等）获取原始数据，确保数据完整性和可用性转换（Transform）对数据进行清洗（去重、补全、异常处理）、标准化（格式、单位、编码）、整合（合并、拆分、关联），满足目标系统需求第13页共14页加载（Load）将转换后的数据写入目标系统（数据仓库、数据集市等），支持全量、增量等加载策略数据不一致的原因及处理方法原因1多源数据重复录入（如不同系统录入同一客户信息）→处理建立唯一键约束，抽取时去重原因2数据更新不同步（如A系统更新后B系统未更新）→处理采用CDC技术实时捕获变更，通过调度同步更新原因3数据定义不一致（如“性别”字段A系统为“男/女”，B系统为“1/0”）→处理在转换阶段统一编码规则（如映射表转换）文档说明本文档题目覆盖ETL全流程核心知识点，答案结合工程实践经验编写，可直接用于学习或面试备考如需进一步提升，建议结合具体工具（如Kettle、Spark）的实践操作加深理解第14页共14页。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小16.86 KB

文件格式docx

分享时间2025-09-26

更多此类文档

立即下载