还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
etl面试题及答案
一、单项选择题(共30题,每题1分)(注每题只有一个正确答案,将正确答案的字母填在括号中)
1.1基础概念类ETL的完整英文全称是()A.Extract-Transform-LoadB.Extract-Transfer-LoadC.Extract-Transform-LevelD.Extract-Transfer-Level以下哪项不属于ETL的核心阶段()A.数据抽取(Extract)B.数据转换(Transform)C.数据加载(Load)D.数据存储(Store)数据仓库(DW)与ETL的关系是()A.ETL是DW的前提,DW依赖ETL获取数据B.ETL是DW的输出,用于存储数据C.两者无关,独立存在D.ETL仅用于数据清洗,与DW无关以下哪项是ETL流程的首要步骤()A.数据转换B.数据加载C.数据抽取D.数据校验
1.2技术原理类第1页共14页SCD(Slowly ChangingDimension,缓慢变化维度)的主要作用是()A.加速数据查询速度B.保留历史数据变化,支持时间序列分析C.减少数据冗余D.提高数据抽取效率全量抽取(Full Extraction)与增量抽取(IncrementalExtraction)的主要区别在于()A.全量抽取更节省资源B.增量抽取仅抽取新增或变化数据C.全量抽取仅用于维度表D.增量抽取无需校验数据完整性CDC(Change DataCapture,变更数据捕获)的核心目标是()A.提高数据存储容量B.实时捕获数据变化,支持增量更新C.压缩数据体积D.优化数据查询性能以下哪种数据类型最可能导致ETL流程中的“数据倾斜”问题()A.大量重复数据B.数据格式不一致C.数据量过大且分布不均D.空值数据
1.3工具应用类以下哪项不属于ETL工具()A.Informatica PowerCenter第2页共14页B.Apache SparkC.Kettle(Pentaho DataIntegration)D.MySQL以下关于Kettle(PDI)的描述,正确的是()A.仅支持Windows系统B.是开源的ETL工具C.无法处理复杂的数据转换D.需手动编写代码实现逻辑在Informatica中,用于定义数据模型的组件是()A.MappingB.WorkflowC.RepositoryD.Transformation以下哪项是ETL工具中用于监控流程运行状态的核心功能()A.数据转换B.任务调度C.日志记录与告警D.数据清洗
1.4数据质量类数据清洗的核心目的是()A.提高数据存储效率B.处理数据格式错误,确保数据准确性C.加速数据加载速度D.减少数据冗余以下哪项属于数据质量问题中的“数据不一致”()第3页共14页A.字段值为NULLB.同一指标在不同表中数值不一致C.数据中存在重复行D.数据格式为“YYYY/MM/DD”而非“YYYY-MM-DD”处理空值(NULL)的常用方法不包括()A.填充默认值(如
0、“未知”)B.直接删除包含空值的记录C.将空值转换为非空标识(如“N/A”)D.忽略空值,不做任何处理数据去重的最佳实践是()A.对所有字段进行完全匹配去重B.仅对主键字段去重C.先按关键字段分组,再删除重复组D.无需去重,ETL工具自动处理重复数据
1.5流程设计类ETL开发中,“数据血缘”(Data Lineage)的主要作用是()A.记录数据来源和转换路径,便于问题追溯B.优化数据存储结构C.加速数据加载速度D.提高数据查询效率以下哪项是ETL调度的核心要素()A.数据量大小B.任务优先级、执行周期、依赖关系C.服务器硬件配置D.数据存储路径第4页共14页维度建模中,“事实表”(Fact Table)主要存储()A.描述性属性(如客户名称、产品类别)B.度量值(如销售额、订单数量)和维度主键C.历史数据快照D.数据转换规则以下关于ETL流程中“异常处理”的描述,正确的是()A.无需处理异常,默认流程不中断B.需记录异常信息,支持断点续传C.异常发生时直接终止流程,避免错误数据入库D.异常处理仅适用于数据抽取阶段
1.6性能优化类以下哪项不是ETL性能优化的常用手段()A.数据分区抽取B.增加数据库索引C.减少数据转换步骤D.提高服务器内存容量增量抽取中,基于时间戳的CDC方法优势在于()A.无需修改源表结构B.实时捕获数据变化C.仅需存储时间戳字段D.对源表性能影响小以下哪种数据加载方式适用于大量历史数据初始化()A.全量加载(Full Load)B.增量加载(Incremental Load)C.分区加载(Partition Load)第5页共14页D.并发加载(Parallel Load)ETL中“并行处理”的核心优势是()A.减少数据存储占用B.缩短流程执行时间C.提高数据转换精度D.降低服务器负载
1.7综合应用类在数据仓库建设中,ETL与ELT的主要区别在于()A.ETL先转换后加载,ELT先加载后转换B.ETL适用于关系型数据库,ELT仅适用于NoSQL数据库C.ETL是开源工具,ELT是商业工具D.ETL需手动编写代码,ELT无需编码以下哪项是ETL测试的核心环节()A.功能测试、性能测试、数据一致性测试B.仅测试数据抽取功能C.无需测试,直接上线D.仅测试数据加载速度处理大批量数据时,以下哪种技术更适合实现ETL()A.单线程处理B.批处理C.实时流处理(如Flink)D.随机处理维度表中“SCD Type1”的特点是()A.保留历史版本,新增列记录变化时间B.直接覆盖历史数据,不保留变化记录第6页共14页C.新增行记录变化,保留历史版本D.仅用于事实表
1.8进阶概念类以下哪项不属于数据治理(Data Governance)的范畴()A.ETL流程标准化B.数据质量监控C.数据安全管理D.数据抽取速度优化以下关于“数据湖”(Data Lake)与“数据仓库”(DataWarehouse)的描述,正确的是()A.数据湖存储结构化数据,数据仓库存储非结构化数据B.数据湖支持复杂分析,数据仓库仅支持报表查询C.数据湖更注重数据原始性,数据仓库更注重数据规范性D.两者技术原理完全不同
二、多项选择题(共20题,每题2分)(注每题至少有2个正确答案,多选、少选、错选均不得分)
2.1基础概念类以下属于ETL核心目标的有()A.数据整合B.数据清洗C.数据建模D.数据加载ETL流程中,“数据转换”阶段的主要操作包括()A.数据格式转换(如日期格式、编码转换)B.数据计算(如求和、平均值)第7页共14页C.数据关联(如多表JOIN)D.数据过滤(如条件筛选)
2.2技术原理类数据仓库中,“维度表”的特点包括()A.包含描述性属性B.数据量通常较大C.数据相对稳定(缓慢变化)D.包含度量值增量抽取的常用方法有()A.基于时间戳的抽取B.基于自增ID的抽取C.基于日志的抽取(如CDC)D.全量抽取
2.3工具应用类以下属于开源ETL工具的有()A.Apache NiFiB.Talend OpenStudioC.IBM DataStageD.Apache Flink在Informatica中,Workflow的组成部分包括()A.MappingB.SchedulerC.TargetD.Worklet
2.4数据质量类第8页共14页数据质量的关键维度包括()A.准确性(Accuracy)B.完整性(Completeness)C.一致性(Consistency)D.及时性(Timeliness)以下属于数据质量问题的有()A.数据重复B.数据缺失C.数据格式错误D.数据加密
2.5流程设计类ETL开发中,“数据建模”的主要输出包括()A.源数据模型B.目标数据模型C.数据转换规则D.调度计划维度建模的常见类型有()A.星型模型(Star Schema)B.雪花模型(Snowflake Schema)C.星座模型(Constellation Schema)D.分层模型(Hierarchical Schema)
2.6性能优化类提高ETL性能的方法包括()A.合理使用索引B.并行处理第9页共14页C.数据压缩D.减少JOIN操作数据加载优化的策略有()A.批量加载(如SQL的BULK INSERT)B.分区加载C.索引延迟创建D.事务控制(大事务拆分为小事务)
2.7综合应用类以下关于ELT(Extract,Load,Transform)的描述,正确的有()A.数据先加载到数据仓库,再进行转换B.更适合大数据量场景C.对源系统性能影响小D.主流ETL工具均支持ELTETL测试的类型包括()A.单元测试B.集成测试C.性能测试D.数据一致性测试
2.8进阶概念类数据治理的核心要素包括()A.组织架构B.流程规范C.技术工具D.人员培训以下属于实时数据集成技术的有()第10页共14页A.Apache KafkaB.Apache FlinkC.Apache SparkStreamingD.Apache Airflow
2.9数据安全类ETL流程中,数据安全保障措施包括()A.数据脱敏B.访问权限控制C.数据加密传输D.日志审计数据脱敏的常用方法有()A.替换法(如用“***”替换真实姓名)B.加密法(如AES加密)C.洗牌法(如打乱手机号顺序)D.直接删除敏感字段
2.10问题处理类以下属于ETL流程中常见异常的有()A.源表数据倾斜B.目标表空间不足C.数据格式不匹配D.网络中断解决ETL性能瓶颈的步骤包括()A.性能监控,定位瓶颈环节B.优化数据模型和转换逻辑C.调整资源配置(如增加内存)第11页共14页D.无需处理,等待系统自动恢复
三、判断题(共20题,每题1分)(注对的打“√”,错的打“×”)ETL流程中,“抽取”阶段仅从关系型数据库中获取数据()SCD TypeII适用于客户信息等需要保留历史版本的维度表()增量抽取比全量抽取更节省资源()数据清洗是ETL流程中可省略的步骤()维度表的主键通常是与事实表关联的外键()Kettle(PDI)是开源的ETL工具()ETL与ELT的核心区别在于数据存储位置不同()数据一致性测试是ETL测试的核心内容之一()数据倾斜问题仅在处理非结构化数据时出现()SCD Type1会保留数据的历史版本()ETL调度任务必须每天固定时间执行()实时流处理(如Flink)无法实现ETL功能()数据血缘分析有助于问题追溯和数据质量监控()空值(NULL)在数据质量中一定是有害数据()维度建模中,事实表的主键通常是复合主键()数据湖比数据仓库更注重数据规范性()ETL工具的选择与源数据的技术架构无关()数据脱敏仅用于敏感数据,非敏感数据无需处理()ETL流程中的“转换”阶段是最耗时的环节()CDC技术可实现对源数据变化的实时捕获()
四、简答题(共2题,每题5分)
1.ETL开发的基本流程是什么?第12页共14页参考答案ETL开发基本流程包括需求分析(明确数据目标和范围)→源数据调研(了解源表结构、数据质量)→数据模型设计(源模型、目标模型、转换规则)→开发实现(工具配置、脚本编写)→测试验证(功能、性能、数据一致性)→调度部署(任务调度、监控告警)→运维优化(问题处理、性能调优)
2.SCD(缓慢变化维度)的三种类型及其应用场景是什么?参考答案SCD三种类型Type1直接覆盖历史数据,适用于无历史追溯需求的非关键维度(如产品类型)Type2新增行记录历史版本,保留所有历史值,适用于需追踪变化的维度(如客户信息)Type3新增列记录变化,适用于变化频率低、需快速查看最近状态的维度(如员工职位)附标准答案
一、单项选择题1-5:A DA CB6-10:B BC DB11-15:D CB B D16-20:C A B BB21-25:B AA BA26-30:ABBDC
二、多项选择题ABD
2.ABCD
3.AC
4.ABC
5.AB第13页共14页ABD
7.ABCD
8.ABC
9.ABC
10.ABCABCD
12.ABC
13.ABC
14.ABCD
15.ABCABC
17.ABCD
18.ABC
19.ABCD
20.ABC
三、判断题×
2.√
3.√
4.×
5.√√
7.×
8.√
9.×
10.××
12.×
13.√
14.×
15.√×
17.×
18.×
19.×
20.√
四、简答题(答案见上文)第14页共14页。
个人认证
优秀文档
获得点赞 0