还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据仓库测试题库及答案
一、单选题(本题型共15题,每题1分,共15分)
1.数据仓库(Data Warehouse)的概念最早由谁提出?()A.E.F.CoddB.Bill InmonC.Ralph KimballD.Howard Dresner
2.以下哪项是数据仓库区别于操作型数据库(OLTP)的最核心特点?()A.支持联机事务处理B.数据面向主题C.数据实时更新D.数据结构与业务系统高度一致
3.数据仓库中的数据通常不具备以下哪个特性?()A.面向主题B.集成性C.易失性D.随时间变化
4.ETL是数据仓库建设中的关键环节,以下哪项不属于ETL的主要步骤?()A.数据抽取(Extract)B.数据转换(Transform)C.数据加载(Load)D.数据建模(Modeling)第1页共14页
5.“数据集市”的主要特点是?()A.面向企业级全局数据B.面向特定业务部门需求C.数据量极大且结构复杂D.支持实时查询和修改
6.在数据仓库分层架构中,“DWD”指的是?()A.数据集市层(Application DataStore)B.数据服务层(Data WarehouseService)C.数据明细层(Data WarehouseDetail)D.操作数据存储层(Operational DataStore)
7.以下哪种数据模型常用于数据仓库设计,以清晰展示业务过程和维度?()A.星型模型B.关系型模型C.网状模型D.层次模型
8.数据仓库中,“元数据”(Metadata)的主要作用是?()A.存储原始业务数据B.描述数据的数据,帮助理解和管理数据C.直接执行用户查询操作D.优化数据库性能
9.数据清洗(Data Cleansing)的主要目的是?()A.加速数据加载速度B.消除数据中的错误、重复和不一致C.压缩数据存储空间第2页共14页D.提升数据查询效率
10.以下哪项不属于数据仓库的典型应用场景?()A.企业报表统计B.实时交易处理C.用户行为分析D.销售趋势预测
11.数据仓库中的“快照(Snapshot)”数据指的是?()A.实时更新的最新数据B.某个时间点的数据副本,用于历史分析C.经过清洗后的原始数据D.聚合后的汇总数据
12.以下哪种数据仓库设计方法更注重业务部门需求,通过维度建模快速响应特定分析?()A.Inmon的“自上而下”企业级数据仓库B.Kimball的“自下而上”数据集市C.混合架构D.以上都不是
13.数据仓库中的“事实表”(Fact Table)主要存储的是?()A.业务过程的度量值和维度键B.描述数据的属性信息C.数据的元数据信息D.数据清洗规则
14.以下哪项不是数据仓库的技术优势?()A.支持复杂历史数据分析B.多源数据整合能力强第3页共14页C.高并发实时事务处理D.面向决策支持
15.数据仓库中,“分区表”(Partitioning Table)的主要作用是?()A.减少数据存储量B.提高数据查询和管理效率C.确保数据安全性D.加速数据加载速度
二、判断题(本题型共15题,每题1分,共15分)
1.数据仓库中的数据只能从操作型数据库中抽取()
2.数据仓库支持对历史数据的查询和分析()
3.ETL过程中,数据转换(Transform)阶段是最耗时的环节()
4.数据仓库中的数据是可以被直接修改的()
5.数据集市一定是独立于企业级数据仓库存在的()
6.数据仓库的查询操作通常是批量处理,而非实时响应()
7.维度表(Dimension Table)中存储的是业务过程的具体数值()
8.数据仓库的“非易失性”意味着数据一旦进入就永远不会被删除()
9.星型模型中,中心表是事实表,周围表是维度表()
10.元数据不包含数据的来源和转换规则信息()
11.数据仓库的数据集成(Integration)阶段需要处理数据格式、编码和单位的统一()
12.数据仓库与数据挖掘技术结合可以实现预测分析()第4页共14页
13.雪花模型是星型模型的扩展,维度表可以进一步规范化为多个子维度表()
14.数据仓库的用户通常包括业务分析师、数据科学家和管理层()
15.数据仓库的分层架构(如ODS、DWD等)会增加数据处理的复杂度,必须采用()
三、填空题(本题型共15题,每题1分,共15分)
1.数据仓库的四大核心特点是面向主题、集成性、______和随时间变化
2.ETL的中文全称是数据抽取、______与加载
3.数据仓库中,存储业务过程具体数值的表称为______表
4.Ralph Kimball提出的“______”方法强调以业务过程为中心,快速构建数据集市
5.数据仓库的分层架构中,“ODS”指的是______
6.数据仓库中的“数据集市”可以分为独立型数据集市和______数据集市
7.数据清洗中,处理缺失值的常用方法包括删除、______和插补
8.与操作型数据库(OLTP)相比,数据仓库更关注______分析
9.数据仓库的设计流程通常包括需求分析、______、数据模型设计和实施
10.元数据可以分为技术元数据(如数据结构)、业务元数据(如数据定义)和______元数据(如数据质量)
11.数据仓库中的“增量加载”指的是仅抽取和加载______的数据
12.星型模型中,连接事实表和维度表的关键字段称为______第5页共14页
13.数据仓库的“面向主题”特性强调数据围绕______组织,而非具体业务流程
14.数据仓库的“非易失性”意味着数据主要通过______方式进入,且一旦加载后不允许随意修改
15.数据仓库性能优化的常用手段包括分区表、索引优化和______
四、多选题(本题型共10题,每题2分,共20分)
1.以下属于数据仓库特点的有()A.面向主题B.集成性C.易失性D.随时间变化E.面向应用
2.数据仓库的典型技术组件包括()A.ETL工具B.OLAP服务器C.数据挖掘工具D.关系型数据库E.操作系统
3.数据集市的优势包括()A.建设周期短B.成本低C.直接面向特定业务需求D.数据冗余度高E.与企业级数据仓库完全独立
4.数据仓库分层架构(ODS、DWD、DWS、ADS)的优势有()第6页共14页A.数据管理清晰,便于维护B.提高数据复用性C.支持不同粒度的数据需求D.降低数据处理复杂度E.加速数据加载速度
5.ETL过程中,数据转换阶段可能涉及的操作有()A.数据格式转换(如日期格式统一)B.数据清洗(如去重、补全缺失值)C.数据计算(如求和、平均值)D.数据加密(如敏感字段脱敏)E.数据合并(如多源数据关联)
6.以下属于数据仓库维度表特点的有()A.包含描述性信息B.数据量通常较大C.数据相对稳定D.包含业务过程的度量值E.可以有多个层级(如国家-省份-城市)
7.数据仓库中,星型模型的缺点包括()A.数据冗余度较高B.复杂查询效率低C.维度表规范化程度低D.扩展性差E.难以理解业务关系
8.数据仓库的应用价值体现在()A.整合多源数据,消除信息孤岛第7页共14页B.支持复杂历史数据分析和趋势预测C.为管理层决策提供数据支持D.通过数据挖掘发现隐藏业务规律E.实时处理高并发交易
9.以下属于数据质量维度的有()A.准确性B.完整性C.一致性D.及时性E.可扩展性
10.数据仓库设计中,“自下而上”(Kimball)方法的步骤包括()A.识别业务过程B.构建数据集市C.创建企业级数据模型D.实施数据仓库E.验证业务需求
五、简答题(本题型共5题,每题5分,共25分)
1.简述数据仓库与操作型数据库(OLTP)在设计目标、数据内容、访问模式和用户类型上的主要区别
2.请详细描述ETL过程中“数据转换(Transform)”阶段的核心任务(至少列举3项)
3.数据仓库分层设计(如ODS层、DWD层、DWS层、ADS层)的具体含义是什么?每层的主要作用是什么?
4.什么是空值(Null Value)?在数据仓库中,处理空值的常用方法有哪些?请简述每种方法的适用场景第8页共14页
5.星型模型(Star Schema)和雪花模型(Snowflake Schema)的主要区别是什么?在什么情况下更适合使用雪花模型?
六、案例分析题(本题型共3题,每题10分,共30分)
1.场景某零售企业计划构建数据仓库,用于分析各门店的销售情况,包括销售额、客流量、商品分类等指标,并支持管理层按区域(华东、华南等)、商品类别(食品、家电等)和时间(日、周、月)进行多维度分析该企业现有数据来源包括门店信息表(门店ID、门店名称、区域、地址)、商品信息表(商品ID、商品名称、类别、价格)、销售明细表(销售ID、门店ID、商品ID、销售时间、销售数量、销售金额)问题
(1)请用文字描述该数据仓库的星型模型架构,明确指出维度表和事实表的名称及主要字段
(2)该星型模型的优点是什么?可能存在哪些潜在问题?
2.场景某电商平台数据仓库在日常运行中发现,用户查询历史订单数据时响应速度较慢(平均耗时超过10秒),严重影响用户体验该数据仓库采用分层架构,其中DWD层存储订单明细数据,DWS层存储订单汇总数据,ADS层提供用户查询的聚合结果问题
(1)请分析可能导致查询慢的3个主要原因
(2)针对每个原因,提出至少一种优化方案
3.场景某银行计划建设企业级数据仓库,初期需要支持信贷业务分析(如贷款申请量、审批通过率、逾期率等),后期扩展到理财、保险等业务分析数据仓库团队提出两种设计方案第9页共14页-方案一(Inmon架构)先建设企业级数据仓库,再从数据仓库中抽取数据到各业务部门的数据集市-方案二(Kimball架构)先针对信贷业务快速建设数据集市,再逐步扩展到其他业务问题
(1)对比两种方案的优缺点
(2)如果你是项目负责人,在项目初期(仅考虑信贷业务)会选择哪种方案?并说明理由答案汇总
一、单选题
1.B
2.B
3.C
4.D
5.B
6.C
7.A
8.B
9.B
10.B
2.B
12.B
13.A
14.C
15.B
二、判断题
1.×(数据仓库数据主要来自OLTP,也可来自文件、日志等)
2.√
3.√(数据转换涉及格式、清洗等复杂处理)
4.×(数据仓库数据通常不可直接修改)
5.×(独立型数据集市可能依赖企业级数据仓库基础)
6.√
7.×(维度表存储描述性信息,事实表存储度量值)
8.×(“非易失性”指不允许随意修改,历史数据可追加)
9.√
10.×(元数据包含数据来源和转换规则)
11.√
12.√第10页共14页
13.√
14.√
15.×(分层架构可按需采用,非必须)
三、填空题
1.非易失性
2.转换
3.事实
4.总线架构
5.操作数据存储
6.从属型
7.替换
8.决策支持/分析型
9.概念模型设计
10.业务
11.新增或变化
12.外键/维度键
13.业务主题
14.追加(Append)
15.数据压缩
四、多选题
1.ABD
2.ABC
3.ABC
4.ABC
5.ABCDE
2.ACE
7.AC
8.ABCD
9.ABCD
3.ABDE
五、简答题第11页共14页
1.
(1)设计目标数据仓库面向决策支持,OLTP面向事务处理;
(2)数据内容数据仓库存储历史、汇总数据,OLTP存储当前、详细数据;
(3)访问模式数据仓库批量查询为主,OLTP实时联机操作为主;
(4)用户类型数据仓库用户为分析师/管理层,OLTP用户为业务人员(注每点
1.25分,共5分)
2.
(1)数据格式转换(如统一日期、编码格式);
(2)数据清洗(去重、补全缺失值、处理异常值);
(3)数据计算(如求和、平均值、比例计算);
(4)数据脱敏(敏感字段加密处理);
(5)数据合并(多源数据关联、关联维度表)(列举3项即可,每项
1.67分,共5分)
3.
(1)ODS层操作数据存储,临时存储原始数据,提供数据缓冲;
(2)DWD层数据明细层,存储经过清洗和标准化的明细数据;
(3)DWS层数据汇总层,存储按业务主题汇总的中间数据;
(4)ADS层应用数据服务层,为业务分析提供直接可用的聚合结果(每层
1.25分,共5分)
4.空值是指数据中缺失的、无意义的或未定义的值处理方法包括
(1)删除若空值比例低且不影响分析,直接删除含空值的记录;
(2)替换用固定值(如“未知”)或同类数据均值替换;
(3)插补基于业务规则或机器学习模型预测填充(如时间序列插值);
(4)保留标记为特殊值(如“NULL”),用于后续分析判断数据质量(方法2分+适用场景
1.5分,共5分)
5.区别星型模型维度表非规范化,直接与事实表连接;雪花模型维度表进一步规范化,可拆分为多个子维度表适用雪花模型的情况
(1)维度数据结构复杂,有明显层级关系(如地区-国家-省份);第12页共14页
(2)需要减少数据冗余;
(3)查询逻辑简单,维度层级固定(区别2分+适用场景3分,共5分)
六、案例分析题
1.
(1)维度表
①门店维度表(门店ID、门店名称、区域、地址);
②商品维度表(商品ID、商品名称、类别、价格);
③时间维度表(销售时间、年、季、月、周)事实表销售事实表(销售ID、门店ID、商品ID、销售时间、销售数量、销售金额)(维度表3分,事实表2分,共5分;字段列举正确即可)
(2)优点结构简单,易于理解;查询效率高(无复杂关联);维度表直接与事实表连接,业务逻辑清晰潜在问题商品维度表中“类别”若为单一值(如仅“食品”),无冗余;若类别层级多(如食品-零食-薯片),可能导致维度表数据冗余(优点2分,问题3分,共5分)
2.
(1)可能原因
①DWD层订单明细数据量过大,未分区;
②DWS层汇总数据未预计算;
③ADS层查询未使用合适索引或缓存(每点2分,共6分)
(2)优化方案
①对DWD层按“销售时间”分区,仅查询历史数据时扫描指定分区;
②DWS层采用定时预计算(如T+1批量计算),替代实时汇总;
③ADS层对常用查询字段建立索引(如对“用户ID”“销售时间”建复合索引),并启用结果缓存(每原因对应方案2分,共4分,共6分)
3.
(1)方案一(Inmon)优点:架构统一,数据一致性高,支持企业级全局分析;缺点:建设周期长,成本高,初期业务响应慢方案二(Kimball)优点:建设周期短,能快速满足业务需求,用户参与度第13页共14页高;缺点:可能导致数据冗余,后期整合困难,需避免“烟囱式”建设(每方案
2.5分,共5分)
(2)选择方案二(Kimball)理由项目初期仅考虑信贷业务,采用“自下而上”数据集市可快速落地,验证业务价值,且信贷业务有明确边界,数据集市建设难度低;后期扩展到其他业务时,可逐步整合,避免初期大量投入却无法验证需求的风险(选择1分+理由4分,共5分)第14页共14页。
个人认证
优秀文档
获得点赞 0