应用大数据面试题及答案

佚名 · 0905

应用，试题，答案

文件大小14.73 KB

文件格式docx

分享时间2025-10-03

更多此类文档

立即下载

还剩10页未读，继续阅读

本资源只提供10页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

立即下载

文本内容:

应用大数据面试题及答案

一、单项选择题（共30题，每题1分）（注每题只有一个正确答案，将正确答案的字母填入括号内）

1.下列关于大数据基本特征的描述，错误的是（）A.数据量大（Volume）B.产生速度快（Velocity）C.数据结构统一（Variety）D.数据价值密度低（Value）

2.Hadoop生态系统中，用于分布式存储的核心组件是（）A.MapReduceB.HDFSC.YARND.Hive

3.Spark与MapReduce相比，最显著的优势是（）A.支持离线计算B.内存计算，速度更快C.仅能处理结构化数据D.依赖HDFS存储数据

4.数据仓库（Data Warehouse）的核心特点是（）A.实时处理高并发数据B.面向分析、数据集成、非易失性C.仅存储当前数据D.支持实时写入与查询

5.下列不属于大数据处理技术的是（）A.ETL（Extract,Transform,Load）第1页共12页B.OLAP（Online AnalyticalProcessing）C.AI（Artificial Intelligence）D.FTP（File TransferProtocol）

6.HDFS的副本因子（Replication Factor）默认值是（）A.1B.2C.3D.

47.实时数据处理场景中，常用的技术是（）A.Spark BatchB.FlinkC.HiveD.HBase

8.数据清洗的核心目的是（）A.提升数据存储效率B.去除噪声、填补缺失值、修正错误数据C.加速数据查询速度D.压缩数据体积

9.下列属于非结构化数据的是（）A.关系型数据库表数据B.日志文件、图片、视频C.电子表格数据D.地理信息数据

10.大数据平台的核心架构通常不包含（）A.数据采集层第2页共12页B.数据存储层C.数据管理层D.数据可视化层

11.Spark中，用于分布式计算的核心抽象是（）A.DatasetB.RDD（Resilient DistributedDataset）C.DataFrameD.DStream

12.数据湖（Data Lake）与数据仓库的主要区别是（）A.数据湖仅存储结构化数据B.数据湖支持原始数据存储，数据仓库存储结构化数据C.数据湖无法进行数据分析D.数据湖依赖关系型数据库

13.下列不属于大数据技术应用场景的是（）A.用户行为分析B.实时推荐系统C.传统文件系统备份D.精准营销

14.HBase是基于HDFS的（）数据库A.关系型B.文档型C.列存储D.图结构

15.数据倾斜问题通常出现在大数据处理的哪个阶段（）A.数据采集第3页共12页B.数据清洗C.数据计算（如MapReduce/Spark）D.数据存储

16.Flume的主要功能是（）A.实时数据采集B.数据仓库建模C.数据可视化D.数据压缩

17.下列关于Kafka的描述，错误的是（）A.高吞吐率的消息队列B.支持持久化存储C.仅支持单条消息消费D.可用于日志收集

18.Hive的元数据存储默认使用的数据库是（）A.MySQLB.HBaseC.DerbyD.PostgreSQL

19.大数据项目中，数据预处理阶段不包含的操作是（）A.数据去重B.数据脱敏C.数据分区D.数据清洗

20.下列哪种算法不属于机器学习在大数据场景中的典型应用（）A.线性回归第4页共12页B.决策树C.快速排序D.逻辑回归

21.数据生命周期中，“数据被使用和分析”属于哪个阶段（）A.数据产生B.数据存储C.数据处理与分析D.数据归档

22.Spark Streaming将数据流拆分为微小的批处理单元，默认批处理时间是（）A.1秒B.5秒C.10秒D.30秒

23.下列不属于大数据安全挑战的是（）A.数据泄露B.数据篡改C.数据加密D.隐私保护

24.数据仓库的分层架构中，ODS层的主要作用是（）A.存储原始数据（未经处理）B.存储维度表和事实表C.存储汇总数据D.存储数据指标

25.HDFS采用的文件存储机制是（）第5页共12页A.线性存储B.分布式块存储C.索引存储D.哈希存储

26.在大数据平台中，“数据从产生到被处理的时间窗口”指的是（）A.VolumeB.VelocityC.VarietyD.Veracity

27.下列关于Spark SQL的描述，正确的是（）A.仅支持SQL查询，不支持DataFrame操作B.可直接操作HDFS上的非结构化数据C.提供了结构化数据的查询能力D.无法与Spark Core混合编程

28.数据脱敏的主要目的是（）A.提升数据查询速度B.保护敏感信息（如身份证号、手机号）C.压缩数据大小D.优化数据存储结构

29.大数据技术中，“4V”模型不包含的是（）A.ValueB.VelocityC.VolumeD.Virtualization第6页共12页

30.项目中需处理海量历史数据（如10年用户行为日志），优先选择的存储技术是（）A.HBase（实时读写）B.HDFS（批处理存储）C.Redis（内存数据库）D.MongoDB（文档型数据库）

二、多项选择题（共20题，每题2分）（注每题有多个正确答案，多选、少选、错选均不得分）

1.大数据的核心技术栈通常包括（）A.数据采集工具（如Flume、Kafka）B.分布式存储系统（如HDFS、HBase）C.分布式计算框架（如Spark、MapReduce）D.数据仓库工具（如Hive、Impala）

2.Hadoop生态系统的核心组件有（）A.HDFSB.YARNC.MapReduceD.HBase

3.数据处理中的“ETL”包含的步骤有（）A.Extract（数据抽取）B.Transform（数据转换）C.Load（数据加载）D.Limit（数据限制）

4.下列属于数据可视化工具的有（）A.Tableau第7页共12页B.Power BIC.EChartsD.Hive

5.Spark的部署模式包括（）A.Local（本地模式）B.Standalone（独立集群）C.YARN（资源管理器模式）D.Mesos（Mesos集群）

6.数据清洗的常见操作有（）A.缺失值处理（填充/删除）B.异常值检测与处理C.数据格式统一（日期、单位等）D.数据去重

7.大数据技术适合解决的问题有（）A.海量数据存储与高效访问B.复杂数据关系分析C.低延迟实时计算D.传统小数据量下的精确统计

8.HDFS的副本机制作用是（）A.数据容错（单点故障恢复）B.提升数据读写速度C.降低存储成本D.优化数据分布

9.数据湖的优势包括（）A.支持原始数据存储（避免数据转换损耗）第8页共12页B.可满足不同业务场景的分析需求C.仅存储结构化数据，安全性更高D.支持多种数据格式（文本、图片、视频等）

10.实时数据处理技术有（）A.FlinkB.Spark StreamingC.StormD.MapReduce

11.数据仓库的特点包括（）A.面向主题（围绕业务主题组织数据）B.集成性（整合多源数据）C.非易失性（数据仅添加，不删除）D.时变性（数据随时间变化）

12.下列属于数据隐私保护技术的有（）A.数据脱敏B.数据加密C.访问控制D.数据清洗

13.Spark RDD的特性包括（）A.不可变性（数据创建后不可修改）B.分区存储（数据分布在多个节点）C.依赖关系（宽依赖、窄依赖）D.惰性计算（延迟执行操作）

14.大数据平台的数据采集方式有（）A.日志采集（如Web服务器日志、应用日志）第9页共12页B.数据库同步（如CDC，Change DataCapture）C.API接口采集（第三方服务数据）D.文件上传（手动上传数据文件）

15.数据倾斜的解决方法有（）A.数据预处理（拆分热点Key）B.调整并行度（增加Task数量）C.使用随机前缀（打散热点数据）D.避免使用Join操作

16.机器学习在大数据中的典型应用场景包括（）A.用户画像构建B.异常检测C.预测分析（如销量预测）D.数据清洗（自动识别异常值）

17.HBase的核心组件有（）A.HMaster（主节点）B.HRegionServer（区域服务器）C.Zookeeper（协调服务）D.HDFS（存储底层）

18.数据质量评估的维度包括（）A.准确性（数据真实反映实际情况）B.完整性（数据无缺失）C.一致性（数据格式、单位统一）D.及时性（数据更新及时）

19.下列关于Kafka的描述，正确的有（）A.基于发布-订阅模式第10页共12页B.支持消息持久化C.可水平扩展D.单条消息只能被一个消费者消费

20.大数据项目的实施流程通常包括（）A.需求分析与目标定义B.数据模型设计（如星型模型、雪花模型）C.技术选型与架构设计D.项目上线与持续优化

三、判断题（共20题，每题1分）（注对的打“√”，错的打“×”）

1.大数据等同于数据量大的数据集（）

2.HDFS是一个分布式文件系统，适合存储海量小文件（）

3.Spark的DataFrame比RDD更高效，因为它有Schema信息（）

4.数据仓库中的数据是可直接从业务数据库抽取的原始数据（）

5.Flume只能采集本地日志文件，无法采集网络数据（）

6.数据倾斜会导致任务执行时间过长，甚至任务失败（）

7.数据湖支持多种数据格式，包括结构化、半结构化和非结构化数据（）

8.HBase是关系型数据库（）

9.MapReduce是Spark出现前的主流分布式计算框架（）

10.实时数据处理的延迟要求通常在秒级或毫秒级（）

11.数据脱敏是为了提升数据查询速度（）

12.Spark Streaming默认的批处理时间是5秒（）

13.大数据技术仅用于互联网行业，传统行业无法应用（）

14.Hive支持实时查询（）第11页共12页

15.数据生命周期中，“数据归档”是指永久保存所有数据（）

16.逻辑回归是一种分类算法（）

17.HDFS的副本因子越大，数据安全性越高，存储成本也越高（）

18.Kafka的消息分区只能增加，不能减少（）第12页共12页。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小14.73 KB

文件格式docx

分享时间2025-10-03

更多此类文档

立即下载