还剩10页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
应用大数据面试题及答案
一、单项选择题(共30题,每题1分)(注每题只有一个正确答案,将正确答案的字母填入括号内)
1.下列关于大数据基本特征的描述,错误的是()A.数据量大(Volume)B.产生速度快(Velocity)C.数据结构统一(Variety)D.数据价值密度低(Value)
2.Hadoop生态系统中,用于分布式存储的核心组件是()A.MapReduceB.HDFSC.YARND.Hive
3.Spark与MapReduce相比,最显著的优势是()A.支持离线计算B.内存计算,速度更快C.仅能处理结构化数据D.依赖HDFS存储数据
4.数据仓库(Data Warehouse)的核心特点是()A.实时处理高并发数据B.面向分析、数据集成、非易失性C.仅存储当前数据D.支持实时写入与查询
5.下列不属于大数据处理技术的是()A.ETL(Extract,Transform,Load)第1页共12页B.OLAP(Online AnalyticalProcessing)C.AI(Artificial Intelligence)D.FTP(File TransferProtocol)
6.HDFS的副本因子(Replication Factor)默认值是()A.1B.2C.3D.
47.实时数据处理场景中,常用的技术是()A.Spark BatchB.FlinkC.HiveD.HBase
8.数据清洗的核心目的是()A.提升数据存储效率B.去除噪声、填补缺失值、修正错误数据C.加速数据查询速度D.压缩数据体积
9.下列属于非结构化数据的是()A.关系型数据库表数据B.日志文件、图片、视频C.电子表格数据D.地理信息数据
10.大数据平台的核心架构通常不包含()A.数据采集层第2页共12页B.数据存储层C.数据管理层D.数据可视化层
11.Spark中,用于分布式计算的核心抽象是()A.DatasetB.RDD(Resilient DistributedDataset)C.DataFrameD.DStream
12.数据湖(Data Lake)与数据仓库的主要区别是()A.数据湖仅存储结构化数据B.数据湖支持原始数据存储,数据仓库存储结构化数据C.数据湖无法进行数据分析D.数据湖依赖关系型数据库
13.下列不属于大数据技术应用场景的是()A.用户行为分析B.实时推荐系统C.传统文件系统备份D.精准营销
14.HBase是基于HDFS的()数据库A.关系型B.文档型C.列存储D.图结构
15.数据倾斜问题通常出现在大数据处理的哪个阶段()A.数据采集第3页共12页B.数据清洗C.数据计算(如MapReduce/Spark)D.数据存储
16.Flume的主要功能是()A.实时数据采集B.数据仓库建模C.数据可视化D.数据压缩
17.下列关于Kafka的描述,错误的是()A.高吞吐率的消息队列B.支持持久化存储C.仅支持单条消息消费D.可用于日志收集
18.Hive的元数据存储默认使用的数据库是()A.MySQLB.HBaseC.DerbyD.PostgreSQL
19.大数据项目中,数据预处理阶段不包含的操作是()A.数据去重B.数据脱敏C.数据分区D.数据清洗
20.下列哪种算法不属于机器学习在大数据场景中的典型应用()A.线性回归第4页共12页B.决策树C.快速排序D.逻辑回归
21.数据生命周期中,“数据被使用和分析”属于哪个阶段()A.数据产生B.数据存储C.数据处理与分析D.数据归档
22.Spark Streaming将数据流拆分为微小的批处理单元,默认批处理时间是()A.1秒B.5秒C.10秒D.30秒
23.下列不属于大数据安全挑战的是()A.数据泄露B.数据篡改C.数据加密D.隐私保护
24.数据仓库的分层架构中,ODS层的主要作用是()A.存储原始数据(未经处理)B.存储维度表和事实表C.存储汇总数据D.存储数据指标
25.HDFS采用的文件存储机制是()第5页共12页A.线性存储B.分布式块存储C.索引存储D.哈希存储
26.在大数据平台中,“数据从产生到被处理的时间窗口”指的是()A.VolumeB.VelocityC.VarietyD.Veracity
27.下列关于Spark SQL的描述,正确的是()A.仅支持SQL查询,不支持DataFrame操作B.可直接操作HDFS上的非结构化数据C.提供了结构化数据的查询能力D.无法与Spark Core混合编程
28.数据脱敏的主要目的是()A.提升数据查询速度B.保护敏感信息(如身份证号、手机号)C.压缩数据大小D.优化数据存储结构
29.大数据技术中,“4V”模型不包含的是()A.ValueB.VelocityC.VolumeD.Virtualization第6页共12页
30.项目中需处理海量历史数据(如10年用户行为日志),优先选择的存储技术是()A.HBase(实时读写)B.HDFS(批处理存储)C.Redis(内存数据库)D.MongoDB(文档型数据库)
二、多项选择题(共20题,每题2分)(注每题有多个正确答案,多选、少选、错选均不得分)
1.大数据的核心技术栈通常包括()A.数据采集工具(如Flume、Kafka)B.分布式存储系统(如HDFS、HBase)C.分布式计算框架(如Spark、MapReduce)D.数据仓库工具(如Hive、Impala)
2.Hadoop生态系统的核心组件有()A.HDFSB.YARNC.MapReduceD.HBase
3.数据处理中的“ETL”包含的步骤有()A.Extract(数据抽取)B.Transform(数据转换)C.Load(数据加载)D.Limit(数据限制)
4.下列属于数据可视化工具的有()A.Tableau第7页共12页B.Power BIC.EChartsD.Hive
5.Spark的部署模式包括()A.Local(本地模式)B.Standalone(独立集群)C.YARN(资源管理器模式)D.Mesos(Mesos集群)
6.数据清洗的常见操作有()A.缺失值处理(填充/删除)B.异常值检测与处理C.数据格式统一(日期、单位等)D.数据去重
7.大数据技术适合解决的问题有()A.海量数据存储与高效访问B.复杂数据关系分析C.低延迟实时计算D.传统小数据量下的精确统计
8.HDFS的副本机制作用是()A.数据容错(单点故障恢复)B.提升数据读写速度C.降低存储成本D.优化数据分布
9.数据湖的优势包括()A.支持原始数据存储(避免数据转换损耗)第8页共12页B.可满足不同业务场景的分析需求C.仅存储结构化数据,安全性更高D.支持多种数据格式(文本、图片、视频等)
10.实时数据处理技术有()A.FlinkB.Spark StreamingC.StormD.MapReduce
11.数据仓库的特点包括()A.面向主题(围绕业务主题组织数据)B.集成性(整合多源数据)C.非易失性(数据仅添加,不删除)D.时变性(数据随时间变化)
12.下列属于数据隐私保护技术的有()A.数据脱敏B.数据加密C.访问控制D.数据清洗
13.Spark RDD的特性包括()A.不可变性(数据创建后不可修改)B.分区存储(数据分布在多个节点)C.依赖关系(宽依赖、窄依赖)D.惰性计算(延迟执行操作)
14.大数据平台的数据采集方式有()A.日志采集(如Web服务器日志、应用日志)第9页共12页B.数据库同步(如CDC,Change DataCapture)C.API接口采集(第三方服务数据)D.文件上传(手动上传数据文件)
15.数据倾斜的解决方法有()A.数据预处理(拆分热点Key)B.调整并行度(增加Task数量)C.使用随机前缀(打散热点数据)D.避免使用Join操作
16.机器学习在大数据中的典型应用场景包括()A.用户画像构建B.异常检测C.预测分析(如销量预测)D.数据清洗(自动识别异常值)
17.HBase的核心组件有()A.HMaster(主节点)B.HRegionServer(区域服务器)C.Zookeeper(协调服务)D.HDFS(存储底层)
18.数据质量评估的维度包括()A.准确性(数据真实反映实际情况)B.完整性(数据无缺失)C.一致性(数据格式、单位统一)D.及时性(数据更新及时)
19.下列关于Kafka的描述,正确的有()A.基于发布-订阅模式第10页共12页B.支持消息持久化C.可水平扩展D.单条消息只能被一个消费者消费
20.大数据项目的实施流程通常包括()A.需求分析与目标定义B.数据模型设计(如星型模型、雪花模型)C.技术选型与架构设计D.项目上线与持续优化
三、判断题(共20题,每题1分)(注对的打“√”,错的打“×”)
1.大数据等同于数据量大的数据集()
2.HDFS是一个分布式文件系统,适合存储海量小文件()
3.Spark的DataFrame比RDD更高效,因为它有Schema信息()
4.数据仓库中的数据是可直接从业务数据库抽取的原始数据()
5.Flume只能采集本地日志文件,无法采集网络数据()
6.数据倾斜会导致任务执行时间过长,甚至任务失败()
7.数据湖支持多种数据格式,包括结构化、半结构化和非结构化数据()
8.HBase是关系型数据库()
9.MapReduce是Spark出现前的主流分布式计算框架()
10.实时数据处理的延迟要求通常在秒级或毫秒级()
11.数据脱敏是为了提升数据查询速度()
12.Spark Streaming默认的批处理时间是5秒()
13.大数据技术仅用于互联网行业,传统行业无法应用()
14.Hive支持实时查询()第11页共12页
15.数据生命周期中,“数据归档”是指永久保存所有数据()
16.逻辑回归是一种分类算法()
17.HDFS的副本因子越大,数据安全性越高,存储成本也越高()
18.Kafka的消息分区只能增加,不能减少()第12页共12页。
个人认证
优秀文档
获得点赞 0