还剩12页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
hadoop试题及答案
一、单项选择题(共30题,每题1分,共30分)(注每题只有一个正确答案,将正确选项的字母填入括号内)
1.Hadoop生态系统中,负责分布式存储的核心组件是()A.MapReduceB.HDFSC.YARND.Hive
2.HDFS中,默认的副本数量是()A.1B.2C.3D.
43.HDFS的NameNode的主要作用是()A.存储实际数据B.管理文件系统元数据C.执行数据计算D.处理客户端请求
4.在MapReduce计算模型中,数据处理的核心阶段是()A.Map阶段和Reduce阶段B.Map阶段和Shuffle阶段C.Shuffle阶段和Reduce阶段D.Map阶段、Shuffle阶段和Reduce阶段
5.YARN的核心组件不包括()A.ResourceManager第1页共14页B.NodeManagerC.ApplicationMasterD.DataNode
6.HDFS的“块(Block)”默认大小是()A.64MBB.128MBC.256MBD.512MB
7.MapReduce中,输入数据被切分成小数据块后,由哪个组件负责分发到Map任务()A.JobTrackerB.TaskTrackerC.InputFormatD.OutputFormat
8.Hive中,用于将数据导入Hive表的命令是()A.CREATE TABLEB.INSERT INTOC.LOAD DATAD.SELECT
9.HBase的存储结构是()A.行式存储B.列式存储C.文档式存储D.图结构存储
10.Hadoop集群启动时,通常需要先启动哪个服务()第2页共14页A.HDFSB.YARNC.HiveD.HBase
11.HDFS中,当副本丢失时,会触发什么操作()A.自动从其他节点复制副本B.提示用户手动处理C.直接删除该文件D.忽略该副本
12.MapReduce的Shuffle阶段不包括()A.数据分区B.数据排序C.数据合并D.数据压缩
13.YARN的ResourceManager的主要职责是()A.管理节点资源B.调度应用资源C.执行用户程序D.存储集群状态
14.HDFS的“SecondaryNameNode”的作用是()A.替代NameNodeB.辅助NameNode合并编辑日志C.存储实际数据副本D.处理客户端读写请求
15.Hive与传统关系型数据库(如MySQL)的主要区别是()第3页共14页A.Hive基于内存计算,MySQL基于磁盘计算B.Hive适合实时查询,MySQL适合离线分析C.Hive支持结构化数据,MySQL仅支持非结构化数据D.Hive是分布式存储计算,MySQL是集中式存储
16.HBase中,“RegionServer”的核心功能是()A.管理RegionB.存储实际数据C.处理客户端请求D.维护ZooKeeper连接
17.在HDFS中,用于查看文件内容的命令是()A.hdfs dfs-lsB.hdfs dfs-catC.hdfs dfs-mkdirD.hdfs dfs-put
18.MapReduce的“Job”对象的作用是()A.定义计算逻辑B.提交计算任务到集群C.存储计算结果D.管理Map/Reduce任务
19.Hadoop集群中,“DataNode”的主要作用是()A.存储实际数据块B.管理文件元数据C.调度任务资源D.处理客户端请求
20.Hive的“External Table”与“Internal Table”的区别是()第4页共14页A.External Table的数据删除时不影响原始数据,Internal Table会删除原始数据B.External Table的元数据存储在Hive Metastore,InternalTable不存储C.External Table支持分区,Internal Table不支持D.External Table查询速度更快,Internal Table更节省资源
21.HBase中,“RowKey”的作用是()A.用于数据压缩B.唯一标识一行数据C.存储列族信息D.索引列值
22.HDFS的“Write”操作流程是()A.客户端直接写入DataNode,无需NameNode参与B.客户端先向NameNode申请写入,再写入DataNodeC.客户端直接写入NameNode,由NameNode分发到DataNodeD.客户端仅需写入SecondaryNameNode
23.MapReduce中,“InputSplit”的作用是()A.划分数据为可并行处理的小任务B.存储Map输出结果C.合并Reduce输出结果D.压缩数据传输
24.YARN的“Container”的作用是()A.存储应用配置B.分配资源给应用C.执行Map/Reduce任务第5页共14页D.管理节点资源
25.Hive中,“ORC”文件格式的主要优势是()A.存储效率高,压缩比大B.支持实时更新C.仅支持文本格式D.不支持分区表
26.HBase中,“ColumnFamily”(列族)的特点是()A.动态创建,无需预定义B.存储时会将同一列族的列合并为一个StoreFileC.不支持版本控制D.列名可以动态添加,无需预定义
27.HDFS的“Checksum”机制的作用是()A.加速文件读写B.验证数据完整性C.压缩数据大小D.加密数据内容
28.MapReduce的“Combiner”的作用是()A.优化Map阶段输出数据量B.替代Reduce阶段C.直接存储计算结果D.仅用于数据排序
29.Hadoop集群部署时,“SSH免密登录”的主要目的是()A.加速集群启动B.实现节点间无密码通信C.节省服务器资源第6页共14页D.简化配置流程
30.Hive中,“Partition”(分区)的主要作用是()A.提高查询效率B.自动备份数据C.压缩数据文件D.支持实时更新
二、多项选择题(共20题,每题2分,共40分)(注每题有多个正确答案,将正确选项的字母填入括号内,多选、少选、错选均不得分)
1.Hadoop生态系统的核心组件包括()A.HDFSB.MapReduceC.YARND.HiveE.HBase
2.HDFS的高容错性体现在()A.数据多副本存储B.自动故障转移C.副本自动恢复D.数据压缩存储E.支持跨平台访问
3.MapReduce的优点包括()A.适合批处理任务B.高容错性C.实时性强第7页共14页D.适合海量数据处理E.支持复杂计算逻辑
4.YARN的基本架构组件包括()A.ResourceManagerB.NodeManagerC.ApplicationMasterD.ContainerE.JobTracker
5.HDFS的“Write”操作涉及的角色有()A.客户端(Client)B.NameNodeC.SecondaryNameNodeD.DataNodeE.ZooKeeper
6.Hive支持的文件格式有()A.TextFileB.ORCC.ParquetD.SequenceFileE.JSON
7.HBase的核心概念包括()A.TableB.RegionC.RowKeyD.ColumnFamily第8页共14页E.Cell
8.Hadoop集群的部署模式有()A.单机模式B.伪分布式模式C.完全分布式模式D.本地模式E.分布式模式
9.HDFS的“Read”操作流程包括()A.客户端向NameNode请求文件元数据B.NameNode返回文件块位置信息C.客户端直接从DataNode读取数据D.DataNode返回数据给客户端E.客户端进行数据合并(如多副本)
10.MapReduce的工作流程包括()A.Map阶段B.Shuffle阶段C.Reduce阶段D.Sort阶段E.Output阶段
11.HBase的“Region”拆分策略包括()A.基于大小拆分(如10GB)B.基于行键范围拆分C.基于时间戳拆分D.基于列数拆分E.基于RegionServer数量拆分第9页共14页
12.Hive的元数据存储方式有()A.内置Derby数据库B.MySQL数据库C.PostgreSQL数据库D.Oracle数据库E.HDFS文件存储
13.HDFS的“Delete”操作特点包括()A.文件直接删除,无需确认B.删除后文件进入回收站,可恢复C.目录删除需先删除所有子文件D.超级用户可强制删除E.删除操作由NameNode直接执行
14.YARN的资源调度器类型有()A.FIFO调度器B.Capacity SchedulerC.Fair SchedulerD.Round Robin调度器E.Hash调度器
15.HBase的“Filter”(过滤器)可用于()A.按RowKey过滤数据B.按ColumnFamily过滤列C.按时间戳过滤版本D.按值过滤列值E.按文件大小过滤
16.Hadoop集群的配置文件包括()第10页共14页A.core-site.xmlB.hdfs-site.xmlC.mapred-site.xmlD.yarn-site.xmlE.hive-site.xml
17.HDFS的“Block”的作用是()A.限制文件大小B.便于并行处理C.提高存储效率D.支持文件备份E.加速文件查找
18.MapReduce的“InputFormat”和“OutputFormat”的作用是()A.InputFormat负责解析输入数据为键值对B.OutputFormat负责将Reduce输出结果写入目标存储C.两者均支持自定义实现D.InputFormat仅支持文本格式E.OutputFormat只能输出到HDFS
19.Hive的“Partition”(分区)和“Bucket”(分桶)的区别是()A.分区基于列值范围或枚举,分桶基于哈希值B.分区查询时可快速过滤数据,分桶可优化连接操作C.分区是物理拆分,分桶是逻辑拆分D.分区列必须是数值型,分桶列必须是字符串型E.分区支持动态创建,分桶需手动配置
20.HBase的“ZooKeeper”的作用包括()第11页共14页A.存储RegionServer地址B.选举HMaster主备C.记录HBase元数据D.管理Region状态E.加速数据读写
三、判断题(共20题,每题1分,共20分)(注对的打“√”,错的打“×”)
1.HDFS是Hadoop的分布式文件系统,仅支持文本文件存储()
2.MapReduce的Reduce阶段会对Map输出的结果进行排序和合并()
3.YARN的NodeManager负责管理单个节点的资源()
4.HDFS的副本数设置越大,数据安全性越高,存储成本也越高()
5.Hive的HQL语句与传统SQL语法完全一致,可直接迁移使用()
6.HBase是基于HDFS的NoSQL数据库,支持随机读写()
7.Hadoop集群启动时,必须先启动HDFS,再启动YARN()
8.MapReduce的Combiner组件只能在Map阶段使用,不能在Reduce阶段使用()
9.HDFS的SecondaryNameNode会实时合并NameNode的编辑日志和镜像文件()
10.Hive的Internal Table(内部表)删除时,仅删除元数据,原始数据仍保留在HDFS()
11.HBase的Region是最小的数据存储单元,一个Region对应一个RegionServer()第12页共14页
12.Hadoop的单机模式适合开发调试,完全分布式模式适合生产环境()
13.MapReduce的Shuffle阶段中,数据分区的默认规则是基于键值对的哈希值()
14.HDFS的“hdfs dfs-chmod”命令用于修改文件权限()
15.Hive的“EXPLAIN”命令用于查看查询执行计划()
16.HBase的“put”命令用于向表中插入一行数据()
17.YARN的Capacity Scheduler支持多队列资源分配,每个队列有固定资源配额()
18.HDFS的“Checksum”机制会在文件写入时生成校验和,读取时验证数据完整性()
19.Hive的“CTAS”(Create TableAs Select)命令可直接从查询结果创建新表()
20.HBase的“scan”命令可扫描表中所有数据,默认按RowKey升序排列()
四、简答题(共2题,每题5分,共10分)
1.简述HDFS的主要作用及核心特性
2.简述MapReduce的基本工作流程参考答案
一、单项选择题B
2.C
3.B
4.D
5.D
6.B
7.C
8.C
9.B
10.AA
12.D
13.B
14.B
15.D
16.A
17.B
18.B
19.A
20.AB
22.B
23.A
24.B
25.A
26.B
27.B
28.A
29.B
30.A
二、多项选择题ABCDE
2.ABC
3.ABD
4.ABCD
5.ABD第13页共14页ABCD
7.ABCDE
8.ABCD
9.ABCD
10.ABCEAB
12.ABCD
13.CD
14.ABC
15.ABCDABCD
17.BCD
18.ABC
19.AB
20.ABCD
三、判断题×
2.√
3.√
4.√
5.×
6.√
7.√
8.×
9.×
10.××
12.√
13.√
14.√
15.√
16.√
17.√
18.√
19.√
20.√
四、简答题HDFS的主要作用及核心特性作用HDFS是Hadoop生态系统的分布式存储组件,用于存储海量结构化和非结构化数据特性
①高容错性(多副本存储);
②流式数据访问(一次写入多次读取);
③大文件支持(文件分片存储);
④廉价硬件支持(适合普通服务器集群);
⑤名称节点管理元数据,数据节点存储实际数据MapReduce的基本工作流程
①Map阶段将输入数据切分为小任务,对每个任务执行映射操作(key-value转换);
②Shuffle阶段对Map输出数据分区、排序、合并,生成中间结果;
③Reduce阶段对Shuffle后的中间结果按key分组,执行聚合计算;
④Output阶段将Reduce结果写入目标存储第14页共14页。
个人认证
优秀文档
获得点赞 0