还剩20页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据习题库与参考答案1+x
一、单选题(共90题,每题1分,共90分)
1、hadoop
2.0与hadoopl.0区别()A、增加YARNB、增加HDFS2C、增加MapReduce2D、增加容错机制正确答案A
2、YARN哪种调度器采用的是单队列?()A、Fair SchedulerB、Capacity SchedulerC、FIFO SchedulerDResourceManager正确答案c
3、下列分区方式哪个不是采用的Hash方式分区(.A、KeyFieldBasedPartitionerB、BinaryPart it ionerC^HashPartitionerD、TotalOrderPartitioner正确答案D
4、Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是()A、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式B、根据策略对数据块进行必要的复制或删除C、文件系统允许有修改D、安全模式目的是在系统启动时检查各个DataNode上数据块的有效性正确答案C
5、在MapReduce中Shuffle的主要作用是()A、通过实现自定义的Partitioner来指定哪些数据进入哪个ReducerB、对映射后的数据进行排序,然后输入到ReducerC、经过映射后的输出数据会被排序,然后每个映射器会进行分区D、将数据进行拆分正确答案BC ContainerResourceManager NodeManagerApp1icationMasterD Container、ResourceManager NodeManagerApp1icationManager正确答案c
48、配置SSH服务需配置文件A、vi/etc/ssh/sshdB、vi^/.bash_profileC、vi/etc/ssh/sshd_configD、vi/etc/sysconfig/network-scripts/ifcfg-ethO正确答案C
49、关于Hadoop的运行机制过程顺序说法正确的是A、任务分配一作业提交一作业初始化一任务的执行一任务进度和状态的更新一任务结束B、作业提交一作业初始化一任务分配一任务的执行一任务进度和状态的更新一任务结束C、任务执行-作业提交一作业初始化一任务的分配一任务进度和状态的更新一任务结束D、作业初始化一作业提交一任务分配一任务的执行一任务进度和状态的更新一任务结束正确答案B
50、以下哪个文件是能够修改HDFS的副本保存数量参数A、修改yarn-site.xml配置文件B、修改hdfs-site.xml配置文件C、修改core-site.xml配置文件D、修改mapred-site.xml配置文件正确答案B
51、Hbase的主要作用是A、是一个分布式的、面向列的开源数据库B、是一种编程模型,用于大规模数据集大于1TB的并行运算C、将要储存的文件分散在不同的硬盘上,并记录他们的位置D、是Hadoop集群当中的资源管理系统模块正确答案A
52、以下选项哪个是MapReduce正确的运行模型A、Map-Reduce-ShuffleB、Reduce-Map-ShuffieC、Shuff1e-Map-ReduceD.Map-Shuff1e-Reduce正确答案D
53、HDFS有一个LZO withindex文件大小75MB,客户端设置Block大小为64MBo当运行mapreduce任务读取该文件时input split大小为A、64MBB、75MBC、一个map读取64MB,另外一个map读取11MB正确答案c
54、flume中那种source类型支持Unix的命令标准在生产数据A、Exec SourceB、Thrift SourceC、JMS SourceD、AvrO Source正确答案A
55、在进行Hive组件配置时,JAR包冲突导致异常,出现以下错误信息A、mkdir:\input:No suchfile ordirectoryB、Failed toset setXIncludeAwaretruefor parserC、E45:readonly optionis setadd!to overrideDERROR tool.ImportTool:Imported Failed:Character8216is anout-of-range delimiter正确答案B
56、下面关于分布式文件系统HDFS的描述正确的是A、分布式文件系统HDFS是一种关系型数据库B、分布式文件系统HDFS比较适合存储大量零碎的小文件C、分布式文件系统HDFS是谷歌分布式文件系统GFS GoogleFile System的一种开源实现D、分布式文件系统HDFS是Google Bigtable的一种开源实现正确答案C
57、大数据平台架构设计的思想A、统一结构化设计B、分层模块化设计C、高集合化设计D、全分布设计正确答案B
58、HBase与下列哪个选项属于同一种类型的数据库A、MySQLB、MongoDBC、OracleD MariaDB正确答案B
59、大数据处理中数据处理层不包括A、数据清洗B、数据规约C、数据提取D、数据分析正确答案D
60、以下哪个不是HDFS的进程A、NameNodeB、ResourceManagerC SecondaryNodeDDataNode正确答案B
61、安装Hadoop集群时,在哪个文件指定从机是哪些机器?A、slavesB、yarn-site,xmlC、datanodeD core-site,xml正确答案A
62、关于SecondaryNameNode的描述,哪项是正确的?A、SecondaryNameNode应与NameNode部署到一个节点B、它是NameNode的热备C、它对内存没有要求D、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间正确答案D
63、将数据从关系型数据库中导出到HDFS上,应当使用命令A、exportB importC、listD、以上都不对正确答案B
64、下列命令中(在zookeeper安装文件夹的bin目录下执行),哪项是停止ZooKeeper的正确命令()A、zkServer.sh stopB、start-stop,shC、start-all.shD zkServer.sh start正确答案A
65、对Sqoop描述不正确的是?A、Sqoop的底层实现是MapReduceB、Sqoop脚本最终会变成提交到YARN上的一个个map任务C、Sqoop主要采集关系型数据库中数据,常用于离线计算批量处理D、Sqoop只支持从关系型数据库导入到HDFS,不支持从HDFS导入到关系型数据库正确答案D
66、下列sink中哪些是flume不支持的sink、HDFS sinkABmemory sinkC^kafka sinkD、file rollsink正确答案B答案解析Flume支持的sinks类型有HDFS Sink、Hive Sink、Logger SinkAvroSinkThrift SinkIRC SinkFile RollSink NullSink HBaseSink、Kafka Sink、HTTP Sink、Custom Sink、ElasticSearchSinkMorphlineSolrSink
67、向HDFS上传文件,正确的shell命令是?()A、hdfs dfs-getB、hdfs dfs-putC、hdfs dfs-copyToLocalD hdfsdfs-appendToFile正确答案B
68、启动Hadoop和HBase之后,执行jps命令,已经看到有HMaster的进程,但是进入到监控界面查看,没有节点信息最有可能原因O A、HBase服务未安装B、HBase服务未启动C、HBase处于安全模式D、HADOOP服务未启动正确答案C
69、大数据处理中数据应用层不包括()A、数据分析B、数据建模C、数据可视化D、数据挖掘正确答案C
70、下面哪个选项不是HDFS架构的组成部分?()A、NameNodeB、DataNodeC、SecondaryNameNodeD、GFS正确答案D
71、以下选项哪个是HDFS的名称节点()、NameNodeAB、NodeC、DataNodeD、SecondaryNode正确答案A
72、关于SecondaryNameNode哪项是正确的?A、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间B、SecondaryNameNode应与NameNode部署到一个节点C、它是NameNode的热备D、它对内存没有要求正确答案A
73、Centos中修改文件或目录的访问权限命令A、chmodB、passwdC chownDclear正确答案A
74、在hadoop配置中yarn-site,xml作用是()A、用于配置JobHistory Server和应用程序参数B、配置ResourceManager,NodeManager的通信端口C、用于名称节点和数据节点的存放位置D、用于定义系统级别的参数正确答案B
75、在项目实施人员中,适时与客户沟通,确立项目目标,建立组织机构,编制计划,负责项目全面管理的角色是()A、实施工程师B、产品经理C、财务人员D、项目经理正确答案D
76、大数据的数据量现在已经达到了哪个级别?(C)A、ZBB、GBC、PBD、TB正确答案C
77、Zookeeper服务端默认的对外服务端口是?()A、3888B、8088C、2888D、2181正确答案D
78、下列关于YARN的描述错误的是?()A、NodeManager是每个节点上的资源和任务管理器B、ResourceManager负责整个系统的资源分配和管理,是一个全局的资源管理器C、调度器根据资源情况为应用程序分配封装在Container中的资源D、App1i cationManager是一个详细的框架库,它结合从ResourceManager获得的资源和NodeManager协同工作来运行和监控任务App1i cati onMast er正确答案D
79、关于ZooKeeper的特性说法错误的是?()A、当节点发生变化时,通过watcher机制,可以让客户端得到通知B、watch能触发多次C、是版本机制有效避免了数据更新时出现的先后顺序问题D、能改变ZooKeeper服务器状态的操作称为事务操作正确答案B
80、关于Flume的三大组件以下说法正确的是()A、sink从channel消费数据并将其传递给目标地,目标地只能是hdfsoB、channel可以和任意数量的source和sink链接C、channel只能链接单一的source和sinkD、sink在三大组件之间起着桥梁的作用正确答案B
81、下列关于调度器的描述不正确的是?()A、公平调度器不允许管理员为每个队列单独设置调度策略B、先进先出调度器以集群资源独占的方式运行作业C、容器调度器其实是多个FIFO队列D、先进先出调度器可以是多队列正确答案D
82、Sqoop是Hadoop和关系数据库服务器之间传送数据的工具,下列哪种数据库是不支持使用Sqoop直接进行数据传送()A、PostgresB、MySQLC、OracleD、Redis正确答案D
83、有关使用sqoop抽取数据的原理的描述不正确的是()A、sqoop抽取数据是个多节点并行抽取的过程,因此map的个数设置的越多性越好B、sqoop抽取数据的时候需要保证执行当前用户有权限执行相应的操作C、sqoop任务的切分是根据split字段的(最大值-最小值)/map数D、sqoop在抽取数据的时候可以指定map的个数,map的个数决定在hdfs生成的正确答案A
84、关于SecondaryNameNode下面哪项是正确的()A、它的目的是帮助NameNode合并编辑日志,减少NameNode启动时间B、它对内存没有要求C、SecondaryNameNode应与NameNode部署到一个节点D、它是NameNode的热备正确答案A
85、下列描述中,哪项不属于Sqoop的缺点()A、connector必须符合JDBC模型B、无法控制任务的并发度C、格式紧耦合D、安全机制不够完善正确答案B
86、在hadoop配置中core-site.xml的配置是()参数A、集群全局参数B、HDFS参数C、集群资源管理系统参数D、Mapreduce参数正确答案A
87、下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是OA、FSDatalnputStream扩展了DatalnputStream以支持随机读B、一台机器可能被指派从输入文件的任意位置开始处理一个分片C、输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割D、为实现细粒度并行,输入分片(Input Split.应该越小越好正确答案D
88、flume有哪个组件用于采集数据()A、channelB、sinkC、web serverD、source正确答案D
89、下列关于MapReduce说法不正确的是()、MapReduce来源于google的学术论文AB、MapReduce是一种计算框架C、MapReduce程序只能用java语言编写D、MapReduce隐藏了并行计算的细节,方便使用正确答案C
90、考虑到安全和效率,Hadoop设计了机架感知(rack-aware)功能,下面关于机架感知说法正确的是?()A、三个冗余备份在不同的机架上B、三个冗余备份可在同一个机架上C、三个冗余备份其中有两个在同一个架构上,另外一个备份在不同的机架上D、上述说法都不对正确答案C
二、多选题(共20题,每题1分,共20分)
1、主流虚拟化软件包括()A、KVM二次开发虚拟化软件B、VMware系列虚拟化软件C、微软Hyper-V虚拟化软件D、Ctrix虚拟化软件正确答案ABCD
2、Hbase组件部分包括()A、hbase-clientB、ZookeeperC、HMasterD、HRegionServer正确答案ABCD
3、Hadoop能够使用户轻松开发和运行处理大数据的应用程序,那它主要有下面哪些特点()A、高可靠性B、高扩展性C、高容错性D、高效性正确答案ABCD
4、下列关于Mapper的描述正确的是()A、Mapper任务的个数取决于分片的个数B、一个MapReduce程序只能设置一个Mapper类C、一个MapReduce程序可以设置多个Mapper类D、Mapper输出的键值类型与Reducer输入的键值类型要保持一致正确答案ACD
5、下面哪些是大数据的基本特征?()A、价值密度低B、处理速度快C、数据类型多D、数据体量大正确答案ABCD
6、Client端上传文件的时候下列哪项正确A、数据经过NameNode传递给DataNodeB、Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作C、当某个DataNode失败,客户端会继续传给其它DataNodeD、Client端将文件以Block为单位,管道方式依次传到DataNode正确答案CD
7、master启动Hadoop相关进程包含()A、SecondaryNameNodeB、ResourceManagerC、jpsD、NameNode正确答案ABD
8、MapReduce不合适对哪些场景的使用()A、MapReduce不支持多用户写入及任意修改文件B、MapReduce不适合做低延迟数据访问场景的使用C、MapReduce不支持大文件存储D、MapReduce不适合存储大量小文件正确答案ABD
9、大数据业务处理系统包含()A、数据处理层
6、MapReduce编程模型,键值对〈key,value》的key必须实现哪个接口?A、Writab1eComparab1eB、ComparableC、WritableD、LongWritable正确答案A
7、ZooKeeper的特点不包括A、顺序一致性B、可靠性C、复合系统映像D、原子性正确答案C
8、关于ZooKeeper的说法错误的是?A、ZooKeeper服务端有两种重要的角色是Leader和FollowerB、ZooKeeper不存在单点故障的情况C、客户端可以连接到ZooKeeper集群中任一台机器D、ZooKeeper Leader挂掉之后会自动在其他机器选出新的Leader正确答案B
9、显示当前所在目录的命令是A、1sB、cdC、mkdirD、pwd正确答案D
10、2004年,Google公司发表了主要讲解海量数据的高效计算方法的论文是?A、“Bigtable:A DistributedStorage Systemfor StructuredData”B、“MapReduce:Simplified DataProcessing onLarge Clusters”C、“The GoogleFile System”D、“The HadoopFile System”正确答案B
11、在HDFS文件操作中,上传文件的命令是A、getB、数据访问层C、数据应用层D、数据源层正确答案ABCD
10、以下是HTools工具特点A、无需安装HTools客户端B、支持系统配置文件的推送和同步C、支持同时管理多个Hadoop集群和节点D、友善的向导式操作流程正确答案ACD
11、下列选项哪些是ZooKeeper的应用场景?A、Master选举B、数据发布与订阅C、分布式锁D、心跳检测正确答案ABCD
12、YARN有哪几种资源调度器?A、Capacity SchedulerB、Resource SchedulerCFIFO SchedulerD、Fair Scheduler正确答案ACD
13、下列关于HDFS对文件分块存储的作用描述正确的是A、最小化寻址开销B、便于并行处理C、有利于负载均衡D、支持大规模文件存储正确答案ABCD
14、大数据平台安装部署步骤包括A、网络环境分配B、服务器操作系统安装C、Hadoop平台安装D、服务器上架正确答案ABCD
15、下列属于hadoop的发行版本的是A、ApacheB、CentosC、RedhatD、Cloudera正确答案ACD
16、HDFS保障可靠性的措施A、数据冗余机制B、数据完整性检测C、数据节点块报告D、数据节点心跳包正确答案ABD
17、Flume将采集到的数据输出到A、HiveB、HbaseC、HDFSD、Kafka正确答案ABCD
18、Hadoop的优点有哪些、高可靠性AB、高效率C、扩容能力强D、成本低正确答案ABCD
19、下列哪个是Hadoop运行的模式A、伪分布式B、单机版C、分布式正确答案ABC
20、以下哪些是Linux的特点A、与Unix系统兼容,具备几乎所有Unix的优秀特性B、适合Intel等x86CPU系列架构的计算机C、开放源代码的程序软件,可自由修改D、可自由传播,收费使用,无任何商业化版权制约正确答案ABCB putC、inputD、up正确答案B
12、大数据平台项目实施计划不包括()A、完成大数据平台的安装调试B、基础平台部署C、用户环境准备D、完成大数据平台操作开发正确答案D
13、在hive中已知表t est(name)的记录如下,tomTom_green tomlyLily代码select*from testwhere namerliketom.*的结果有()条记录A、2B、3C、1D、0正确答案B
14、HDFS有一个gzip文件大小75MB,客户端设置Block大小为64MB当运行omapreduce任务读取该文件时input split大小为?A、64MBB、一个map读取64MB,另外一个map读取11MBC、75MB正确答案C
15、关于Sqoop数据的导入导出描述不正确的是?A、实现从MySQL到Hive的导入导出B、实现从HDFS到MySQL的导入导出C、实现从HDFS到Oracle的导入导出D、实现从MySQL到Oracle的导入导出正确答案D
16、数据节点(DataNode)负责存储数据,一个数据块会在多个DataNode中进行冗余备份,那么HDFS默认存储几份?()A、3B、2C、5D、1正确答案A
17、Zookeeper生产环境一般采用多少台机器组成集群?(D)A、偶数台(且大于1)B、3C、奇数台(且大于1)D、5E、1正确答案C
18、与Hadoop
1.x相比,Hadoop
2.x采用全新的架构,最明显的变化就是增加了哪个组件?()A、HBaseB、MapReduceC YarnD、Pig正确答案C
19、下列选项中,正确描述flume对数据源的支持是?A、不能使用目录方式B、不能使用文件系统C、只能使用HDFS数据源D、可以配置数据源正确答案D
20、下列哪项通常是集群的最主要瓶颈()A、内存(由于大数据面临海量数据,读写数据都需要i,然后还要冗余数据,hadoop一般备3份数据,所以10就会打折扣)B、网络C、CPUD、磁盘10正确答案D
21、Flume在什么地方将事件转换为数据输出?A、拦截器B、通道C、槽D、源正确答案B
22、使用HDFS Federation的优点不包括下面哪个选项?()A、性能提升多个NameNode可以提高读写时的数据吞吐量B、隔离性使用联邦可隔离不同类型的程序,一定程度上可控制资源的分配C、DataNode具有可扩展性D、NameSpace具有可扩展性正确答案C
23、在导入开始之前,Sqoop检索出表中所有的列以及列的SQL数据类型,这些SQL类型被映射什么类型(C)A、C++B、PythonC、JavaD、C正确答案c
24、YARN Web界面默认占用哪个端口?()A、8088B、50070C、9000D、50090正确答案A
25、Flume用于收集数据,其传输的数据基本单位是?A、PacketB、SplitC、EventD、Block正确答案c
26、一个gzip文件大小75MB,客户端设置Block大小为64MB,请我其占用几个BlockA、1B、4C、2D、3正确答案C27ResourceManager对web服务提供地址,用户可通过ip地址()在浏览器中查看集群各类信息A、8033B、8088C、8080D、8032正确答案B
28、Hive适合()环境A、Hive适合用于联机(online)事务处理B、适合应用在大量不可变数据的批处理作业C、提供实时查询功能D、Hive适合关系型数据环境正确答案B
29、狭义的Hadoop是一个适合大数据分布式存储和分布式计算的平台,不包括下面哪个组件?()A、HBaseB YarnC、MapReduceD、HDFS正确答案A
30、hadoop平台下检查h3cu目录的健康状态采用()命令A、find/h3cuB、hadoop fs-lsr/h3cuC hdfsfsck/h3cuD list/h3cu正确答案c
31、下面哪个程序负责HDFS数据存储A、DatanodeB、NameNodeC、secondaryNameNodeD tasktrackerEJobtracker正确答案A
32、在HBase的组件中,哪一个负责日志记录()A、WALB、MemStoreC、HRegionD、HFile正确答案A
33、HDFS启动成功的标识是()A、jps显示SecondaryNameNodeB、jps显示NameNodeC、jps显示DataNodeD、jps显NameNode\DataNode\SecondaryNameNode正确答案D34关于MapReducel和YARN的对比错误的是?()A、MapReducel由JobTracker负责作业调度与任务监控B、YARN的作业调度和任务监控都是由ResourceManager组件完成C、MapReducel的资源调配单元为Slot,而Yarn的资源调配单元为ContainerD、MapReducel的任务节点叫做TaskTracker,而Yarn的任务节点为NodeManager正确答案B
35、Hadoop类库中最终面向用户提供的接口类是o该类是个抽象类,只能通过类的get方法得到具体类?()A、ConfigurationB、URI类C、Path类D、FileSystem类正确答案D
36、配置Hadoop环境变量修改()文件A、vi/etc/profileB、vi/etc/profilesC、vi/input/dataD vi/etc/hosts正确答案A
37、下列选项哪个不是ZooKeeper的应用场景?()A、分布式协调/通知B、Master选举C、分布式锁D、存储非关系型数据正确答案D
38、tar命令用于对文件进行打包压缩或解压,-t参数含义()A、查看压缩包内有哪些文件B、解开压缩文件C、创建压缩文件D、向压缩归档末尾追加文件正确答案A
39、HDFS首先把大数据文件切分成若干个小的数据块,再把这些数据块分别写入不同的节点,这些负责保存文件数据的节点被称为?()A、NameNodeB、DataNodeC、BlockD、SecondaryNameNode正确答案B
40、关于Hadoop单机模式和伪分布式模式的说法,正确的是()A、两者都不与守护进程交互,避免复杂性B、单机模式不使用HDFS,但加载守护进程C、两者都起守护进程,且守护进程运行在一台机器上D、后者比前者增加了HDFS输入输出以及可检查内存使用情况正确答案D
41、ZooKeeper是一个典型的分布式数据一致性解决方案,下列哪项是不属于它实现的功能()A、分布式锁B、负载均衡C、响应用户I/O请求D、数据发布/订阅正确答案C
42、大数据平台实施方案流程中,建议整个项目过程顺序是()A与客户确认实施方案B确认客户需求C系统测试D编写实施方案E用户培训F执行实施方案G项目验收A、DEABCFGB、ABDFCEGC、BDAFEGCD、BDAFCEG正确答案D
43、端口50070默认是Hadoop哪个服务的端口?()A、SecondaryNameNodeB、DataNodeC、YarnD、NameNode正确答案D
44、关于ZooKeeper临时节点的说法正确的是?()A、创建临时节点的命令为create-s/tmp myvalueB、临时节点允许有子节点C、一旦会话结束,临时节点将被自动删除D、临时节点不能手动删除正确答案C
45、哪种调度器是YARN中默认的资源调度器?()A、Fair SchedulerB、Capacity SchedulerC、以上都不是D、FIFO Scheduler正确答案B
46、若不针对MapReduce编程模型中的key和value值进行特别设置,下列哪一项是MapReduce不适宜的运算()A、MinB、CountC、MaxD、Average正确答案D
47、以下选项哪个是YARN的组成部分?()A、Container、ResourceManager SchedulerApplicationMasterB、Container、App1i cati onManager、NodeManager、ApplicationMaster。
个人认证
优秀文档
获得点赞 0