还剩27页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据试题(附答案)HCIA
一、单选题(共题,每题分,共分)
411411.在Fusion Insight产品中,关于KafkaTopic,以下描述不正确的有?A、每个Topic只能被分成一个partition(区)B、Topic的part ition数量可以在创建时配置C、每个Partition的存储层面对应一个Iog文件,Iog文件中记录了所有的信息数据D、每条发布到Kafka的消息都有一个类别,这个类别被称为Topic,也可以理解为一个存储消息的队列正确答案A
2.FusionlnsightHD系统中执行HBase写数据时,数据被写入内存MemStorex日志HLog和HDP中,请问哪一步写入成功后才会最终返回客户端写数据成功?A、MemStoreB、HLogC、HDFSD、Memory正确答案B
3.Hive是基于Hadoop的数据仓库软件,可以查询和管理PB级别的分布式数据以下关于Hive特性的描述不正确的是?A、可直接访问HDFS文件以及HBaseB、灵活方便的ETL(extract/transform/1oad)C、仅支持MapReduce计算引擎D、DataSet执行sort,filter,shuffle等操作需要执行反序列化正确答案D
33.Hive不适用于一下哪个场景A、数据汇总,例如每天,每周用户点击数,点击排行B、实时的在线数据分析C、数据挖掘,例如用户行为分析,兴趣分区,区域展示D、非实时分析,例如日志分析,统计分析正确答案B
34.加载数据到Hive表,哪种方式不正确?A、直接将本地路径的文件load到Hive表中B、将HDFS上的文件load到Hive表中C、Hive支持insertinto单条记录的方法,所以可以直接在命令行插入单条记录D、将其他表的结果集insertinto到Hive表正确答案C
35.Hadoop平台中HBase的Region是由哪个服务进程来管理?A、HMasterB、DatanodeC、RegionServerD Zookeeper正确答案c
36.安装Fus ion I ns ightHD的Streaming组件时,N imbus角色要求安装几个节点()A、3B、2C、1D、4正确答案B
37.关于Fus ion Ins ightHD中Loader作业描述正确的是?A、Loader将作业提交到Yarn执行后,如果此时Loader服务出现异常,则此作业执行失败B、Loader将作业提交到Yarn执行后,如果某个Mapper任务执行失败,能够自动进行重试C、Loader作业执行失败后将会产生垃圾数据,需要用户手动清除D、Loader将一个作业提交至Yarn执行后,该作业执行完成前,不能再提交其他作业正确答案B
38.安装Fus ion Ins ightHD的Streaming组件时,Nimbus角色要求安装几个节点A、3B、2C、4D、1正确答案B
39.hbase的底层数据以的形式存在的?A、实时存储B、列存储C、keyvaIueD、行存储正确答案C
40.FusionlnsightHD系统中,flume数据流在节点内不需要经过哪个组件?()A、s inkB、top icC、SourceD、ChanneI正确答案B
41.FusionlnsightHD产品中,关于Kafka的说法不正确的是A、Kafka强依赖于ZookeeperB、Kafka部署的实例个数不得小于2C、Kafka的服务端可以产生消息D、Consumer作为Kafka的客户端角色进行消息的消费正确答案B
二、多选题(共题,每题分,共分)
301301.大数据分析相关技术主要特征包括?A、数据背后事件关联性分析B、基于海量数据为基础C、基于精确样本为基础D、机器学习,全量特征正确答案ABD
2.Flume适用于以下哪些场景的数据收集?A、Thrift,Avro,Sys Iog,Kafka等数据源上收集数据B、本地文件数据采集C、应用系统产生的日志采集D、大量数据的实时数据采集正确答案ABC
3.下列关于Worker(工作进程)、Executor(线程)、TASK(任务)说法正确的是?A、每个Worker(工作进程)可以运行多个Executor(线程)B、每个Executor(线程)可以运行不同组件(Spout或Bolt)的TASK(任务)C、每个Executor(线程)可以运行多个TASK(任务)D、每个Worker只能为一个拓补运行Executor(线程)正确答案ABC
4.在华为大数据解决方案中,hadoop层包含以下哪些组件?0A、Fl inkB、MinerC、HiveD、Spark正确答案ACD
5.以下关于华为大数据解决方案说法正确的是()A、Farmer是数据服务框架B、GaussDB是一款开源数据库产品C、Fus ion Ins ightManager是一个分布式系统管理框架,管理员可以通过多接入点操控分布式集群D、Fus ion Ins ightHD是基于开源大数据软件Hadoop的增强版本正确答案ABCD
6.以下属于Streaming特点的是?A、数据先存储再计算B、可做连续查询C、延迟低D、属于事件驱动正确答案BCD
7.以下关于Hadoop的HDFS描述正确的有?A、HDFS由NameNode,DataNode,CI ient组成B、HDFS备NameNode上的元数据是主NameNode同步过去的C、HDFS采用就近的机架节点进行数据的第一副本存储D、HDFS适合一次写入,多次读取的读写任务正确答案ACD
8.以下关于Fl ink与其他组件交互说法正确的是?A、Fl ink可以将接收的组件发送给KafkaB、FI ink的checkpoint的实现依赖于ZookeeperC、Fl ink任务的运行依赖Yarn来进行资源的调度管理D、Fl ink在HDFS文件系统中读写数据正确答案ABCD
9.在大数据时代,企业所面临的挑战有以下哪些?A、企业各部门间数据分散,相同数据在各部门内部存储格式不一致B、数据存在噪音、缺失、存储类型不规范等问题,需要进行大量的数据预处理工作C、竞争对手的技术进步D、数据结构多样化正确答案ABCD
10.以下哪些选项属于Hive的数据存储模型?A、以上全都正确B、桶C、数据库D、表E、分区正确答案ABCDE
11.关于Fus ionlnsightManager功能说法错误的有哪些A、通过FusionlnsightManager的Audit审计界面可以查询每个重要操作B、通过Fus ion Ins ightManager不能下载单个组件的客户端C、集群部署完成后,通过FusionlnsightManager不能进行集群扩容,只能通过卸载集群重新搭建来扩容集群D、通过Fus ionlnsightManager的AI arms告警界面可以查询每个告警的具体信息正确答案BC
12.根据数据流如何在两个Transformation之间传输数据,数据流可以分为哪些类型?A、一对多流B、red istr i but i ngC、一^寸一^充D、Di stributing流正确答案AC
13.与开源Sqoop相比,Loader具有哪些增强特性()多选A、安全性B、高可靠C、高性能D、图形化正确答案ABCD
14.下列关于worker(工作进程)、Executor(线程)、task(任务)说法正确的是?()A、每个worker可以运行多个Executor(线程)B、每个worker只能为一个拓扑运行Executor(线程)C、每个Executor(线程)可以运行不同组件(spout或bolt)的task(任务)D、每个Executor(线程)可以运行多个task(任务)正确答案ABCD
15.YARN通过ResourceManager对集群资源进行管理,它的主要功能有?A、集群资源调度B、应用程序管理C、日志管理D、以上说法都不对正确答案AB
16.FusionlnsightHD集群中包含了多种服务,每种服务又由若干角色组成,下面哪些是服务的角色?A、HDFSB、NameNodeC、DataNodeD、HBase正确答案BC
17.Fus ion Ins i ghtHDLoader可以将HDFS数据导出到以下哪些目标端?A、SFTP服务器B、FTP服务器C、Oracle数据库D、DB2数据库正确答案ABCD
18.YARN容量调度器的主要特点有哪些?A、容量保证B、灵活比C、多重租赁D、动态更新配置文件正确答案ABCD
19.关于大数据的主要特征理解和描述正确的有?A、来源多,格式多B、数据的价值密度较低C、增长速度快,处理速度快D、存储量大,计算量大正确答案ABCD
20.Zookeeper的关键特性包括以下哪些选项?()A、原子性B、等待无关性C、最终一致性D、可靠性正确答案ABCD
21.下列关于Fl ink中Transformat ion的说法正确的是?A、可以通过window设定时间窗口B、Fi Itor操作是对每个元素执行boo Iean函数C、f latMap可以对文本进行切分D、keyBy是将源头数据按照key进行分组,以保证同一个key的元数据分到同样的组中正确答案ABD
22.HBase中以下哪种场景会出发Flush操作?A、HBase定期刷新Memstore,默认周期为1小时B、当WALs中文件数量达到阈值时C、Region中MemStore的总大小,达到了预设的FlushSize阈值D、MemStore占用内存的总量和RegionServer总内存比值超出了预设的阈值大小正确答案ABCD
23.以下哪些是Kafka实际的应用场景A、聚合统计系统运营数据B、网站活性跟踪C、资源管理D、日志收集正确答案AB
24.以下关于HBase中HMaster的功能描述哪些是正确的?A、Region负载均衡,Region分裂以及分裂后的Region分配B、负责建表/修改表/删除表C、负责RegionServer的负载均衡D、RegionServer失效后的Region迁移正确答案ABCD
25.Zookeeper中的数据节点znode分为哪几种类型?A、temporaryB、ephemera ICpersi stentD、semi-persistent正确答案BC
26.Zookeeper可以为Fus ion Ins ightHD中哪些组件提供分布式管理支持0A、HBaseB、LoaderC、HiveD、Spark正确答案ABCD
27.以下属于hiveSQL中DDL(数据定义语言)的是?()A、修改表B、删除表D、易用易编程正确答案C
4.HDFS的NameNode节点主备状态管理及元数据文件合并分别由哪两个角色负责?A、ZKFC和备NameNodeB、主NameNode和备NameNodeC、ZKFC和主NameNodeD、主NameNode和Journa INode正确答案A
5.加载数据到Hive表,哪种方式不正确A、直接将本地路径的文件load到Hive表中B、将HDFS上的额文件load到Hive表中C、Hive支持insertinto单条记录的方法,所以可以直接在命令行插入单条记录D、将其他表的结果集i nsertinto到Hi ve表中正确答案C
6.下面关于Zookeeper特性的描述错误的是?()A、客户端所发送的更新会按照它们被发送的顺序进行应用B、Zookeeper节点数必须为奇数个C、一条消息要被超过半数的Server接收,它将可以成功写入磁盘D、消息更新只能成功或者失败,没有中间状态正确答案B
7.以下哪类数据不属于半结构化数据?A、XMLC、建表D、数据导入正确答案ABC
28.传统数据处理的性能瓶颈有?A、批量数据处理缺失B、数据存储成本高C、流式数据处理性能不足D、扩展能力有限正确答案BD
29.下列哪些组件必须依赖于Zookeeper才能运行?A、HDFSB、HBaseC SparkD、YARN正确答案ABD
30.以下哪些属于Fus ion Ins ightHD的特点?、开源AB、易用C、安全D、可靠正确答案ABCD
三、判断题(共题,每题分,共分)
321321.SparkonYarn-cl ient适合用于生产坏境是因为可以更快的看到APP的输出A、正确B、错误正确答案B
2.HBase的最小处理单元是Region,UserRegion和RegionServer之间的路由信息是保存在Zookeeper中()A、正确B、错误正确答案A
3.Flink是一个批处理和流处理结合的统一计算框架,其核心是一个数据分发以及并行化计算的流数据处理引擎A、正确B、错误正确答案A
4.FusionlnsightHD集群安装成功后,不允许修改服务、角色和实例的配置A、正确B、错误正确答案B
5.Fl ink采用checkpoint机制保障应用程序运行中的容错性A、正确B、错误正确答案A
6.如果FusionlnsightHD集群节点数不足以使数据节点单独部署的情况下,可以采用管理节点控制节点数据节点合一部署方案,但性能会受限制A、正确B、错误正确答案A
7.Zookeeper的增强特性包括在审计日志中添加ephemera Inode被删除的审计日志()A、正确B、错误正确答案A
8.在MapReduce编程中,代码不仅要描述做什么,还要描述具体怎么做()A、正确B、错误正确答案B
9.FusionlnsightHD产品中,一个典型的Kafka集群包含若干Producer,若干Broker,若Consumer和一个Zookeeper集群A、正确B、错误正确答案A
10.Spark根据RDD的依赖关系来划分Stage,调度器从DAG图末端出发,逆向遍历整个依赖关系链,遇到窄依赖就断开,遇到宽依赖就将其加入当前StageoA、正确正确答案B
11.colocation(同分布)文件级的同分布实现文件的快速访问,避免了因数据搬迁带来的大量网络开销()A、正确B、错误正确答案A
12.Fus ion Ins ightHD中Loader作业提交到YARN后,作业不能手动停止A、正确B、错误正确答案B
13.假设HDFS在写入数据时只存2份,那么在写入过程中,HDFSCI ient先将数据写入DataNode I,再将数据写入DataNode
2.A、正确B、错误正确答案B
14.Hive在load是不检索数据是否符合schema的,hive遵循的是schemaonread(读时模式)只有在读时模式的时候才检查h ive的数据字段,schema oA、正确B、错误正确答案A
15.二级索引为HBase提供了按照某些列的值进行索引的能力二级索引先查索引表,再定位到数据表中的位置,不用全表扫描,时延小A、正确B、错误正确答案A
16.Fus ionlnsightHD系统中,HBase支持动态扩展列A、正确B、错误正确答案A
17.Fl ink只能部署在Local和Cluster,暂不支持其他部署A、正确B、错误正确答案B
18.Fus ionlnsighttoo I是为技术支持工程师和维护工程师提供的一套健康检测工具,能够检查集群相关节点、服务的健康状态,提前发现集群中潜在的问题,并生成健康检查报告方便技术支持工程师各维护工程师快速了解系统的健康状况A、正确B、错误正确答案A
19.Fus ionlnsightSparkSQL同社区SparkJDBCServer一样,只支持单租户绑定到一个YARN资源队列多租户,并不支持多租户并行执行A、正确B、错误正确答案B
20.ResourecManager采用高可用方案,当Act iveResourceManager发现故障时,只能通过内置的Zookeeper来启动Standby的ResourceManager将其状态切换为ActiveA、正确B、错误正确答案B
21.SparkS0L表中,经常会存在很多小文件(大小远小于DFS块大小),在这种情况下,Spark会启动更多的Task来处理这些小文件,当SQL逻辑中存在Shuffle操作时,会大大增加hash分桶数,从而严重影响性能()A、正确B、错误正确答案A
22.容量调度器在进行资源分配时,现有同级的2个列队Q1和Q2,它们的容量均为30,其中Q1已使用8,Q2已使用14,则会优先将资源分配给Q1oA、正确B、错误正确答案A
23.Fus ion Ins ightManager支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和补丁A、正确正确答案A
24.HDFS的Cl ient写入文件时,数据的第一副本写入位置是由NameNode确定,其他副本的写入位置由DataNode确定A、正确B、错误正确答案A
25.FI ume的properties,properties配置文件中可以配置多个Channel来传输数据?A、正确B、错误正确答案A
26.RDD可以从Hadoop兼容的文件系统生成,生成之后可以通过调用RDD的算子对RDD的数据进行部分更新A、正确B、错误正确答案A
27.用户权限管理基于角色的访问控制RBAC,提供可视化的多组统一的集群中用户权限管理A、正确B、错误正确答案A
28.FusionlnsightHD的Loader中,一个连接器只可以分配给一个作业使用A、正确B、错误正确答案A
29.Spark任务的每个stage可划分为job,划分的标记是shuffle A、正确B、错误正确答案B
30.Fus ion Ins ightManager界面上,当收到kafka擦盘容量不足警告,且该警告的原因已经排除硬盘硬件故障时,系统管理员需要考虑扩容解决此问题()A、正确B、错误正确答案A
31.Fus ion Ins ightHD部署过程中,执行precheck检查每个节点时必须调用CheckNode.Conf ig配置文件A、正确B、错误正确答案A
32.Fus ion Ins ightHD部署过程中,执行precheck检查每一个节点时必须调用checkNodes.Conf igd配置文件A、正确B、错误正确答案AB、二维表C、HTMLD、JSON正确答案B8,下列哪个命令是从HDFS下载目录/文件到本地的?()A、dfs-catB、dfs-mkd irC dfs-getD、dfs-put正确答案c
9.Fus ion Ins ightHD的Manager界面对Loader的操作不包括下列哪个?A、启动Loader实例B、查看Loader服务状态C、配置Loader参数D、查看Loader运行日志正确答案D
10.Spark自带的资源管理框架是?A、DockerB、MesosC、YARND、StandaI one正确答案D
11.下面哪些场景不是Fl ink组件擅长的?()A、批处理B、迭代计算C、数据存储D、流处理正确答案C
12.FusionlnsightHDHBase默认使用什么作为其底层文件存储系统A、HadoopB、MapReduceC、MemoryD、HDFS正确答案D
13.Fus ion Ins ightHDManager界面H ive日志收集,那个选项不正确?A、可指定实例进行日志收集,比如指定单独收集MetaStore的日志B、可指定时间段进行日志收集,比如只收集2016-1-1到2016-1-10的日志C、可指定节点IP进行日志收集,例如仅下载某个IP的日志D、可指定特定用户进行日志收集,例如仅下载userA用户产生的日志正确答案D
14.Fus ion Ins ightManager对服务的管理操作,下面说法错误的是A、可以添加和卸载服务B、可查看服务的当前状态C、可设置不常用的服务隐藏或显示D、可对服务进行启停重启操作正确答案C
15.Flume用于收集数据,其传输的数据基本单位是?A、SplitB、BlockC、EventD、Packet正确答案c
16.关于Fus ion Ins ightHDStreami ng的Superv isor描述正确的是?A、Supervisor负责资源分配和任务调度B、Supervi sor负责接受Nimbus分配的任务,启动和停止属于自己管理的worker进程C、Supervisor是运行具体处理逻辑的进程D、Supervisor是一个Topology中接收数据然后执行处理的组件正确答案B
17.下面关于ZKFC的说法错误的是?A、ZKFC ZKFailoverControl ler作为一个Zookeeper集群的客户端,用来监控NameNode的状态信息B、ZKFC进程需要在NameNode的节点和Zookeeper的Leader节点中部署C、StandbyNameNode通过Zookeeper感知ActiveNameNode的状态,一^旦Act iveNameNode宕机,StandbyNameNode就会执行升主操作D、HDFSNameNode的ZKFC连接到Zookeeper,把主机名等信息保存到Zookeeper中正确答案B
18.哪个不是FI ume的channe I类型A、MemoryChanneIB、Fi IeChanneIC、JDBCChanneID、HDFSChanneI正确答案D
19.以下关于HBase二级索引的描述哪一项是正确的?A、二级索引把要查找的列与rowkey关联成一个索引表B、此时列成新的rowkey,原rowkey成为vaIueC、二级索引查询了2次D、以上完全正确正确答案D
20.以下关于KafkaPart ition偏移量的描述不正确的是A、消费者通过offset、partition topic跟踪记录B、每条消息在文件中的位置称为offset偏移量C、off set是一个Str ing型字符串D、唯一标记一条消息正确答案C
21.FusionlnsightHD系统中HDFS的Block默认保存几份、3份AB、2份C、1份D、不确定正确答案A
22.下列哪个不是HBase读取数据流程中涉及的角色或服务?()A、HDFSB、ZookeeperC、HMasterD HRegionServer正确答案c
23.下列关于SparkStreaming和Streaming比较说法不正确的是?A、SparkStreaming的吞吐量大约是Streaming的2-5倍B、Streaming的执行逻辑是即时启动,运行完后再回收C、SparkStreaming事件处理时延比Streaming更高D、SparkStreaming是一个微批处理框架,事件需要积累到一定量时才进行处理正确答案B
24.某用户需要搭建一个350节点的FusionlnsightHD集群,哪种规划方案最佳?A、管理节点、控制节点、数据节点合一部署,二层组网B、管理节点、控制节点合一部署、数据节点独立部署,二层组网C、管理节点、控制节点、数据节点都独立部署,三层组网D、管理节点、数据节点合一部署,控制节点独立部署,二层组网正确答案C
25.HBase不适合哪些应用场景A、海量数据(TB、PB)应用场景B、高吞吐率应用场景C、要求具有完全ACID特性的应用场景D、半结构化数据应用场景正确答案C
26.Spark是以下哪种编程语言实现的?A、CB、C++C、JAVAD、Sea Ia正确答案D
27.通过Fus ionlnsightManager不能完成以下哪个操作?A、权限管理B、安装部署C、性能监控D、虚拟机分配正确答案D
28.FusionlnsightHDManager界面Hi ve日志收集,哪个选项不正确A、可指定实例进行日志收集,比如指定单独收集MetaStore的日志B、可指定时间段进行日志收集,比如只收集2016-1-1到2016-1-10的日志C、可指定节点IP进行日志收集,例如仅下载某个ip的日志D、可指定特定用户进行日志收集,例如仅下载userA用户产生的日志正确答案D
29.RDD有Transformat ion和Act ion算子,下列属于Act ion算子的是?A、saveAsTextFi IeB、reduceByKeyC、mapD、filter正确答案A
30.在规划FusionlsightHD集群时,如果客户用于功能测试,对性能没有要求,节约成本的情况下可以采用管理节点、控制节点、数据节点合一部署,最少需要多少节点?A、2B、3C、6D、8正确答案B
31.Fus ionInsightManager用户权限管理不支持哪个配置?A、给用户组配置权限B、给用户配置角色C、给角色配置权限D、给用户组配置角色正确答案A
32.关于DataSet,下列说法不正确的是?A、DataSet与RDD高度类似,性能比RDD好B、DataSet是一个由特定域的对象组成的强类型集合C、DataSet不需要反序列化就可以执行大部分操作。
个人认证
优秀文档
获得点赞 0