2025年数据分析岗位面试真题解析

佚名 · 0905

解析，分析，真题

文件大小33.75 KB

文件格式docx

分享时间2024-11-29

更多此类文档

立即下载

还剩23页未读，继续阅读

本资源只提供10页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

立即下载

文本内容:

单项选择题

1.下面哪个程序负责HDFS数据存储a NameNodeb JobtrackercDatanodedsecondaryNameNode

2.HDfS中的block默认保留几份etasktrackera3份b2份cl份d不确定3下列哪个程序般与NameNode在一种节点启动.aSecondaryNameNodebDataNodecTaskTracker dJobtracker

3、TaskTracker是运行在多种节点上的slaver服务TaskTracker积极与JobTracker通信，接受作业，并负责直接执行每一种任务TaskTracker都需要运行在HDFS的DataNode上

4.Hadoop作者答案C DougcuttingaMartin FowlerbKentBeckcDoug cutting

5.HDFS默认Block Size答案Ba32MBb64MBc128MB由于版本更换较快，这里答案只供参照

6.下列哪项一般是集群的最重要瓶颈答案C磁盘a CPUb网络c磁盘10d）内存该题解析首先集群的目的是为了节省成本，用廉价的pc机，取代小型机及大型机o小型机和大型机有什么特点？

1.cpu处理能力强

2.内存够大因此集群的瓶颈不也许是a和d

3.网络是一种稀缺资源，不过并不是瓶颈

4.由于大数据面临海量数据，读写数据都需要i，然后还要冗余数据，hadoop一般备3份数据，因此10就会打折扣

7.有关SecondaryNameNode哪项是对的的答案Ca）它是NameNode的热备b）它对内存没有规定c它的目的是协助NameNode合并编辑日志，减少NameNode启动时间d SecondaryNameNode应与NameNode布署到一种节点多选题

8.下列哪项可以作为集群的管理答案ABDaPuppetbPdshcCloudera ManagerdZookeeper

9.配置机架感知的下面哪项对的答案ABCa假如一种机架出问题，不会影响数据读写b写入数据的时候会写到不一样机架的DataNode中c MapReduce会根据机架获取离自己比较近的网络数据

10.Client端上传文献的时候下列哪项对的答案Ba数据通过NameNode传递给DataNodebClient端将文献切分为Block,依次上传c）Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作该题分析Client向NameNode发起文献写入的祈求NameNode根据文献大小和文献块配置状况，返回给Client它所管理部分DataNode的信息Client将文献划分为多种Block,根据DataNode的地址信息，按次序写入到每一*种口r1@]^0（16块中

11.下列哪个是Hadoop运行的模式答案ABCa）单机版b）伪分布式c）分布式

12.Cloudera提供哪几种安装CDH的措施答案ABCDaCloudera managerbTarballc YumdRpm判断题

13.Ganglia不仅可以进行监控，也可以进行告警（对的）此题的目的是考Ganglia的理解严格意义上来讲是对的分析ganglia作为一款最常用的Linux环境中的监控软件，它擅长的的是从节点中按照顾客的需求以较低的代价采集数据不过gangl ia在预警以及发生事件后告知顾客上并不擅长最新的ganglia已经有了部分这方面的功能不过更擅长做警告的尚有NagiosNagios，就是一款精于预警、告知的软件通过将Ganglia和Nagios组合起来，把Ganglia采集的数据作为Nagios的数据源，然后运用Nagios来发送预警告知，可以完美的实现一整套监控管理的系统

14.Block Size是不可以修改的（错误）分析它是可以被修改的Hadoop的基础配置文献是hadoop-default.xml,默认建立一种Job的时候会建立Job的Config Config首先读入hadoop-default.xml的配置,然后再读入hadoop-site.xml的配置（这个文献初始的时候配置为空），hadoop-site.xml中重要配置需要覆盖的hadoop-default,xml的系统级配置

15.Nagios不可以监控Hadoop集群，由于它不提供Hadoop支持（错误）

16.假如NameNode意外终止,SecondaryNameNode会接替它使集群继分析Nagios是集群监控工具，并且是云计算三大利器之一续工作（错误）分析SecondaryNameNode是协助恢复,而不是替代,怎样恢复，可以查看分析:第一套付费产品是Cloudera Enterpris,Cloudera Enterprise在

17.Cloudera CDH是需要付费使用的（错误）美国加州举行的Hadoop大会（Hadoop Summit）上公开，以若干私有管理、监控、运作工具加强Hadoop的功能收费采用合约订购方式，价格随用的Hadoop熬集大小变动

18.Hadoop是Java开发的，因此MapReduce只支持Java语言编写o（错误）分析rhadoop是用R语言开发的，MapReduce是一种框架，可以理解是一种思想，可以使用其他语言开发

19.Hadoop支持数据的随机读写（错）分析lucene是支持随机读写的，而hdfs只支持随机读不过HBase可以来补救HBase提供随机读写,来处理Hadoop不能处理的问题HBase自底层设计开始即聚焦于多种可伸缩性问题表可以很“高”，有数十亿个数据行;复制表的模式是物理存储的直接反应，使系统有也许提高高效的数据构造的序列化、存储和检索也可以很“宽”，有数百万个列;水平分区并在上千个一般商用机节点上自动

20.NameNode负责管理metadata,client端每次读写祈求，它都会从磁盘中读取或则会写入metadata信息并反馈client端（错误）此题分析:的只是序列化的成果,只有每次namenode启动的时候才会读取NameNode不需要从磁盘读取metadata,所有数据都在内存中，硬盘上1）文献写入Client向NameNode发起文献写入的祈求NameNode根据文献大小和文献块配置状况，返回给Client它所管理部分DataNode的信息Client将文献划分为多种Block,根据DataNode的地址信息，按次序写入到每一种DataNode块中2）文献读取Client向NameNode发起文献读取的祈求

21.NameNode当地磁盘保留了Block的位置信息（个人认为对的，欢迎提出其他意见）中，保留了Block的Meta-data同,步周期性地将所有存在的Block信息发送给分析DataNode是文献存储的基本单元，它将Block存储在当地文献系统NameNodeo NameNode返回文献存储的DataNode的信息Client读取文献信息

22.DataNode通过长连接与NameNode保持通信这个有分歧详细正在找这方面的有利资料下面提供资料可参照首先明确一下概念

1.长连接Client方与Server方先建立通讯连接,连接建立后不停开，然后再进行报文发送和接受这种方式下由于通讯连接一直存在，此种方式常用于点对点通讯

2.短连接Client方与Server每进行一次报文收发交易时才进行通讯连接，交易完毕后立即断开连接此种方式常用于一点对多点通讯，例如多种Cl ient连接一种Server.

23.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行（错误）hadoop只能制止好人出错，不过不能制止坏人干坏事

24.Slave节点要存储数据，因此它的磁盘越大越好（错误）分析一旦Slave节点宕机，数据恢复是一种难题

25.hadoop dfsadmin-report命令用于检测HDFS损坏块（错误）

26.Hadoop默认调度器方略为FIFO（对的）

27.集群内每个节点都应当配RAID,这样防止单磁盘损坏，影响整个节点运行（错误）分析首先明白什么是RAID,可以参照百科磁盘阵列这句话错误的地于hadoop自身就具有冗余能力，因此假如不是很严格不需要都配置RAID详方在于太绝对，详细状况详细分析题目不是重点，知识才是最重要的由细参照第二题

4.Hadoop作者aMartin FowlerbKentBeckcDoug cutting

5.HDFS默认Block Sizea32MBb64MBc128MB aCPU b）网络

6.下列哪项一般是集群的最重要瓶颈c）磁盘d）内存

7.有关SecondaryNameNode哪项是对的的a）它是NameNode的热备b）它对内存没有规定

28.由于HDFS有多种副本，因此NameNode是不存在单点问题的（错

29.每个map槽就是一种线程（错误）分析首先我们懂得什么是map槽,map槽-map slotmapslot只是一种逻辑值（org.apache,hadoop.mapred.TaskTracker.TaskLauncher.numFreeSlots）,而不是对应着一种线程或者进程

30.Mapreduce的input split就是一种blocko（错误）

31.NameNode的Web UI端口是50030,它通过jetty启动的Web服务（错误）

32.Hadoop环境变量中的HADOOPJEAPSIZE用于设置所有Hadoop守护线程的内存它默认是200GB（错误）Ohadoop为各个守护进程namenode,secondarynamenode,jobtracker,datanode,tasktracker统一分派的内存在hadoop-env.sh中设置，参数为HADOOPJIEAPSIZE,默认为1000M版本,那需要NameNode执行Hadoop namenode-format操作格式化磁盘

33.DataNode初次加入cluster的时候，假如log中汇报不兼容文献o（错误）分析:首先明白简介，什么ClusterlDClusterlD添加了一种新的标识符ClusterlD用于标识集群中所有的节点当格式化一种Namenode,需要提供这个标识符或者自动生成这个ID可以被用来格式化加入集群的其他Namenode二次整顿有的同学问题的重点不是上面分析内容内容如下:这个报错是阐明DataNode所装的Hadoop版本和其他节点不一致，应当检查DataNode的Hadoop版本c它的目的是协助NameNode合并编辑日志，减少NameNode启动时间d SecondaryNameNode应与NameNode布署到一种节点多选题

8.下列哪项可以作为集群的管理工具aPuppetbPdshcCloudera ManagerddZookeeper

9.配置机架感知的下面哪项对的a假如一种机架出问题，不会影响数据读写b写入数据的时候会写到不一样机架的DataNode中c MapReduce会根据机架获取离自己比较近的网络数据

10.Client端上传文献的时候下列哪项对的a数据通过NameNode传递给DataNodebClient端将文献切分为Block,依次上传c）Client只上传数据到一台DataNode,然后由NameNode负责Block复制工作

11.下列哪个是Hadoop运行的模式a）单机版b）伪分布式c）分布式

12.Cloudera提供哪几种安装CDH的措施a）Cloudera managerb）Tar ballc）Yum d）Rpm判断题

13.Ganglia不仅可以进行监控，也可以进行告警（）

14.Block Size是不可以修改的（）

15.Nagios不可以监控Hadoop集群，由于它不提供Hadoop支持

16.假如NameNode意外终止，SecondaryNameNode会接替它使集群继续工作（）

17.Cloudera CDH是需要付费使用的（）

18.Hadoop是Java开发的，因此MapReduce只支持Java语言编写o（）

19.Hadoop支持数据的随机读写（）

20.NameNode负责管理metadata,client端每次读写祈求，它都会从磁盘中读取或则会写入metadata信息并反馈client端（）

21.NameNode当地磁盘保留了Block的位置信息（）

22.DataNode通过长连接与NameNode保持通信（）

23.Hadoop自身具有严格的权限管理和安全措施保障集群正常运行

24.Slave节点要存储数据，因此它的磁盘越大越好（）

25.hadoop dfsadmin-report命令用于检测HDFS损坏块

26.Hadoop默认调度器方略为FIF0（）

27.集群内每个节点都应当配RAID,这样防止单磁盘损坏，影响整个节点运行（）

28.由于HDFS有多种副本，因此NameNode是不存在单点问题的（）

29.每个map槽就是一种线程（）

30.Mapreduce的input split就是一种blocko3L NameNode的Web UI端口是50030,它通过jetty启动的Web服务（）

32.Hadoop环境变量中的HADOOPJEAPSIZE用于设置所有Hadoop守护线程的内存它默认是200GBo版本,那需要NameNode执行Hadoop namenode-format”操作格式化磁盘

33.DataNode初次加入cluster的时候，假如log中汇报不兼容文献o别走开，答案在背面哦!答案单项选择题

1.下面哪个程序负责HDFS数据存储答案C datanodeaNameNodebJobtrackercDatanodedsecondaryNameNodeetasktracker

2.HDfS中的block默认保留几份？答案A默认3分a3份b2份cl份d不确定

3.下列哪个程序一般与NameNode在一种节点启动答案DaSecondaryNameNodebDataNodecTaskTrackerdJobtracker此题分析hadoop的集群是基于mast er/s lave模式,namenode和jobtracker属于master,datanode和tasktracker属于slave,master只有一种,而slave有多种SecondaryNameNode内存需求和NameNode在一种数量级上，因此一般secondary NameNode（运行在单独的物理机器上）和NameNode运行在不一样的机器上JobTracker^OTaskTrackerJobTracker对应于NameNodeTaskTracker对应于DataNodeDataNode和NameNode是针对数据寄存来而言的JobTracker和TaskTracker是对于MapReduce执行而言的mapreduce中几种重要概念,mapreduce整体上可以分为这样几条执行线索obc1ient，JobTracker与TaskTracker

1、JobClient会在顾客端通过JobClient类将应用已经配置参数打包成jar文献存储到hdfs,并把途径提交到Jobtracker,然后由JobTracker创立每一种Task即MapTask和ReduceTask并将它们分发到各个TaskTracker服务中去执行

2、JobTracker是一种master服务,软件启动之后JobTracker接受Job,负责调度Job的每一种子任务task运行于TaskTracker上，并监控它们，假如发既有失败的task就重新运行它一般状况应当把JobTracker布署在单独的机器上。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小33.75 KB

文件格式docx

分享时间2024-11-29

更多此类文档

立即下载