数据工程师培训题库

佚名 · 0905

工程，培训

文件大小23.4 KB

文件格式docx

分享时间2024-03-28

更多此类文档

立即下载

还剩5页未读，继续阅读

文本内容:

檄据吊桐台统认计的证，最程后任师务斌行题败当前用户提交T了D—H voco任务工6，可能的原因有、哪些（）A.当前集群中没有足够的资源，不卷偏满足当一前T_o_r_d型_u_n_t他第的:需-求——【警】执行该任务的用户没有松限访问HDFS上的数据文件a）金编国瞿执寿瞿多编是拓段箱应的目录下创建了提b）苇观觑■世c）交任务时指定的输出目录幅喻箝总计40分满分100分

7、以下关于外表和托管表描述正确的是（）【不足嘲繇檎敏蚯簿装的数据存储在hdfs上人下嘛陈黯＜美鲫蔡年蹿展（上的完数据不会删除数据文件，删除外表两者都会被蒯核DFS DataNode节点上的磁盘需要做RAID1,用来保证数据的可靠性灰皿除夕酗筒觞闻谑注怩吧的元黄福不鎏躺磕股蠢嗫神争镯觎管表两者都会被蒯瞑DFS建议DataNode之间的数据盘个数、容量大小不一致，以体现HDFS的负载均衡能布I]除托管表或者外表，i ncepotr上的元数据和数据文件都会被删除D.规划HDFS集群时，建议Act ive NameNode和Standby NameNode分配在不同的机箧*QL运行中如果浮现maptask数据特殊多，执行时间又很短时可以通过小文件合并来徐彳搁聊堂锲幽堞嚎膏（可靠协）调服务的共享存储？（）；6邰e即愉EI Nodes斜a iJo^erControI Ier决巧感橇福烝丽缴块大少为128M,此时我们上传一份64M的数崩文儒e挠第塔布告占身麝酸翎堵遭机ar/1ig/inceptorsqI[x]/,—通过i nceptorserver4040查看SQL错误日志B.,^xcutor日志存放于excutor节点的/var/log/inceptorsqI[x]/

10、

6.,^xcutorGC日志存放于excutor节点的/var/log/inceptorsqI[x]/有10G的数据，黑金|1墨与100G的数据，两个表通过共有的id列做关联查询name歹（以下方式可以优化计算效率的是（）

4、依》细腻色脸酒阕希苗即秋隼像田Jblei ajoin tableBb on=

6.监馆现c钟锄那册IN b*/,息from tabIeA ajoin tabIeB bon=•蜜•殍哨bleA和tableB B,镰日^根据id字段分相同数量的桶策tableB D.Cont ianer根据name字段分相同数量的桶11\以下属于HMaster功能的是（

5、怩sou为褪蹄为晶JA卵/勺瑞卵成部份，有关其功能描述不正确的是（）拥有的资源按需分配给运行在YARN上的应用程序.解瀛/震耗电崛藻整进行统一管理和分配.它把资源按照策略分配给各应用

3、请描述一个100GB文件写入Hyperbase表的整个过程使用bulk load方式实现

4、写出以下场景下的优化思路

1、假设在Inceptor上执行任务，发现Map Task数量多、执行时间短，应采取哪种措施来提升性能？

2、请简述在Inceptor中大表与大表做join、大表与小表做join时分别有哪些优化手段

12、Hyperbase与Inceptor的关系，描述正确的是A.两者不可或者缺，Inceptor保证Hyperbase的服务的正常运行B.两者没有任何关系C.I nceptor可以访问HyperbaseD.两者相辅相成

13、下列创建全局索引的语句，正确的是A.add_i ndext1,*index_nameJ,COMBINE.INDEX|INDEXED=f1:q1:91rowKey:rowKey:10,UPDATEDrueB.add_global_i ndex111,index_name,,COMB INE_INDEX|INDEXED=f1:q1:91rowKey:rowKey:10,UPDATE=true1C.add_fuI Itext_index t1,index_name,,1COMB INE_INDEX|INDEXED=f1:q1:91rowKey:rowKey:10,UPDATEDrue1D.create_global_i ndex1111,i ndex_name，,COMB INE_INDEX|INDEXED=f1:q1:91rowKey:rowKey:10,UPDATEDrue

114、以下对流处理计算框架描述不正确的是（）A.Spark Streaming是基于微批（batch）对数据进行处理的B.Apache Storm是基于时间（event）对数据进行处理的C.Transwarp StreamSQL可基于微批或者事件对数据进行处理D.以上说法都不对

15、某交通部门通过使用流监控全市过往24小时各个卡口数据，要求每分钟更新一次，原始流为org_stream,以下实现正确的是A.CREATE STREAMWINDOWtraffic_stream ASSELECT*FROM original_stream STREAMw1AS Iength1minute slide24hour;B.CREATE STREAMtraff ic_stream ASSELECT*FROM original_streamSTREAMWINDOW w1AS lengthT minuteslide24hour;C.CREATE STREAMtraff ic_stream ASSELECT*FROM originsl_streamSTREAMWINDOW w1AS length24hour slideT minute;D.CREATE STREAMtraffic_stream ASSELECT*FROMor iginal_stream ASlength24*second slideminute;

16、Zookeeper服务描述正确的为（）A.Zookeeper中每一个server互为leaderB-Zookeeper中惟独一个leader,并通过备份机制产生C.Zookeeper中不存在leader,所有server共同提供服务D.Zookeeper通过选举机制确定leader,有且仅有一个

17、通过Hue修改HDFS目录或者文件的权限可以通过以下哪些方式实现（）A.Hdfs相应的权限B.通过Hue超级用户hue登录C.以hdfs用户登录D.以上都可以

18、通过Oozie使用ssh,必须满足以下条件（）A.以root用户登录各个节点B.Oozie用户可以免密钥登录C.Oozie用户必须要有bash权限D.所访问必须是集群的节点

19、有关使用sqoop抽取数据的原理的描述不正确的是（）A.sqoop在抽取数据的时候可以指定map的个数，map的个数决定在hdfs生成的数据文件的个数B.sqoop抽取数据是个多节点并行抽取的过程，因此map的个数设置的越多性能越好C.sqoop任务的切分是根据split字段的（最大值-最小值）/map数D-sqoop抽取数据的时候需要保证执行当前用户有权限执行相应的操作

20、在使用sqoop连接关系型数据时，下面哪个命令可以查看关系型数据库中有哪些表？（）A.sqoop I i st-databases——username root一password111111B.——connect jdbc:Ii st-databases——username root-PC.-connect jdbc:Iist-databases——username root一一password-fi Iefi Ie:/root/,pwdD.一connect jdbc:list-tab les——username root一一password111111——connect jdbc:

21、要将采集的日志数据作为kafka的数据源，则flume sink需要设置为下列哪项参数（）A.hdfsB.kafkaC..{top icname）

22、下列是关于千I time和sqoop对照的描述，不正确的是（）A-flume主要用来采集日志而sqoop主要用来做数据迁移B.flume主要采集流式数据而sqoop主要用来迁移规范化数据C.flume和sqoop都是分布式处理任务D.flume主要用于采集多数据源小数据而sqoop用来迁移单数据源数据

23、有关Elasticsearch描述有误的一项是（）A.它会利用多播形式发现节点B.主节点（master node）通过选举方式产生C.主节点（master node）进行集群的管理，只负责集群节点添加和删除D.主节点会去读集群状态信息，必要的时候进行恢复工作

24、下面措施中，不能保证kafka数据可靠性的是（）A.kafka会将所有消息持久化到硬盘中保证其数据可靠性B.kafka通过Topic Partition设置Repl icat ion来保证其数据可靠性C.kafka通过设置消息重发机制保证其数据可靠性D.kafka无法保证数据可靠性

25、TDH提供哪几种认证模式？（）A.所有服务使用简单认证模式一一所有服务都无需认证即可互相访问B.所有服务都启用Kerberos认证，用户要提供Kerberos principal和密码（或者keytab）来访问各个服务C.所有服务都启用Kerberos同时Inceptor启用LDAP认证D.所有服务都启用LDAP认证

26、开启LDAP后，应该使用哪个命令连接I nceptor（）A.transwarp-t-h$i poB.bee Ii ne-u jdbc:hive2://$ip:10000-n$username-p$passwordoC.bee Iine-uD.

27、Inceptor server服务无法启动时，该如何查看日志是（）A.查看TDH manager所在节点/var/log/inceptorsql*/目录下的日志B.查看Inceptor server所在节点/var7log/inceptorsql*/目录下的日志C.查看Resource Manager所在节点/var/log/Yarn*/目录下的日志D.查看任意节点/var/1og/inceptorsq I*/目录下的日志

28、现有一批数据需要进行清洗，要求对其中null通过update转换为0,删除重复的记录，添加部份新的记录，则该表应该设计为（）A.Tex表B.Orc表C.Orc事务表D.Holodesk表

29、现有一个表数据要存储在hyperbase上，并创建全文索引，原表数据10GB,HDFS配置为3副本，hyperbase压缩比例按1:3计算，索引数据量为20GB,ES副本数为1,ES压缩比按1:3计算，则该表需要多大的存储空间存储（）A.30GBB.70GB

30、下面哪些工作不属于集群预安装工作（）A.为集群中每一个节点的安装操作系统B.选一个节点作为管理节点，修改其/etc/hosts文件C.安装Transwarp Manager管理界面D.配置集群安全模式【客观简答题（每题10分，共40分）】

1、请描述HDFS的高可用性实现机制答

2、请列举出平台支持的5种存储格式/引擎的表，并详细描述各自的存储特点、使用场景、支持的操作以及是否支持分区分桶答Text表0RC表:事务表:HoloDesk表:Hyperbase表:。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小23.4 KB

文件格式docx

分享时间2024-03-28

更多此类文档

立即下载