还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
基础知识单选题道及答案Spark100中负责管理集群资源的组件是()
1.SparkA.DriverB.ExecutorC.ResourceManagerD.Master答案D以下哪种数据结构在中用于分布式弹性数据集()
2.SparkA.ArrayB.ListC.RDDD.Map答案C应用程序的入口点是()
3.Spark函数A.main函数B.start函数C.run函数D.execute答案A在中,对进行转换操作后返回的是()E.Spark RDD原A.RDD新的B.RDD一个空C.RDD一个错误提示D.答案B以下哪个不是支持的数据源()
5.SparkA.HDFSB.MySQLC.ExcelD.Cassandra答案C中用于对进行分组的操作是()
6.Spark RDDA.mapB.filterC.groupByKeyD.reduce答案C当在中对进行持久化时,默认的存储级别是()
7.Spark RDDA.MEMORY_ONLYB.MEMORY_AND_DISKC.DISK.ONLYD.OFF_HEAP答案A以下关于的分区描述正确的是()
8.Spark RDD分区数固定不可变A.分区越多性能一定越好B.分区是为了并行处理数据C.分区之间不能进行数据交换D.答案C中处理实时数据的基本抽象是()
9.Spark StreamingA.DStreamB.RDDC.D.答案A.在中,若要将注册为表,以下哪个方法是正确的?()80Spark SQLDataFrame HiveA.registerAsTableB.createOrReplaceTempViewC.saveAsTableD.registerAsHiveTable答案C关于的以下说法错误的是()
81.Spark RDD checkpoint,会将持久化到可靠存储A.checkpoint RDD执行后,的会被截断B.checkpoint RDDlineage只能在端调用C.checkpoint Driver对一个可以多次执行且每次都会覆盖之前的结果D.RDDcheckpoint答案D在中,对进行操作时,以下哪种说法是正确的?()
82.Spark RDDcoalesce操作只能减少分区数A.coalesce操作只能增加分区数B.coalesce操作一定不会产生C.coalesce shuffle操作可以同时增加和减少分区数D.coalesce答案A中,对于窗口操作,窗口的起始时间是由()决定的
83.Spark Streaming第一个数据到达的时间A.批处理时间间隔B.窗口大小和滑动间隔共同决定C.系统随机生成D.答案C在中,使用以下哪种函数可以对的列进行字符串拼接操作?()
84.Spark SQLDataFrame A.concatB.joinStringsC.stringConcatD.mergeStrings答案A关于的内存管理,以下说法正确的是()
85.Spark Executor的内存全部用于存储数据A.Executor RDD的内存分为堆内内存和堆外内存,且两者不能同时使用B.Executor可以通过配置参数调整堆内和堆外内存的比例C.Executor的内存使用情况不会影响作业的性能D.Executor Spark答案C在中,对进行操作时,该操作适用于()类型的
86.Spark RDDlookup RDD普通A.RDD键值对B.RDD包含复杂对象的C.RDD任何类型的D.RDD答案B中,为了确保数据的一致性和容错性,在使用有状态的操作时,需要开启
87.Spark Streaming()检查点机制A.广播变量B.累加器C.数据压缩D.答案A在中,若要对进行行列同时筛选,以下哪种操作是正确的?
88.Spark SQLDataFrameA.select.whereB.filter.pickC.choose.filterD.extract.where答案A关于的机制,以下说法错误的是
89.Spark Shuffle过程中会进行数据的重新分区和排序A.Shuffle是导致作业性能下降的主要原因之一B.Shuffle Spark可以通过调整的并行度来优化性能C.Shuffle在窄依赖的操作中也会频繁发生D.Shuffle RDD答案D在中,对进行操作时,初始值的类型必须与的类型一致
90.Spark RDDfold元素A.RDD分区B.RDD累加器C.广播变量D.答案A中,当数据源的数据量非常大时,为了提高数据处理效率,可以
91.Spark Streaming增加批处理时间间隔A.减少的分区数B.RDD增加的分区数C.RDD减少窗口大小D.答案C在中,若要对进行数据透视操作以下哪个函数是正确的?
92.Spark SQLDataFrame pivot,A.pivotB.unpivotC.transposeD.rotate答案A关于在集群模式下的运行,以下说法错误的是
93.Spark YARN程序可以在集群的任意节点上运行A.Driver YARN的资源分配由的管理B.Executor YARNResourceManager可以通过的命令行工具查看作业的运行状态C.YARN Spark作业在上运行时,不需要配置任何相关参数D.Spark YARNYARN答案D在中,对进行操作时,该操作会
94.Spark RDDcartesian对进行笛卡尔积运算,生成一个新的A.RDD RDD将的元素进行随机组合B.RDD对进行分区合并C.RDD对进行数据采样D.RDD答案A中,以下哪种输出操作会将数据追加到外部存储系统中已有的数据之后?
95.Spark StreamingA.outputModeHappendHB.outputModencompletenC.outputModeC^updateD.outputModenoverwriten答案A在中,若要对进行数据脱敏处理,例如对某列的敏感信息进行替换,
96.Spark SQLDataFrame以下哪种方法可以实现?A.withColumnB.addColumnC.replaceColumnD.modifyColumn答案A关于的部署模式,以下说法正确的是()
97.Spark模式下,节点只能管理一个节点A.Standalone Master Worker模式下,作业的调度完全依赖于的框架B.YARN SparkHadoop MapReduce模式可以支持多种不同类型的任务调度C.Mesos所有部署模式下,的配置参数都是完全相同的D.Spark答案C在中,对进行操作时,两个的()必须相同
98.Spark RDDzip RDD元素个数A.分区数B.数据类型C.元素顺序D.答案A中,当数据处理速度跟不上数据生成速度时,可能会导致()
99.Spark Streaming数据丢失A.数据重复处理B.作业自动终止C.系统自动增加批处理时间间隔D.答案A在中,若要将中的数据按照某一列进行分桶存储,以下哪个方法是正
100.Spark SQLDataFrame确的?()A.bucketByB.partitionByC.distributeByD.sortBy答案AC.DataFrameD.Dataset答案A在中,用于创建的方法是()
10.Spark SQLDataFrameA.createDataFrameB.newDataFrameC.buildDataFrameD.generateDataFrame答案A中用于对进行排序的操作是()ll.Spark RDDA.sortByB.orderByC.arrangeD.rank答案A以下哪种模式不是支持的数据源读取模式()
12.Spark SQLA.AppendB.OverwriteC.ErrorlfExistsD.Update答案D当在中使用广播变量时,其作用是()
13.Spark提高数据传输速度A.减少数据传输量B.增加数据安全性C.优化计算逻辑D.答案B中用于将多个合并成一个的操作是()
14.Spark RDDRDDA.unionB.joinC.intersectD.subtract答案A_在中,批处理时间间隔指的是()
15.Spark Streaming数据采集的时间间隔A,数据处理的时间间隔B.数据存储的时间间隔C.数据传输的时间间隔D.答案B中用于过滤数据的方法是()
16.Spark SQLDataFrameA.whereB.filterC.selectD.groupBy答案B以下关于的分布式缓存描述错误的是()
17.Spark可以缓存A.RDD缓存数据在所有节点上都有副本B.缓存数据会一直存在C.能提高数据访问速度D.答案C中对进行聚合操作时,常用的函数是()
18.Spark RDDA.sumB.countC.reduceByKeyD.average答案C在中,使用累加器的目的是()
19.Spark进行分布式计算A.对分布式数据进行累加B.优化计算性能C.存储中间结果D.答案B支持的数据源不包括()
20.Spark StreamingA.KafkaB.FlumeC.RabbitMQD.Redis答案D中用于选择列的方法是()
21.Spark SQLDataFrameA.selectB.chooseC.pickD.extract答案A以下哪种操作不属于的转换操作()
22.Spark RDDA.flatMapB.collectC.map ValuesD.distinct答案B中用于对进行连接操作的是()
23.Spark RDDA.joinB.connectC.linkD.merge答案A在中,窗口操作可以()
24.Spark Streaming对一段时间内的数据进行处理A.对特定窗口大小的数据进行过滤B.对数据进行窗口化显示C.对数据进行窗口化存储D.答案A中创建临时视图的方法是()
25.Spark SQLA.createTempViewB.makeTempViewC.buildTempViewD.generateTempView答案A.以下关于的部署模式,错误的是()26SparkA.StandaloneB.YARNC.MesosD.HBase答案D中用于对进行抽样的操作是()
27.Spark RDDA.sampleB.takeSampleC.randomSampleD.selectSample答案A在中,广播变量和累加器都需要()
28.Spark在端定义A,Driver在立满定义29Executor在所有节点上定义C.在节点上定义D.Master答案A中数据处理的基本流程是()
29.Spark Streaming采集-处理-存储A.采集-存储-处理B.处理-采集-存储C.存储-采集-处理D.答案A中用于对进行分组聚合的方法是()
30.Spark SQLDataFrameA.groupBy.aggB.group.aggregateC.byGroup.aggD.aggByGroup答案A以下关于的惰性求值,说法正确的是()
31.Spark RDD所有操作立即执行A.转换操作立即执行,行动操作延迟执行B.行动操作立即执行,转换操作延迟执行C.所有操作都延迟执行D.答案D中用于控制分区数的方法是()
32.Spark RDDA.repartitionB.rebalanceC.resizeD.restructure答案A在中,检查点机制的作用是()
33.Spark Streaming提高数据处理速度A.确保数据处理的容错性B.优化数据存储C减少数据传输量D.答案B中用于对进行排序的方法是()
34.Spark SQLDataFrameA.orderByB.sortC.rankByD.arrangeBy答案A以下哪种数据类型不能直接作为的元素类型()
35.Spark RDDA.IntB.StringC.Map(自定义对象,未实现序列化)D.CustomObject答案D中用于对进行过滤操作的函数是()
36.Spark RDDA.filterB.rejectC.removeD.exclude答案A在中,使用广播变量时,需要调用()方法来广播数据
37.SparkA.broadcastB.spreadC.distributeD.scatter答案A_中窗口操作的滑动间隔()窗口大小
38.Spark Streaming必须小于A.可以小于、等于或大于B.必须等于C.必须大于D.答案B中用于连接两个的方法是()
39.Spark SQLDataFrameA.joinB.unionC.intersectD.subtract答案A以下关于的配置参数,说法错误的是()
40.Spark可以通过代码设置A.可以通过配置文件设置B.配置参数一旦设置不能修改C.不同的部署模式可能有不同的配置参数D.答案C中对进行操作时,返回的元素个数()原元素个数
41.Spark RDDmap RDDRDD关于A.小于B.等于C.不确定D.答案C在中,数据采集阶段可以从()获取数据
42.Spark Streaming仅文件系统A.多种数据源B.仅网络端口C..仅数据库D答案B中用于对进行去重的方法是()
43.Spark SQLDataFrameA.distinctB.uniqueC.removeDuplicatesD.dropDuplicates答案A以下关于的依赖关系,描述正确的是()
44.Spark RDD窄依赖和宽依赖没有区别A.窄依赖不会产生B.shuffle宽依赖不会产生C.shuffle所有依赖都会产生D.shuffle答案B中用于对进行扁平化操作的是()
45.Spark RDDA.flatMapB.mapFlatC.unrolIMapD.expandMap答案A在中,累加器的值可以在()获取
46.Spark任何地方A.仅端47Driver仅立瑞C.Executor节点D.Master答案B中数据处理的并行度取决于()
47.Spark Streaming批处理时间间隔A.窗口大小B.的分区数C.RDD数据源的数量D.答案C中用于对进行聚合计算的函数是()
48.Spark SQLDataFrameA.sumB.countC.avg以上都是D.答案D以下关于的运行架构,说法错误的是()
49.Spark包含和A.Driver Executor负责调度和管理B.Driver负责执行计算任务C.Executor和是完全独立的组件,没有联系D.MasterWorker答案D中用于对进行键值对操作时,提取键的函数是()
50.Spark RDDA.keysB.getKeysC.extractKeysD.selectKeys答案一A在中,对进行窗口操作时,窗口大小和滑动间隔()是固定的
51.Spark StreamingDStream一定A.不一定B.必须C.绝对不D.答案B中用于从中删除列的方法是()
52.Spark SQLDataFrameA.dropB.removeC.deleteD.erase答案A以下关于的缓存,说法正确的是()
53.Spark RDD缓存数据不会占用内存A.缓存数据后不能再进行其他操作B.合理使用缓存可以提高性能C.缓存数据会自动清除D.答案C中用于对进行聚合操作并返回结果的函数是()
54.Spark RDDA.reduceB.foldC.aggregate以上都可以D.答案D在中,使用累加器时需要注意()
55.Spark不同之间不能共享累加器A.Executor累加器只能用于数值类型B.累加器的初始值必须为C.0累加器的更新操作必须是原子性的D.答案D中对进行转换操作后返回的是()
56.Spark StreamingDStream原A.DStream新的B.DStream一个空C.DStream一个错误提示D.答案B中用于将写入文件的方法是()
57.Spark SQLDataFrameA.writeB.saveC.exportD.output答案A以下关于的任务调度,说法错误的是()
58.Spark有调度器和调度器A.DAG Task调度器负责将作业分解为阶段B.DAG调度器负责将任务分配给C.Task Executor调度过程中不会考虑资源情况D.答案D中用于对进行随机打乱操作的是()
59.Spark RDDA.shuffleB.randomizeC.scrambleD.mix答案A在中,数据处理的延迟主要受()影响
60.Spark Streaming数据源的类型A.批处理时间间隔B.窗口大小C.网络带宽D.答案B中用于对进行条件查询的方法是()
61.Spark SQLDataFrameA.whereB.filterC.selectWhereD.query Where答案A以下关于的分区策略,说法正确的是()
62.Spark RDD只有一种分区策略A.分区策略不会影响性能B.可以根据数据特点选择合适的分区策略C.分区策略由系统自动决定,用户不能干预D.答案C中用于对进行键值对分组操作的函数是()
63.Spark RDDA.groupByKeyB.groupKeysC.byGroupKeyD.keyGroup答案A在中,广播变量在端()修改
64.Spark Executor可以随意A.不能B.经过授权可以C.部分可以D.答案B中数据处理的吞吐量指的是()
65.Spark Streaming单位时间内处理的数据量A.数据处理的总时长B.数据传输的速度C.数据存储的容量D.答案A中用于对进行连接操作时指定连接条件的方法是()
66.Spark SQLDataFrameA.onB.whereC.joinOnD.connectOn答案A以下关于的资源管理,说法错误的是()
67.Spark可以通过配置参数调整资源分配A.资源管理只涉及内存分配B.不同的部署模式资源管理方式不同C.合理的资源管理可以提高应用性能D.答案B中用于对进行元素个数统计的函数是()
68.Spark RDDA.countB.sizeC.lengthD.number答案A在中,对进行输出操作时,数据()会被保存
69.Spark StreamingDStream一定A.不一定B.必须C.绝对不D.答案B中用于对进行排序并指定排序方式(升序或降序)的方法是()
70.Spark SQLDataFrameA.orderBy.asc/descB.sortBy.asc/descC.rankBy.asc/descD.arrangeBy.asc/desc答案A以下关于的转换操作特点,说法错误的是()
71.Spark RDD转换操作是懒执行的A.转换操作返回新的B.RDD转换操作不会改变原的数据C.RDD转换操作一定会增加的分区数D.RDD答案D中用于对进行键值对映射操作的函数是()
72.Spark RDDA.map ValuesB.mapKeysC.mapPairsD.mapKey Value答案A在中,累加器可以用于()
73.Spark仅统计数值A.统计数值和其他类型的数据(实现了相应操作)B.仅统计字符串C.仅统计布尔值D.答案B中窗口操作的窗口大小()是固定的
74.Spark Streaming一定A.不一定B.必须C.绝对不D.答案B中用于对进行聚合操作并指定别名的方法是()
75.SparkSQL DataFrame()A.agg columnNameas aliasName()B.aggregate columnNameas aliasName()C.groupBy.agg columnNameas aliasName()D.byGroup.agg columnNameas aliasName答案C以下关于的部署,说法正确的是()
76.SparkA.模式适合大规模生产环境StandaloneB.模式需要依赖的资源管理器YARN HadoopYARNC.模式只能用于应用Mesos Spark部署模式选择不影响应用性能D.答案BD..中用于对进行过滤操作并返回满足条件的第一个元素的函数是()Spark RDDA.findB.firstC.takeD.head答案A
78.在中,若要对的每个分区执行一个函数,该函数可以返回多个结果,应使用以Spark RDD下哪个函数?()A.mapPartitionsB.foreachPartitionC.flatMapPartitionsD.transformPartitions答案C
79.中,当使用作为数据源时,以下哪个配置参数用于指定的Spark StreamingKafka Kafkaboots()trap,serversA.B.。
个人认证
优秀文档
获得点赞 0