Spark基础知识单选题100道及答案

佚名 · 0905

答案

文件大小31.67 KB

文件格式docx

分享时间2025-02-07

更多此类文档

立即下载

还剩11页未读，继续阅读

本资源只提供10页预览，全部文档请下载后查看！喜欢就下载吧，查找使用更方便

立即下载

文本内容:

基础知识单选题道及答案Spark100中负责管理集群资源的组件是（）

1.SparkA.DriverB.ExecutorC.ResourceManagerD.Master答案D以下哪种数据结构在中用于分布式弹性数据集（）

2.SparkA.ArrayB.ListC.RDDD.Map答案C应用程序的入口点是（）

3.Spark函数A.main函数B.start函数C.run函数D.execute答案A在中，对进行转换操作后返回的是（）E.Spark RDD原A.RDD新的B.RDD一个空C.RDD一个错误提示D.答案B以下哪个不是支持的数据源（）

5.SparkA.HDFSB.MySQLC.ExcelD.Cassandra答案C中用于对进行分组的操作是（）

6.Spark RDDA.mapB.filterC.groupByKeyD.reduce答案C当在中对进行持久化时，默认的存储级别是（）

7.Spark RDDA.MEMORY_ONLYB.MEMORY_AND_DISKC.DISK.ONLYD.OFF_HEAP答案A以下关于的分区描述正确的是（）

8.Spark RDD分区数固定不可变A.分区越多性能一定越好B.分区是为了并行处理数据C.分区之间不能进行数据交换D.答案C中处理实时数据的基本抽象是（）

9.Spark StreamingA.DStreamB.RDDC.D.答案A.在中，若要将注册为表，以下哪个方法是正确的？（）80Spark SQLDataFrame HiveA.registerAsTableB.createOrReplaceTempViewC.saveAsTableD.registerAsHiveTable答案C关于的以下说法错误的是（）

81.Spark RDD checkpoint,会将持久化到可靠存储A.checkpoint RDD执行后，的会被截断B.checkpoint RDDlineage只能在端调用C.checkpoint Driver对一个可以多次执行且每次都会覆盖之前的结果D.RDDcheckpoint答案D在中，对进行操作时，以下哪种说法是正确的？（）

82.Spark RDDcoalesce操作只能减少分区数A.coalesce操作只能增加分区数B.coalesce操作一定不会产生C.coalesce shuffle操作可以同时增加和减少分区数D.coalesce答案A中，对于窗口操作，窗口的起始时间是由（）决定的

83.Spark Streaming第一个数据到达的时间A.批处理时间间隔B.窗口大小和滑动间隔共同决定C.系统随机生成D.答案C在中，使用以下哪种函数可以对的列进行字符串拼接操作？（）

84.Spark SQLDataFrame A.concatB.joinStringsC.stringConcatD.mergeStrings答案A关于的内存管理，以下说法正确的是（）

85.Spark Executor的内存全部用于存储数据A.Executor RDD的内存分为堆内内存和堆外内存，且两者不能同时使用B.Executor可以通过配置参数调整堆内和堆外内存的比例C.Executor的内存使用情况不会影响作业的性能D.Executor Spark答案C在中，对进行操作时，该操作适用于（）类型的

86.Spark RDDlookup RDD普通A.RDD键值对B.RDD包含复杂对象的C.RDD任何类型的D.RDD答案B中，为了确保数据的一致性和容错性，在使用有状态的操作时，需要开启

87.Spark Streaming（）检查点机制A.广播变量B.累加器C.数据压缩D.答案A在中，若要对进行行列同时筛选，以下哪种操作是正确的？

88.Spark SQLDataFrameA.select.whereB.filter.pickC.choose.filterD.extract.where答案A关于的机制，以下说法错误的是

89.Spark Shuffle过程中会进行数据的重新分区和排序A.Shuffle是导致作业性能下降的主要原因之一B.Shuffle Spark可以通过调整的并行度来优化性能C.Shuffle在窄依赖的操作中也会频繁发生D.Shuffle RDD答案D在中，对进行操作时，初始值的类型必须与的类型一致

90.Spark RDDfold元素A.RDD分区B.RDD累加器C.广播变量D.答案A中，当数据源的数据量非常大时，为了提高数据处理效率，可以

91.Spark Streaming增加批处理时间间隔A.减少的分区数B.RDD增加的分区数C.RDD减少窗口大小D.答案C在中，若要对进行数据透视操作以下哪个函数是正确的？

92.Spark SQLDataFrame pivot,A.pivotB.unpivotC.transposeD.rotate答案A关于在集群模式下的运行，以下说法错误的是

93.Spark YARN程序可以在集群的任意节点上运行A.Driver YARN的资源分配由的管理B.Executor YARNResourceManager可以通过的命令行工具查看作业的运行状态C.YARN Spark作业在上运行时，不需要配置任何相关参数D.Spark YARNYARN答案D在中，对进行操作时，该操作会

94.Spark RDDcartesian对进行笛卡尔积运算，生成一个新的A.RDD RDD将的元素进行随机组合B.RDD对进行分区合并C.RDD对进行数据采样D.RDD答案A中，以下哪种输出操作会将数据追加到外部存储系统中已有的数据之后？

95.Spark StreamingA.outputModeHappendHB.outputModencompletenC.outputModeC^updateD.outputModenoverwriten答案A在中，若要对进行数据脱敏处理，例如对某列的敏感信息进行替换，

96.Spark SQLDataFrame以下哪种方法可以实现？A.withColumnB.addColumnC.replaceColumnD.modifyColumn答案A关于的部署模式，以下说法正确的是（）

97.Spark模式下，节点只能管理一个节点A.Standalone Master Worker模式下，作业的调度完全依赖于的框架B.YARN SparkHadoop MapReduce模式可以支持多种不同类型的任务调度C.Mesos所有部署模式下，的配置参数都是完全相同的D.Spark答案C在中，对进行操作时，两个的（）必须相同

98.Spark RDDzip RDD元素个数A.分区数B.数据类型C.元素顺序D.答案A中，当数据处理速度跟不上数据生成速度时，可能会导致（）

99.Spark Streaming数据丢失A.数据重复处理B.作业自动终止C.系统自动增加批处理时间间隔D.答案A在中，若要将中的数据按照某一列进行分桶存储，以下哪个方法是正

100.Spark SQLDataFrame确的？（）A.bucketByB.partitionByC.distributeByD.sortBy答案AC.DataFrameD.Dataset答案A在中，用于创建的方法是（）

10.Spark SQLDataFrameA.createDataFrameB.newDataFrameC.buildDataFrameD.generateDataFrame答案A中用于对进行排序的操作是（）ll.Spark RDDA.sortByB.orderByC.arrangeD.rank答案A以下哪种模式不是支持的数据源读取模式（）

12.Spark SQLA.AppendB.OverwriteC.ErrorlfExistsD.Update答案D当在中使用广播变量时，其作用是（）

13.Spark提高数据传输速度A.减少数据传输量B.增加数据安全性C.优化计算逻辑D.答案B中用于将多个合并成一个的操作是（）

14.Spark RDDRDDA.unionB.joinC.intersectD.subtract答案A_在中，批处理时间间隔指的是（）

15.Spark Streaming数据采集的时间间隔A,数据处理的时间间隔B.数据存储的时间间隔C.数据传输的时间间隔D.答案B中用于过滤数据的方法是（）

16.Spark SQLDataFrameA.whereB.filterC.selectD.groupBy答案B以下关于的分布式缓存描述错误的是（）

17.Spark可以缓存A.RDD缓存数据在所有节点上都有副本B.缓存数据会一直存在C.能提高数据访问速度D.答案C中对进行聚合操作时，常用的函数是（）

18.Spark RDDA.sumB.countC.reduceByKeyD.average答案C在中，使用累加器的目的是（）

19.Spark进行分布式计算A.对分布式数据进行累加B.优化计算性能C.存储中间结果D.答案B支持的数据源不包括（）

20.Spark StreamingA.KafkaB.FlumeC.RabbitMQD.Redis答案D中用于选择列的方法是（）

21.Spark SQLDataFrameA.selectB.chooseC.pickD.extract答案A以下哪种操作不属于的转换操作（）

22.Spark RDDA.flatMapB.collectC.map ValuesD.distinct答案B中用于对进行连接操作的是（）

23.Spark RDDA.joinB.connectC.linkD.merge答案A在中，窗口操作可以（）

24.Spark Streaming对一段时间内的数据进行处理A.对特定窗口大小的数据进行过滤B.对数据进行窗口化显示C.对数据进行窗口化存储D.答案A中创建临时视图的方法是（）

25.Spark SQLA.createTempViewB.makeTempViewC.buildTempViewD.generateTempView答案A.以下关于的部署模式，错误的是（）26SparkA.StandaloneB.YARNC.MesosD.HBase答案D中用于对进行抽样的操作是（）

27.Spark RDDA.sampleB.takeSampleC.randomSampleD.selectSample答案A在中，广播变量和累加器都需要（）

28.Spark在端定义A,Driver在立满定义29Executor在所有节点上定义C.在节点上定义D.Master答案A中数据处理的基本流程是（）

29.Spark Streaming采集-处理-存储A.采集-存储-处理B.处理-采集-存储C.存储-采集-处理D.答案A中用于对进行分组聚合的方法是（）

30.Spark SQLDataFrameA.groupBy.aggB.group.aggregateC.byGroup.aggD.aggByGroup答案A以下关于的惰性求值，说法正确的是（）

31.Spark RDD所有操作立即执行A.转换操作立即执行，行动操作延迟执行B.行动操作立即执行，转换操作延迟执行C.所有操作都延迟执行D.答案D中用于控制分区数的方法是（）

32.Spark RDDA.repartitionB.rebalanceC.resizeD.restructure答案A在中，检查点机制的作用是（）

33.Spark Streaming提高数据处理速度A.确保数据处理的容错性B.优化数据存储C减少数据传输量D.答案B中用于对进行排序的方法是（）

34.Spark SQLDataFrameA.orderByB.sortC.rankByD.arrangeBy答案A以下哪种数据类型不能直接作为的元素类型（）

35.Spark RDDA.IntB.StringC.Map（自定义对象，未实现序列化）D.CustomObject答案D中用于对进行过滤操作的函数是（）

36.Spark RDDA.filterB.rejectC.removeD.exclude答案A在中，使用广播变量时，需要调用（）方法来广播数据

37.SparkA.broadcastB.spreadC.distributeD.scatter答案A_中窗口操作的滑动间隔（）窗口大小

38.Spark Streaming必须小于A.可以小于、等于或大于B.必须等于C.必须大于D.答案B中用于连接两个的方法是（）

39.Spark SQLDataFrameA.joinB.unionC.intersectD.subtract答案A以下关于的配置参数，说法错误的是（）

40.Spark可以通过代码设置A.可以通过配置文件设置B.配置参数一旦设置不能修改C.不同的部署模式可能有不同的配置参数D.答案C中对进行操作时，返回的元素个数（）原元素个数

41.Spark RDDmap RDDRDD关于A.小于B.等于C.不确定D.答案C在中，数据采集阶段可以从（）获取数据

42.Spark Streaming仅文件系统A.多种数据源B.仅网络端口C..仅数据库D答案B中用于对进行去重的方法是（）

43.Spark SQLDataFrameA.distinctB.uniqueC.removeDuplicatesD.dropDuplicates答案A以下关于的依赖关系，描述正确的是（）

44.Spark RDD窄依赖和宽依赖没有区别A.窄依赖不会产生B.shuffle宽依赖不会产生C.shuffle所有依赖都会产生D.shuffle答案B中用于对进行扁平化操作的是（）

45.Spark RDDA.flatMapB.mapFlatC.unrolIMapD.expandMap答案A在中，累加器的值可以在（）获取

46.Spark任何地方A.仅端47Driver仅立瑞C.Executor节点D.Master答案B中数据处理的并行度取决于（）

47.Spark Streaming批处理时间间隔A.窗口大小B.的分区数C.RDD数据源的数量D.答案C中用于对进行聚合计算的函数是（）

48.Spark SQLDataFrameA.sumB.countC.avg以上都是D.答案D以下关于的运行架构，说法错误的是（）

49.Spark包含和A.Driver Executor负责调度和管理B.Driver负责执行计算任务C.Executor和是完全独立的组件，没有联系D.MasterWorker答案D中用于对进行键值对操作时，提取键的函数是（）

50.Spark RDDA.keysB.getKeysC.extractKeysD.selectKeys答案一A在中，对进行窗口操作时，窗口大小和滑动间隔（）是固定的

51.Spark StreamingDStream一定A.不一定B.必须C.绝对不D.答案B中用于从中删除列的方法是（）

52.Spark SQLDataFrameA.dropB.removeC.deleteD.erase答案A以下关于的缓存，说法正确的是（）

53.Spark RDD缓存数据不会占用内存A.缓存数据后不能再进行其他操作B.合理使用缓存可以提高性能C.缓存数据会自动清除D.答案C中用于对进行聚合操作并返回结果的函数是（）

54.Spark RDDA.reduceB.foldC.aggregate以上都可以D.答案D在中，使用累加器时需要注意（）

55.Spark不同之间不能共享累加器A.Executor累加器只能用于数值类型B.累加器的初始值必须为C.0累加器的更新操作必须是原子性的D.答案D中对进行转换操作后返回的是（）

56.Spark StreamingDStream原A.DStream新的B.DStream一个空C.DStream一个错误提示D.答案B中用于将写入文件的方法是（）

57.Spark SQLDataFrameA.writeB.saveC.exportD.output答案A以下关于的任务调度，说法错误的是（）

58.Spark有调度器和调度器A.DAG Task调度器负责将作业分解为阶段B.DAG调度器负责将任务分配给C.Task Executor调度过程中不会考虑资源情况D.答案D中用于对进行随机打乱操作的是（）

59.Spark RDDA.shuffleB.randomizeC.scrambleD.mix答案A在中，数据处理的延迟主要受（）影响

60.Spark Streaming数据源的类型A.批处理时间间隔B.窗口大小C.网络带宽D.答案B中用于对进行条件查询的方法是（）

61.Spark SQLDataFrameA.whereB.filterC.selectWhereD.query Where答案A以下关于的分区策略，说法正确的是（）

62.Spark RDD只有一种分区策略A.分区策略不会影响性能B.可以根据数据特点选择合适的分区策略C.分区策略由系统自动决定，用户不能干预D.答案C中用于对进行键值对分组操作的函数是（）

63.Spark RDDA.groupByKeyB.groupKeysC.byGroupKeyD.keyGroup答案A在中，广播变量在端（）修改

64.Spark Executor可以随意A.不能B.经过授权可以C.部分可以D.答案B中数据处理的吞吐量指的是（）

65.Spark Streaming单位时间内处理的数据量A.数据处理的总时长B.数据传输的速度C.数据存储的容量D.答案A中用于对进行连接操作时指定连接条件的方法是（）

66.Spark SQLDataFrameA.onB.whereC.joinOnD.connectOn答案A以下关于的资源管理，说法错误的是（）

67.Spark可以通过配置参数调整资源分配A.资源管理只涉及内存分配B.不同的部署模式资源管理方式不同C.合理的资源管理可以提高应用性能D.答案B中用于对进行元素个数统计的函数是（）

68.Spark RDDA.countB.sizeC.lengthD.number答案A在中，对进行输出操作时，数据（）会被保存

69.Spark StreamingDStream一定A.不一定B.必须C.绝对不D.答案B中用于对进行排序并指定排序方式（升序或降序）的方法是（）

70.Spark SQLDataFrameA.orderBy.asc/descB.sortBy.asc/descC.rankBy.asc/descD.arrangeBy.asc/desc答案A以下关于的转换操作特点，说法错误的是（）

71.Spark RDD转换操作是懒执行的A.转换操作返回新的B.RDD转换操作不会改变原的数据C.RDD转换操作一定会增加的分区数D.RDD答案D中用于对进行键值对映射操作的函数是（）

72.Spark RDDA.map ValuesB.mapKeysC.mapPairsD.mapKey Value答案A在中，累加器可以用于（）

73.Spark仅统计数值A.统计数值和其他类型的数据（实现了相应操作）B.仅统计字符串C.仅统计布尔值D.答案B中窗口操作的窗口大小（）是固定的

74.Spark Streaming一定A.不一定B.必须C.绝对不D.答案B中用于对进行聚合操作并指定别名的方法是（）

75.SparkSQL DataFrame（）A.agg columnNameas aliasName（）B.aggregate columnNameas aliasName（）C.groupBy.agg columnNameas aliasName（）D.byGroup.agg columnNameas aliasName答案C以下关于的部署，说法正确的是（）

76.SparkA.模式适合大规模生产环境StandaloneB.模式需要依赖的资源管理器YARN HadoopYARNC.模式只能用于应用Mesos Spark部署模式选择不影响应用性能D.答案BD..中用于对进行过滤操作并返回满足条件的第一个元素的函数是（）Spark RDDA.findB.firstC.takeD.head答案A

78.在中，若要对的每个分区执行一个函数，该函数可以返回多个结果，应使用以Spark RDD下哪个函数？（）A.mapPartitionsB.foreachPartitionC.flatMapPartitionsD.transformPartitions答案C

79.中，当使用作为数据源时，以下哪个配置参数用于指定的Spark StreamingKafka Kafkaboots（）trap,serversA.B.。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小31.67 KB

文件格式docx

分享时间2025-02-07

更多此类文档

立即下载