还剩2页未读,继续阅读
文本内容:
班内序号7,KI*7,7,7,>[〃,~4IVU考生姓名注学年第学期期末2023—20241意大数据技术试卷B卷索Sparki学号(考试班级级大数据开发班)(时间22120线分钟|满分分)100班级题号四总成绩评卷人要I_________答:得分题试室号I密i、选择题(5小题,共15分),本题得分【--------------封1线:
1、关于Scala下列说法错误的是()外不蝇A函数式编程语言B面向对象程序设计语言写!姓C运行在JVM上D一种低级语言名I
2.以下哪个方法可以正确的计算数组a的长度()A.count OB.take1C.tail D.length*
3.关于RDD,不正确的是()者i试A可以分区B可修改C惰性计算D可持久化卷作4下面关于List的定义不正确的是()零分处valA vallist=List(
0.1,
0.2,
0.3)B理list=Listhello”,“newval list:String二val”Lista,b”list=List[]l,2,3出卷教师郑述招5以下关于Scala变量的定义不正确的是()A、val words:String=,^he^o^,B valmum=12C、var num:String=None Dval apple:Double=2
二、Spark RDD编程共30分,本题得分【】一个整数列
3、
10、
5、
6、
8、
2、
6、51生成一个RDD命名为rddl2该rddl元素乘以2,得到新的RDD命名为rdd23新rdd2去重,得到新的RDD命名为rdd344rdd2中大于10的元素,并逐项打印输出,输出格式为Element isbiggerthan10Element表示元素的值,如
20、1216等5求rdd2所有元素的和6找出rdd2中,最大的3个元素
三、Spark SQL编程共35分,本题得分【】
5.在Spark Shell中完成下列操作:1由student,json文件生成DataFrame对象2找出信息学院所有女生的信息输出其姓名、年龄3分别统计男女生的平均年龄4各学院,年龄最大、最小的同学
(5)各男女生手机号码段的个数(手机号码段为手机号的前3位)
6.给出2个csv文件,图书馆读者reader,csv(包含读者编号、姓名、性别等信息)和逾期罚款fine,csv(包含读者编号、罚款年份、罚款金额等信息),在Spark Shell中完成下列操作
(1)找出2018年度有罚款的读者编号(不重复)
(2)求出累计罚款金额最多的前3名读者编号
(3)统计出男女生罚款金额最多的读者,并输出其信息(读者编号、姓名、性别、年份、总罚款金额)
7.使用Spark SQL相关技术,对result_math、resu用_bigdata两门课程成绩进行分析
(1)找出大数据成绩前5名的学生学号
(2)找出数学成绩、大数据成绩均为前5名学生学号
四、流数据处理,本题得分【】某计算中心机房有数量众多的计算设备,为了解这些设备的状态,管理人员需及时掌控设备的温度;假设利用Netcat通过9988端口数据,数据样式为设备ID,当前温度”;利用Structured Streaming或Spark Streaming编写程序,过滤出温度超过100的设备,并输出相关信息模拟数据如下A1O1,90A1O8,82A132,109B2O1,79B185,121。
个人认证
优秀文档
获得点赞 0