还剩20页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据的定义与特点
1.
1、【单选题】以下关于大数据的特点,叙述错误的是
1、速度慢A、多元、异构B、数据规模大C、基于高度分析的新价值D我的答案A、【单选题】在《法华经》中,“那由他”描写的“大”的数量级是
2、AA
107、八B
1014、八C
1028、八D1056我的答案C、【多选题】以下选项中,大数据涉及的领域中包括
3、社交网络A、医疗数据B、计算机艺术C、医疗数据D我的答案ABCD、【多选题】大数据的应用包括
4、预测A、推荐B、商业情报分析C、科学研究D我的答案ABCD、【判断题】目前,关于大数据已有公认的确定定义5我的答案X、【判断题】大数据种类繁多,在编码方式、数据格式、应用特征等方面都存在6差异我的答案V大数据算法L
21、【单选题】大数据求解计算问题过程的第三步一般是
1、判断可计算否A、判断能行可计算否B、算法设计与分析C、数据库B、寄存器C、内存D我的答案D、【判断题】基于位置的查找实际上是一种三维空间的查找我的答案4X、【判断题】树可以看成是两个二叉树的交叠5KD我的答案V表排序及其应用
6.
1、【单选题】为数的每个结点标上子树大小的复杂度为1T I/O、A IsortN、B0sortNC IOscanNs、D OscanN我的答案B、【单选题】前序计数的复杂度为2I/OA IOsortNs、B0sortNC IOscanNs、D OscanN我的答案B、【单选题】对给定顶点邻接链表其一个欧拉回路可以以复杂性求得3T,、A0sortN、B OscanN、C OscanNIODIOscanNs我的答案C、【判断题】外存算法最坏情况的数位4I/O QN我的答案X、【判断题】图中的独立集是指图当中点的集合,其任意两点之间不存在边我的答案5V时间前向处理方法
6.2【单选题】查找规模为的表中,每个独立集的大小至少为L NL MIS、A n+
1、B2n、C n/
2、我的答案D n/3D、【单选题】时间前向的处理方法是按照来访问边
2、欧拉回路A、表排序B、拓扑序C、结点序我的答案D C、【判断题】求最大独立集的基本思想是使用贪心法我的答案3V缩图法
6.
3、【单选题】图算法包含三种计数,其中将图问题表示为有向无环图的估值问题的是、1A自举、缩图法B、时间前向处理C、连通分量我的答案D C、【单选题】半外存算法是假设
2、边放在内存中,顶点在外面A、顶点放在内存中,边在外面B、顶点和边都放在内存当中C、顶点和边都不在内存当中我的答案D B、【判断题】图的连通性算法可扩增为求图最小生成树的算法我的答案3G MSTV、【判断题】在求最小生成树时,压缩后图中某条边的权值等于该边代表的所有边的权值最大4值我的答案X概述
7.1MapReduce、【单选题】是由开发的分布式编程模型1MapReduce、A Microsoft、B Google、C Tencent、我的答案D AlibabaGroup B、【单选题】在实现程序时,需要注意的事项不包括2MapReduce、避免创建对象A、避免缓冲B、避免通信C、避免和间的全局变量传递D MapperReducer我的答案C、【多选题】的执行框架处理的内容包括3MapReduce、调度A、数据分布B、将中间数据进行聚集、排序或洗牌C、进行错误处理D我的答案ABCD、【多选题】理想的可扩展性有
4、数据加倍,运行时间减半A、数据加倍,运行时间加倍B、资源加倍,运行时间减半C、资源加倍,运行时间加倍D我的答案BC、【判断题】和两个函数不能够并行运行5Map Reduce我的答案X字数统计
7.
2、【单选题】在版本的字数统计中,在里使用了一个数组其作用是为每一个出现的11Map H,单词作
0、序列A、基数B、集合C我的答案B平均数计算
7.
3、【判断题】大部分时候不能用作1reducer combiner我的答案V、【判断题】的运行次数可能有多次2combiner我的答案V、【多选题】关于单词共现矩阵的计算,说法正确的是
1、计算文本集合中词的共现矩阵A、词的个数如果为输出为的矩阵B N,M*N、是一种测量语义距离的方法C、语义距离可用于许多语言处理任务D我的答案ACD、【多选题】用单词共现矩阵解决大规模计数问题的基本方法是
2、生成部分计数A Mapper、生成部分计数B Reducer、聚合部分计数C Reducer、聚合部分计数D Mapper我的答案AC、【多选题】“条纹法”的优点有
3、易于实现o A、对对的排序和洗牌少得多B key-value、潜在对象更大C、能更好地利用D combiner我的答案BD、【判断题】在“词对法”中,每个处理一个句子4mapper我的答案V、【判断题】“词对法”的缺点是不易实现排序和洗牌代价高5我的答案X、【判断题】词对法必须确定所有被传递到同一个我的答案6fB|A acombiner X连接算法
8.1join、【单选题】在的改进中说法错误的是1repartition join、函数的输出键作为连接键A Map、函数的输出键变化为连接键和表名的组合B Map、函数中仅从组合键的连接键计算C PartitionHashcode、函数仅根据连接键分组纪录D Grouping我的答案A、【多选题】用进行多重集相似连接算法的常见计算包括2MR、三角函数A、单元函数B、合取函数C、析取函数D我的答案BCD、【判断题】自然连接是从两个关系的笛卡尔积中选取给定属性间满足一定条件的元组我3的答案X、【判断题】等值连接不必在结果中去掉重复的属性我的答案4V图算法
8.
2、【判断题】在迭代中,的输出必须和叩的输入兼容1MapReduce reducem我的答案V、【判断题】“推荐好友”是图算法在社交网络中的一种实际用例2我的答案V基于路径的算法
8.
3、【单选题】找到一个稠密图的最小生成树的算法易于并行化的原因是每个子图的可以被并1行计算、边A、顶点B、结点C、最小生成树D我的答案D、【单选题】基于路径的算法的例子不包括
2、单源最短路径A、最小生成树B、分布式不动点运算C、拓扑排序D我的答案C、【多选题】在基于路径的算法中,边的标记包括
3、代价A、距离B、相似性C、属性D我的答案ABC基于迭代处理平台的并行算法
9.
1、【多选题】缓存迭代的方法是
1、在前加入输入缓存A Mapper、在后加入输出缓存B Mapper、在前加入输入缓存C Reducer、在后加入输出缓存D Reducer我的答案ACD、【判断题】是一种非递归描述性语言的通用运行平台我的答案2MapReduce V、【判断题】输入缓存的条件是使用静态划分方法,即意味着没有新的结点我的3Reducer答案V基于图处理平台的并行算法
9.
2、【单选题】关于并行节点计算,下列选项中关于节点叙述不准确的是
1、每一个节点接受上一个发出的消息A superstep、执行相同的用户定义函数B、所有节点根据用户定义函数修改它的值C、没有额外工作要做时继续迭代D我的答案D、【单选题】系统中的作用不包括2Pregel Master、维护A worker、恢复产生的错误B workers、提供监督工作进程工具C Web-UI、与交流D worker我的答案D、【多选题】并行结点计算的终止条件是
3、消息传送到其他点后A、所有顶点同时变为非活跃状态B、迭代结束C、没有信息传递D我的答案BD、【多选题】用计算子图同构问题,其三个步骤是4Pregel、查询分解A、搜索B、迭代C、D Join我的答案ABD、【判断题】的编程形式,在执行计算的机器上每一阶段都利用整个图的全部状态()5Pregel我的答案X众包的定义
10.
1、【单选题】众包通过一系列的机制和方法来指导和协调()的行为,从而达到目的
1、个人A、计算机B、群体C、软件D我的答案C、【判断题】外包与众包的区别在于众包的参与者数量大且不固定的()2我的答案V、【判断题】是众包案例的一种最成功的应用之一()我的答案3Wikipedia V、【判断题】众包极大程度地使用了人本计算,因此它基本上等同于人本计算()4我的答案X众包的实例
10.
2、【单选题】人脸识别是利用众包改进图像()的例子
1、分类A、区分B、确认C、搜索D我的答案D、【多选题】下列属于众包应用的例子有()
2、验证码A、机器翻译B、图像搜索C、数据库查询D我的答案ABCD、【判断题】众包技术应用于广告中的情形之一是区分关键词与广告的相关程度()我的3答案V、【判断题】目前众包技术已经可以判断两幅画在艺术风格上是否一致()我的答案4X、【单选题】众包中质量控制/数据质量要考虑的问题不包括
1、可靠性A、垃圾结果检测B、标签共识C、界面和交互设计D我的答案D、【多选题】众包中的参与者包括
2、请求者A、平台B、工人C、评估者D我的答案ABC、【多选题】在人机交互中从用户获取输入的方式有
3、调查A、快速原型B、可用性测试C、认知走查D我的答案ABCD、【判断题】众包中工人的回报是多样的4我的答案V、【判断题】难以核实主观任务是资格测试的缺点之一我的答案5V、【判断题】任务分配的拉方法是指系统采取完全的控制将制定的任务分配给工人我的6答案X众包算法例析
10.
4、【单选题】采用把大连通分量划分成高度连接的小连通分量基本思路的方法是
10、A CrowdDB、混合人机工作流程B、双层法C、分批策略D我的答案C、【多选题】用机器完成众包的优势有
2、省钱A、省时B、数量大C、质量高D我的答案AB、【判断题】目前众包技术完全由计算机来完成我的答案3X、【判断题】基于簇的生成问题的优化目标是生成最小数目基于簇的我的答案4HIT HIToV、用计算机语言实现算法D我的答案C、【多选题】在大数据求解计算问题中,判断是否为能行可计算的因素包括、数据量2A、资源约束B、速度约束C、时间约束D我的答案ABD、【判断题】大数据求解计算问题过程的第一步是确定该问题是否可计算我的答案3V、【判断题】大数据计算模型与一般小规模计算模型一样,都使用的是图灵机模型4我的答案V大数据算法
1.
32、【多选题】资源约束包括
1、A CPU、网络带宽B、内存C、外存D我的答案ABCD、【多选题】大数据算法可以不是
2、云计算A、精确算法B、内存算法C、串行算法D我的答案BCD、【判断题】大数据算法是在给定的时间约束下,以大数据为输入,在给定资源约束内可以生成3满足给定约束结果的算法我的答案X、【判断题】是一种比较好实现大数据算法的编程架构,在生产中得到广泛应用4MapReduce我的答案V、【判断题】大数据算法是仅在电子计算机上运行的算法我的答案5X大数据的特点与大数据算法
1.
4、【单选题】众包算法是用来解决1O、访问全部数据时间过长A、数据难于放入内存计算B、单个计算机难以保存全部数据,计算需要整体数据C、计算机计算能力不足或知识不足,需要人来帮忙D我的答案D、【单选题】大数据算法存在很多难题,对于访问全部数据时间过长的问题,采用的解决方案是
2、将数据存储到磁盘上A、仅基于少量数据进行计算B、读取部分数据C、并行处理D我的答案C、【多选题】大数据算法的特点,使其与大数据算法密切相关的
3、数据量大A、基于高度分析的新价值B、速度快C、多样性、复杂性D我的答案AC、【判断题】为解决单个计算机难以保存全部数据的问题通常会采用并行处理的技术,此技术4会涉及到时间亚线性算法我的答案:X大数据算法设计与分析
1.
5、【单选题】大数据算法涉及到外存的时候通常要分析
1、时间空间复杂性A、复杂性B、结果质量C、通讯复杂性D我的答案B、【多选题】下列选项中,属于智能仿生算法的是
2、遗传算法A、近似算法B、模拟退火算法C、数据流算法D我的答案AC、【判断题】在线算法/数据流算法是面向大数据速度快的特点提出的3我的答案V、【判断题】对于数据流算法或在线算法,经常要分析结果的近似比()我的答案4X、【判断题】随机算法是利用随机化的方法来进行大数据处理是大数据算法设计技术之一50我的答案V亚线性算法的定义
2.
1、【单选题】计算在一个给定社交网络中平均每人的朋友个数,在不访问所有顶点的情况下,进1行精确计算最少需要访问()个顶点、2A n、B n+
1、C2n、D n-1我的答案D、【多选题】亚线性是指()等的消耗是输入规模()
2、时间A、空间B、C
10、通讯D我的答案ABCD、【判断题】性质检测算法属于亚线性空间算法的一类()3我的答案X水库抽样——空间亚线性算法
2.
2、【判断题】在经典的水库抽样中,要求空间复杂性为(垃是指与抽样大小有关而与整个数1据的数据量无关我的答案V、【判断题】水库抽样算法的采样是均匀的2我的答案V平面图直径——时间亚线性计算算法
2.3【单选题】以下()不是衡量分析近似解代价与优化解代价差距的方法L、A Ratio Bound、相对误差B、绝对误差C、(>£)-近似D我的答案C、【单选题】利用平面图的直径近似算法得到的解,在最坏情况下,也不会小于最优解的、2A二分之
一、三分之一B、四分之一C、十分之一我的答案D A、【单选题】采用平面图的直径近似算法的动机是无法在要求的时间内得到
3、相似解A、完整解B、精确解C、近似解我的答案D C、【判断题】在平面图的直径近似算法中,要求点之间的距离满足三角不等式是指在、、三4i jk个点中,到的距离加上倒的距离小于到的距离i jk ik我的答案X、【判断题】近似算法能给出一个优化问题的优化解我的答案5X、【判断题】越大,则近似解越坏我的答案6RatioBoundV全数组判定——时间亚线性判定算法
2.
40、【多选题】在判定问题的近似中,对于近似解需要区分的是
1、是A、否B、差不离C、差得很远D我的答案AD、【判断题】全数组判定的近似算法的证据引理是:如果一次测试以大于等于的概率获得20p一个证据,那么轮测试得到证据的概率大于等于s=2/p1/2o我的答案X、【判断题】判定问题的近似解是指输入满足某种性质或近似满足某种性质我的答案3X数据流中频繁元素
3.1【判断题】原则是指典型的频率分布是高度偏斜的,存在很多频繁元素1s Zipf我的答案X、【判断题】在数据流模型中,从数据流中可以计算简单的函数,如最大值、最小值、求和等,2且处理这些函数时通常使用单个寄存器s我的答案V、【判断题】数据流模型中,数据流是指来自某个域中的元素序列3我的答案V、【判断题】在数据流模型中,内存远远大于数据的规模4我的答案X频繁元素计算算法
3.
2、【单选题】频繁元素计算算法又称为算法
1、A MM、B MG、C GM、D MP我的答案B、【单选题】频繁元素计算算法有效的原因是源于
2、取近似解A、证据引理B、错误界限和成反比C k、原则D Zipf我的答案D、【判断题】在频繁元素计算算法中,计数器减少的次数依赖于有几个减少计数器的步骤3x我的答案V、【判断题】在频繁元素计算算法中,当数据流中元素的总个数远大于估计值与真实值相差的4最多值时,可以得到频繁项一个好的估计我的答案V最小生成树
3.
3、【单选题】时间亚线性算法的思想是:利用特定子图联通分量的数量估计最小生成树的
1、近似值A、精确值B、权重C、界限D我的答案C、【单选题】求最小生成树是一个贪心法,可以用算法来解决
2、A Prime、并行B、C MG、内存D我的答案:A、【判断题】对联通分量个数的估计可以利用随机化方法3我的答案V序列有序的判定
3.
4、【单选题】对于输入个数的数组刈输出:这个数组是否有序£远离意味着必1n xl,x2,x3,……须删除大于个元素才能保证剩下的元素有序、A£-n、B£n、C£/nDs我的答案B、【判断题】如果一次测试以大于等于的概率获得一个证据,那么轮测试得到证据的2p s=2/p概率大于等于3/4我的答案X、【判断题】关于证明如果输入£远离有序厕存在大于个“坏索弓的问题,可以采用证明其逆3否命题的方法我的答案V外存存储结构与外存算法
4.1【单选题】下列选项中叙述正确的是L、磁盘的访问可以随机读、随机取A、磁盘系统传输大规模连续的数据块的范围是B18-32k、磁盘访问比主存访问的速度快C、大多数程序在模型上运行D RAM我的答案D、【判断题】对于大数据而言,标准计算理论模型失效的原因之一是内存是有限的,无法存储2所有的内存我的答案V、【判断题】当内存不够或者算法设计不好时,如果数据量达到一定规模以上,运行时间会急剧3增加我的答案V、【判断题】现代计算机有复杂的存储层次存储单元的访问是以块为单位的数据移动()我4的答案V外存算法示例外存排序算法()
4.
2.11【单选题】外存归并排序以()为单位进行调度L、比特A、兆B、块C、层D我的答案C、【判断题】排序分为内部排序和外部排序,外部排序是因排序的数据很大一次不能容纳全部2的排序内容,在排序过程中需要访问外存()我的答案V外存算法示例外存排序算法()
4.
2.
22、【单选题】在外排序的快速排序中,分割元素的选择非常重要我的答案1V外存数据结构示例外存查找树、【单选题】在内存中的二分搜索树中,通常使用()来
4.31维护树的平衡()、置换A、分裂B、旋转C、合并D我的答案C、【判断题】二叉搜索树是在个元素之间搜索的标准方法,一般把元素保存在根处()我的2n答案X、【判断题】为更快地保存外部搜索树,可采取按的顺序将其分割()我的答案3BFS V树()
5.1B
1、【单选题】如果是一个()树(工且工)其根结点的度在()之间1T a,b-a2b2a-l,、至A2ij a、至B2ij b、至C aij b、到D24我的答案B、【判断题】在功-树中,和表示的是每个节点当中键值的上限和下限我的答案2a,a bX、【判断题】-树中右边的指针指向的是键值小于最右键值的子数3B我的答案:X树
5.2B2【单选题】元素都在叶子中的树有时被称为L B-、树A B+、树B B-+、树C B+-、-数D B+我的答案C、【判断题】关于树的删除操作,删除操作出现问题的情形是:从叶子删除元素后的2a,b—v,v儿子小于个a-1我的答案
7、【判断题】关于-树的插入插入涉及到的结点最多到树高3a,b+1我的答案V树
5.3KD、【单选题】树在层使用水平线1KD、偶数层A、奇数层B、最底层C、最图层D我的答案A、【单选题】-树的插入可以使用的方法2KdB、近似A、置换B、对数C、重构D我的答案C、【单选题】构建-树时,完成网格建立之后,计算每个网格中点的个数并且存储在中3KDB、外存A。
个人认证
优秀文档
获得点赞 0