数据挖掘试题150道

佚名 · 0743

试题

文件大小34.45 KB

文件格式docx

分享时间2025-04-10

更多此类文档

立即下载

还剩7页未读，继续阅读

文本内容:

单选题.某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪种问题？（）1A关联规则发现聚类A.B.分类自然语言处理C.D.以下两种描述分别对应哪两种对分类算法的评价标准？（）

2.A（）警察抓小偷，描述警察抓的人中有多少个是小偷的标准a（）描述有多少比例的小偷给警察抓了的标准bA.Precision,RecallB.Recall,PrecisionA.Precision,ROCD.Recall,ROC.将原始数据进行集成、变换、维度规约、数彳规约是在以下哪个步骤的任务？（）31C频繁模式挖掘分类和预测数据预处理.数据流挖掘A.B.C.D.当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？4（）B分类聚类关联分析隐马尔可夫链A.B.C.D..什么是（）5KDD A数据挖掘与知识发现领域知识发现A.B.文档知识发现动态知识发现C.D..使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（）6A探索性数据分析建模描述A.B..预测建模寻觅模式和规则C D..为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？（）7B探索性数据分析.建模描述A.B预测建模寻觅模式和规则C.D.•建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任8务？（）C根据内容检索建模描述A.B.预测建模寻觅模式和规则C.D..用户有一种感兴趣的模式并且希翼在数据集中找到相似的模式，属于数据挖掘哪一类任务？（）9A根据内容检索建模描述A.B..预测建模寻觅模式和规则C D..下面哪种不属于数据预处理的方法？（）11D变量代换离散化会萃估计遗漏值A BC D.假设个销售价格记录组已经排序如下:使12125,10,11,13,15,35,50,55,72,92,204,215用如下每种方法将它们划分成四个箱等频（等深）划分时，在第几个箱子内？（）15B第一个第二个第三个第四个A BC D.上题中，等宽划分时（宽度为）又在哪个箱子里？（）1350,15A第一个第二个第三个第四个A BC D.下面哪个不属于数据的属性类型（）14D标称序数区间相异A BC D.在上题中，属于定量的属性类型是（）15C标称序数区间相异A BC D.惟独非零值才重要的二元属性被称作16计数属性离散属性非对称的二元属性对称属性A BC D以下哪种方法不属于特征选择的标准方法（）

17.D嵌入过滤包装抽样A BC D.下面不属于创建新属性白相关方法的是（）18B特征提取特征修改映射数据到新的空间特征构造A BC D傅立叶变换特征加权渐进抽样维归约A BC D.假设属性的最大最小值分别是元和元利用最大最小规范化的方22income

1200098000.下列哪个不是专门用于可视化时间空间数据的技术（）26B等高线图饼图曲面图矢量场图A BC D.在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是（）27D有放回的简单随机抽样无放回的简单随机抽样分层抽样渐进抽样A BC D.数据仓库是随着时间变化的，下面的描述不正确的是（）28C数据仓库随时间的变化不断增加新的数据内容；A.捕捉到的新数据会覆盖原来的快照；B.数据仓库随事件变化不断删去旧的数据内容；C.数据仓库中包含大量的综合数据，这些综合数据会随着时间的变化不断地进行重新综合D..关于基本数据的元数据是指（）29D基本元数据与数据源，数据仓库，数据集市和应用程序等结构相关的信息；A.基本元数据包括与企业相关的管理方面的数据和信息；B.基本元数据包括日志文件和简历执行处理的时序调度信息；C..基本元数据包括关于装载和更新处理，分析处理以及管理方面的信息.D.下面关于数据粒度的描述不正确的是（）30C粒度是指数据仓库小数据单元的详细程度和级别；A.数据越详细，粒度就越小，级别也就越高；B.数据综合度越高，粒度也就越大，级别也就越高；C.粒度的具体划分将直接影响数据仓库中的数据量以及查询质量八D..有关数据仓库的开辟特点，不正确的描述是（）31A数据仓库开辟要从数据出发；A.数据仓库使用的需求在开辟出去就要明确；B.数据仓库的开辟是一个不断循环的过程，是启示式的开辟；C.在数据仓库环境中，并不存在操作型环境中所固定的和较切当的处理流，数据仓库中数据分析和处理更灵便，D.且没有固定的模式.在有关数据仓库测试，下列说法不正确的是（）32D在完成数据仓库白八实施过程中，需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试.A.当数据仓库的每一个单独组件完成后，就需要对他们进行单元测试.B.系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试八C.在测试之前没必要制定详细的测试计划.D.技术的核心是（）33QLAP D在线性；A.对用户的快速响应；B.互操作性.C..多维分析；D.关于的特性，下面正确的是（）34OLAP D⑴快速性（）可分析性（）多维性（）信息性（）共享性2345⑴⑵⑶A.⑵⑶⑷B.⑴⑵⑶⑷C.⑴⑵⑶⑷⑸D..关于和的区别描述，不正确的是（）35OLAP OLTPd主要是关于如何理解会萃的大量不同的数据.它与应用程序不同.A.OLAP OTAP与应用程序不同，应用程序包含大量相对简单的事务.B.OLAP OLTP的特点在于事务量大，但事务内容比较简单且重复率高.C.OLAP是以数据仓库为基础的，但其最终数据来源与一样均来自底层的数据库系统两者面对的用户是D.OLAP OLTP相同的.技术普通简称为〃数据联机分析挖掘”下面说法正确的是（）

36.OLAM D和都基于客户机/服务器模式，惟独后者有与用户的交互性；A.OLAP OLAM由于的立方体和用于的立方体有本质的区别.B.OLAM OLAP基于的是技术与技术的结合.C.WEB OLAMWEB OLAM服务器通过用户图形借口接收用户的分析指令，在元数据白知道下，对超级立方体作一定的操作.D.OLAM.关于和的说法，下列不正确的是（）37OLAP OLTPc事务量大，但事务内容比较简单且重复率高.A.OLAP的最终数据来源与不一样.B.OLAP OLTP面对的是决策人员和高层管理人员.C.OLTP以应用为核心，是应用驱动的.D.OLTP.设是频繁项集，则可由产生（）个关联规则38X={1,2,3}X_C_、、、、A4B5C6D

7.概念分层图是（）图40_B_、无向无环、有向无环、有向有环、无向有环A BC D.频繁项集、频繁闭项集、最大频繁项集之间的关系是（）41C、频繁项集频繁闭项集=最大频繁项集A、频繁项集=频繁闭项集最大频繁项集B、频繁项集频繁闭项集最大频繁项集C、频繁项集=频繁闭项集=最大频繁项集D.在图集合中发现一组公共子结构，这样的任务称为（）44B、频繁子集挖掘、频繁子图挖掘、频繁数据项挖掘、频繁模式挖掘A BC D.下列度量不具有反演性的是（）45D、系数、几率、度量、兴趣因子A BC CohenD.下列（）不是将主观信息加入到模式发现任务中的方法46_A_、与同一时期其他数据对照A、可视化B、基于模板的方法C、主观兴趣度量D.下面购物篮能够提取的-项集的最大数量是多少（）473C购买项ID牛奶，啤酒，尿布1面包，黄油，牛奶2牛奶，尿布，饼干3面包，黄油，饼干46牛奶，尿布,面包，黄油啤酒，饼干，尿布5面包，黄油，尿布7啤酒，尿布8牛奶，尿布，面包，黄油啤酒，饼干

910、、、、A1B2C3D4以下哪些算法是分类算法，

48.A,DBSCANB,C

4.5C,K-MeanD,EM B以下哪些分类方法可以较好地避免样本的不平衡问题，神经网络

49.A,KNNB,SVMC,BayesD,A.决策树中不包含一下哪种结点，根结点内部结点50A,rootnode B,internalnode C,夕卜部结点叶结点externalnode D,leafnode C.不纯性度量中计算公式为其中是类的个数51Gini cAA,B,C,D,A以下哪项关于决策树的说法是错误的

53.C冗余属性不会对决策树的准确率造成不利的影响A.子树可能在决策树中重复多次B.决策树算法对于噪声的干扰非常敏感C.寻觅最佳决策树是彻底问题D.NP.在基于规则分类器的中，依据规则质量的某种度量对规则排序，保证每一个测试记录都54是由覆盖它的最好的”规格来分类，这种方案称为B基于类的排序方案A.基于规则的排序方案B.基于度量的排序方案C..基于规格的排序方案D以下哪些算法是基于规则的分类器

55.AA.C

4.5B.KNNC.NaveBayesD.ANN.如果规则集中不存在两条规则被同一条记录触发，则称规则集中的规则为56R RC;无序规则穷举规则互斥规则有序规则A,B,C,D,.如果对属性值的任一组合，中都存在一条规则加以覆盖，则称规则集中的规则为57R RB无序规则穷举规则互斥规则有序规则A,B,C,D,.如果规则集中的规则按照优先级降序罗列，则称规则集是58D无序规则穷举规则互斥规则有序规则A,B,C,D,.如果允许一条记录触发多条分类规则，把每条被触发规则的后件看做是对相应类的一次59投票，然后计票确定测试记录的类标号，称为A无序规则穷举规则互斥规则有序规则A,B,C,D,.考虑两队之间的足球比赛队和队假设的比赛队胜出，剩余的比赛队获胜队获60165%010胜的比赛中惟独是在队的主场，而队取胜的比赛中是主场获胜30%1175%如果下一场比赛在队的主场进行队获胜的概率为11CA,

0.75B

0.35C,

0.4678D,

0.57385以下关于人工神经网络的描述错误的有

61.ANN A神经网络对训练数据中的噪声非常鲁棒可以处理冗余特征训练是一个A,B,C,ANN很耗时的过程至少含有一个隐藏层的多层神经网络D,.通过会萃多个分类器的预测来提高分类准确率的技术称为（）62A组合（）会萃（）合并（）投票（）A,ensemble B,aggregate C,combination D,voting.简单地将数据对象集划分成不重叠的子集，使得每一个数据对象恰在一个子集中，这种聚类类型称作（）63B、层次聚类、划分聚类、非互斥聚类、含糊聚类A BC D.在基本均值算法里，当邻近度函数采用（）的时候，合适的质心是簇中各点的中位数64K A、曼哈顿距离、平方欧几里德距离、余弦距离、散度A BC DBregman（）是一个观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的

65.C、边界点、质心、离群点、核心点A BC D、分类器、聚类算法、关联分析算法、特征选择算法A BC D是——种（）

66.BIRCH B.检测一元正态分布中的离群点，属于异常检测中的基于（）的离群点检测67A、统计方法、邻近度、密度、聚类技术A BC D（）将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度，它是一种凝结层次聚类技术

68.C、（单链）、（全链）、组平均、方法A MINB MAXC DWard（）将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量，它是一种凝结层次聚类技术

69.D、（单链）、（全链）、组平均、方法A MINB MAXC DWard在最坏情况下的时间复杂度是（70QBSCAN B、（）、（）、（）、（）A0m BO m2C Ologm DO m*logm.在基于图的簇评估度量表里面，如果簇度量后（）,簇权值为那末它71roximity Ci,C mi,、基于图的凝结度基、基于原型的凝结度、基于原型的分离度、A BC D于图的凝结度和分离度的类型是（）C.关于均值和的比较，以下说法不正确的是（）72K DBSCANA、均值丢弃被它识别为噪声的对象，而普通聚类所有对象A KDBSCAN、均值使用簇的基于原型的概念，面使用基于密度的概念B KDBSCAN、均值很难处理非球形的簇和不同大小的簇，可以处理不同大小和不同形C KDBSCAN状的簇、均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是会合并有重叠的簇D KDBSCAN以下是哪一个聚类算法的算法流程

①构造-最近邻图

②使用多层图划分算法划分图

③合并

73.k repeat关于相对互连性和相对接近性而言，最好地保持簇的自相似性的簇

④再也不有可以合并的簇（）until:CO、、、、（）A MSTBOPOSSUMC ChameleonDJarvis-Patrick JP.考虑这么一种情况一个对象碰巧与另一个对象相对接近，但属于不同的类，因为这两个对象普通不会共74享许多近邻，所以应该选择（）的相似度计算方法D、平方欧几里德距离、余弦距离、直接相似度、共享最近邻A BC D.以下属于可伸缩聚类算法的是（）75A、、、、A CUREB DENCLUEC CLIQUED OPOSSUM以下哪个聚类算法不是属于基于原型的聚类（

76.、含糊均值、算法、、A cB EMC SOMD CLIQUE.关于混合模型聚类算法的优缺点，下面说法正确的是）77Bo（、当簇只包含少量数据点，或者数据点近似协线性时，混合模型也能很好地处理A、混合模型比均值或者含糊均值更普通，因为它可以使用各种类型的分布B Kc、混合模型很难发现不同大小和椭球形状的簇C、混合模型在有噪声和离群点时不会存在问题D.以下哪个聚类算法不属于基于网格的聚类算法（）78D、、、A STINGBWaveClusterC MAFIAD.BIRCH.一个对象的离群点得分是该对象周围密度的逆这是基于（）的离群点定义79C.概率、邻近度、密度、聚类A BC D.下面关于（）聚类算法的说法不正确的是（）80Jarvis—Patrick JPD、聚类擅长处理噪声和离群点，并且能够处理不同大小、形状和密度的簇A JP、算法对高维数据效果良好，特别擅长发现强相关对象的紧致簇B JP、聚类是基于相似度的概念C JPSNN、聚类的基本时间复杂度为（）D JPO m

二、多选题通过数据挖掘过程所推倒出的关系和摘要时常被称为（）

1.AB模型模式模范模具A.B.C.D.寻觅数据集中的关系是为了寻觅精确、方便并且有价值地总结了数据的某一特征的表示，这个过程包括了以2下哪些步骤？（）ABCD决定要使用的表示的特征和结构A.决定如何量化和比较不同表示拟合数据的好坏B.选择一个算法过程使评分函数最优C.决定用什么样的数据管理原则以高效地实现算法D..数据挖掘的预测建模任务主要包括哪几大类问题？（）3ABA分类B.回归C.模式发现D.模式匹配.数据挖掘算法的组件包括（）4ABCD模型或者模型结构评分函数优化和搜索方法数据管理策略A.B.C.D.以下哪些学科和数据挖掘有密切联系？（）

5.AD统计计算机组成原理.矿产挖掘人工智能A.B.C D..在现实世界的数据中，元组在某些属性上缺少值是常有的描述处理该问题的各种方法有（）6ABCDE忽略元组使用一个全局常量填充空缺值A C使用属性的平均值填充空缺值使用与给定元组属同一类的所有样本的平均值B D使用最可能的值填充空缺值E.下面哪些属于可视化高维数据技术（）7ABCE矩阵平行坐标系星形坐标扩散图脸A BC DEChernoff对于数据挖掘中的原始数据，存在的问题有（）8ABCDE不一致重复不完整含噪声维度高A BC DE.下列属于不同的有序数据的有（）9ABCE时序数据序列数据时间序列数据事务数据空间数据A BC DE.下面属于数据集的普通特性的有10BCD连续性维度稀疏分辨率相异性A BC fDE.下面属于维归约常用的线性代数技术的有11AC主成份分析特征提取奇妙值分解特征加权离散化A BC DE.下面列出的条目中，哪些是数据仓库的基本特征12A CD数据仓库是面向主题的数据仓库的数据是集成的A.B..数据仓库的数据是相又•稳定的数据仓库的数据是反映历史变化的C D.数据仓库是面向事务的E..以下各项均是针对数据仓库的不同说法，你认为正确的有13BCDE数据仓库就是数据库A.数据仓库是一切商业智能系统的基础B.数据仓库是面向业务的，支持联机事务处理C.OLTP数据仓库支持决策而非事务处理D.数据仓库的主要目标就是匡助分析，做长期性的战略制定E..数据仓库在技术上的工作过程是14ABCD.数据的抽取存储和管理数据的表现A B.C.数据仓库设计数据的表现D.E..联机分析处理包括以下哪些基本分析功能？15BCD.聚类切片.转轴.切块分类A B.C DE..利用算法计算频繁项集可以有效降低计算频繁集的时间复杂度在以下的购物16Apriori篮中产生支持度不小于的候选项集，在候选■项集中需要剪枝的是33-2BD项集ID面包、牛奶1面包、尿布、啤酒、鸡蛋2牛奶、尿布、啤酒、可乐3面包、牛奶、尿布、啤酒4面包、牛奶、尿布、可乐

5、啤酒、尿布、啤酒、面包、面包、尿布、啤酒、牛奶A BC D.下表是一个购物篮，假定支持度阈值为其中是频繁闭项集1740%,_AD_项TID1abc2abed3bee4acde5de、、A abeBadC cdDde算法的计算复杂度受影响

18.Apriori_ABCD_A、支持度阀值B、项数维度、事务数、事务平均宽度C D.非频繁模式19_AD_、其支持度小于阈值、都是不让人感兴趣的A B、包含负模式和负相关模式、对异常数据项敏感C D以下属于分类器评价或者比较尺度的有预测准确度召回率模型描述的简洁度计算复杂度（）

20.A,B,C,D,ACD.在评价不平衡类问题分类的度量方法有如下几种度量召回率（）精21A,,F1B,recall C,度（）真正率（计）（）precision D,turepos iverate,TPR ABCD.贝叶斯信念网络（）有如下哪些特点，构造网络费时费力对模型的过分问题非常22BBN A,B,鲁棒贝叶斯网络不适合处理不完整的数据网络结构确定后，添加变量相当麻烦C,D,（）AB.如下哪些不是最近邻分类器的特点，它使用具体的训练实例进行预测，不必维护源自数据的刈型分类23A,B,一个测试样例开消很大最近邻分类器基于全局信息进行预测可以生产任意形状的决策边界（）C,D,C.如下那些不是基于规则分类器的特点，规则集的表达能力远不如决策树好基于规则的分类器都对属性24A,B,空间进行直线划分，并将类指派到每一个划分无法被用来产生更易于解释的描述性模型非常适合处理类C,D,分布不平衡的数据集（）AC.以下属于聚类算法的是（）25ABDoA、K均值B、DBSCANC AprioriD、Jarvis-Patrick（JP）（）都属于簇有效性的监督度量

26.CD、轮廓系数、共性分类相关系数、嫡、度量A BC DF,簇有效性的面向相似性的度量包括（）27BCoA、精度B、Rand统计量C、Jaccard系数D、召回率（）这些数据特性都是对聚类分析具有很强影响的

28.ABCD、高维性、规模、稀疏性、噪声和离群点A BC D.在聚类分析之中，（）等技术可以处理任意形状的簇29AD、（单链）、（全链）、组平均、A MINB MAXC DChameleon（）都属于分裂的层次聚类算法

30.AB、二分均值、、组平均A KB MSTCChameleonD,

三、判断题.数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务（）1AA.数据挖掘的目标不在于数据采集策略，而在于对于已经存在的数据进行模式的发掘（对）2图挖掘技术在社会网络分析中扮演了重要的角色（对）

3..模式为对数据集的全局性总结，它对整个测量空间的每一点做出描述；模型则对变量变化空间的一个有限4区域做出描述（错）.寻觅模式和规则主要是对数据进行干扰，使其符合某种规则以及模式（错）

5.离群点可以是合法的数据对象或者值（对）

6.离散属性总是具有有限个值（错）

7.噪声和伪像是数据错误这一相同表述的两种叫法（错）

8.用于分类的离散化方法之间的根本区别在于是否使用类信息（对）

9.特征提取技术并不依赖于特定的领域（错）

10.序列数据没有时间戳（对）

11.定量属性可以是整数值或者是连续值（对）

12.可视化技术对于分析的数据类型通常不是专用性的（错）13主要是基于数据仓库.联机数据分析和数据挖掘技术的应用（对）

14.DSS技术侧重于把数据库中的数据进行分析、转换成辅助决策信息，是继数据库技术发展之后迅猛发展15QLAP起来的一种新技术（对）.商业智能系统与普通交易系统之间在系统设计上的主要区别在于后者把结构强加于商16务之上，一旦系统设计完毕，其程序和规则不会轻易改变；而前者则是一个学习型系统，能自动适应商务不断变化的要求（对）.数据仓库中间层服务器只能采用关系型（错）17OLAP OLAP.数据仓库系统的组成部份包括数据仓库，仓库管理，数据抽取，分析工具等四个部份.（错）18数据挖掘是通过数据库仲的一些属性来预测另一个属性，它在验证用户提出的假设过程中提取信息.

19.Web（错）.关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则（错）

21.利用先验原理可以匡助减少频繁项集产生时需要探查的候选项个数（对）

22.先验原理可以表述为如果一个项集是频繁的，那包含它的所有项集也是频繁的（错

23.如果规则不满足置信度阈值，则形如的规则一定也不满足置信度阈值，其中是的子集（对）24X.具有较高的支持度的项集具有较高的置信度（错）

25.聚类（是这样的过程它找出描述并区分数据类或者概念的模型（或者函）数，以便能够使用模26clustering型预测类标记未知的对象类（错）.分类和回归都可用于预测，分类的输出是离散的类别值，而回归的输出是连续数目

27.对于分类算法，待分样本集中的大部份样本不是支持向量，移去或者减少这些样28SVM本对分类结果没有影响（对）法是一种在已知后验概率与类条件概率的情况下的模式分类方法，待分样本的分

29.Bayes类结果取决于各类域中样本的全体（错）

30.分类模型的误差大致分为两种训练误差（trainingerror）和泛化误差（generalizationerror）.（xA）.在决策树中，随着树中结点数变得太大，即使模型的训练误差还在继续减低，但是检验31误差开始增大，这是浮现了模型拟合不足的问题（错）是这样一个分类器，他寻觅具有最小边缘的超平面，因此它也时常被称为最小边缘分类器

32.SVM（）（错）minimalmarginclassifier.在聚类分析之中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差（错）

33.聚类分析可以看做是一种非监督的分类（对）34均值是一种产生划分聚类的基于密度的聚类算法，簇的个数由算法自动地确定（错

35.K.给定由两次运行均值产生的两个不同的簇集，误差的平方和最大的那个应该被视为较优（错）36K.基于邻近度的离群点检测方法不能处理具有不同密度区域的数据集（对）

37.如果一个对象不强属于任何簇，那末该对象是基于聚类的离群点（对）

38.从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法（错）39是相对抗噪声的，并且能够处理任意形状和大小的簇（对）

40.DBSCAN。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小34.45 KB

文件格式docx

分享时间2025-04-10

更多此类文档

立即下载