还剩18页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据挖掘作业集答案《数据挖掘》作业集答案第一章引言
一、填空题1数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示2算法的效率、可扩展性和并行处理3统计学、数据库技术和机器学习4WEB挖掘5一些与数据的一般行为或模型不一致的孤立数据
二、单选题;1B;2D;3D;4B;5A;6B;7C8E;
三、简答题1什么是数据挖掘?答数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识2一个典型的数据挖掘系统应该包括哪些组成部分?答一个典型的数据挖掘系统应该包括以下部分数据库、数据仓库或其他信息库数据库或数据仓库服务器知识库数据挖掘引擎模式评估模块图形用户界面3请简述不同历史时代数据库技术的演化答1960年代和以前研究文件系统1970年代出现层次数据库和网状数据库1980年代早期关系数据模型,关系数据库管理系统RDBMS的到一个高水平4数据挖掘的GUI可能包含哪些部分?答数据挖掘的GUI可能包含以下部分1数据收集和数据查询编辑2发现模式的表示3分层结构说明和操纵4数据挖掘原语的操作5交互的多层挖掘6其他各种信息第五章概念描述特征化与比较
一、填空题1特征化、区分2数据收集、维相关分析、同步概化、导出比较的表示3描述性挖掘和预测性挖掘4信息增益、Gini索引、不确定性和相关系数5五数概括、中间四分位数区间、标准差
二、单选题1C;2D;3C;4B;5B
三、多选题1BD;2ABD;3AD
四、简答题1简述类比较的过程答类比较的过程一般包括以下四个步骤⑴数据收集通过查询处理收集数据库中相关的数据,并将其划分为一个目标类和一个或多个对比类;2维相关分析使用属性相关分析方法,使我们的任务中仅包含强相关的维;3同步概化同步的在目标类和对比类上进行概化,得到主目标类关系/方体和主对比类关系/方体;4导出比较的表示用可视化技术表达类比较描述,通常会包含对比度量,反映目标类与对比类间的比较2简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化答面向属性归纳的基本思想是首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化通过属性删除或者属性概化聚集通过合并相等的广义元组,并累计他们相应的技术值进行这压缩了概化后的数据集合结果广义关系可以映射到不同形式,如图表或规则,提供用户使用属性删除的情况如果初始工作关系的一个属性上有大量的不同值,但是1在此属性上没有概化操作符,或2它的较高层概念用其他属性表示;使用属性概化的情况如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符3简述概念描述的属性相关分析的基本步骤答1数据收集通过查询处理,收集目标类和对比类的数据;2使用保守的AOI进行预相关分析这一步识别属性和维的集合,选择的相关性度量用于他们;3使用选定的相关分析度量删除不相关和弱相关属性使用选定的相关分析度量,评估候选关系中的每个属性;4使用AOI产生概念描述使用一组不太保守的属性概化临界值进行AOI4简要叙述概念描述和OLAP之间的主要区别o答两者的主要区别有1概念描述可以处理复杂数据类型的属性及其聚集,而实际使用的OLAP系统中,维和度量的数据类型都非常有限非数值型的维和数值型的数据,表现为一种简单的数据分析模型2OLAP是一个由用户控制的过程,而概念描述是一个更加自动化的过程5为什么进行属性相关分析?答数据仓库和OLAP系统中的多维数据分析缺乏一个自动概化过程,这使得这个过程中需要有很多用户干预用户必须告诉系统哪些维或属性应当包含在类分析中如果选择的属性太少,则造成挖掘的描述结果不正确;属性太多,浪费计算、淹没知识通过属性相关分析,可以更容易地发现属性之间的相关性,滤掉统计上不相关或弱相关的属性,保留对手头数据挖掘任务最相关的属性6简述进行概念描述时,面向数据库的方法和机器学习的主要区别答面向数据库的方法指的是面向大型数据库的概念描述的概化方法,使用基于数据立方体的方法或面向属性的归纳的方法机器学习使用示例学习的范例,在概念集或标定训练样本集上进行,通过检验这些集合在学习中导出关于描述类的假定7什么是概念描述的增量挖掘?答增量挖掘根据数据库中新增的数据^DB来修正挖掘的结果,而不是重新从修正过的数据库中进行挖掘而得到结果第六章大型数据库中的关联规则挖掘
一、填空题1支持度和置信度2连接和剪枝3包含项集的事务数4找出所有频繁项集、由频繁项集产生强关联规则5布尔关联规则、量化关联规则6频繁项集的所有非空子集也必须是频繁的7量化属性的静态离散化、量化关联规则、基于距离的关联规则8反单调的、单调的、简洁的、可转变的、不可转变的9频繁谓词集
二、单选题1A;2A;3B;4;5C
三、多选题1BD;2BC;3ABD
四、简答题1对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点答具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:逐层独立完全的宽度搜索,没有频繁项集的背景知识用于剪枝考察每一个节点,不管其父节点是否频繁特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;层交叉k-项集过滤一个第i层的k-项集被考察,当且仅当它在第i-1层的对应父节点的k-项集是频繁的特点是限制太强,有些有价值的模式可能被该方法过滤掉;层交叉单项过滤一个第i层的项被考察,当且仅当它在第i-1层的父节点是频繁的它是上述两个极端策略的折中2给出一个例子,表明强关联规则中的项可能实际上是负相关的答例如教材《数据挖掘概念与技术》中例
6.6和表
6.43简述在多层关联规则挖掘中,在不同的层使用一致的支持度的优缺点答对所有层都使用一致的最小支持度,优点在于搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索;缺点在于最小支持度值设置困难,如果设置太高,将丢掉出现在较低抽象层中有意义的关联规则,如果设置太低,会在较高层产生太多的无兴趣的规则4什么是简洁性约束?答一个约束被称为简洁的,如果我们可以列出并仅仅列出所有确保满足该约束的集合利用简洁性约束,我们可以在计数前进行剪枝,从而避免产生-测试方式的过大开销第七章分类和预测
一、填空题1准确性、有效性和可伸缩性2先剪枝、后剪枝
二、单选题1C;2B;3C
三、简答题1简述判定树分类的主要步骤答首先是生成判定树分为2个步骤1归纳生成判定树开始时,所有的训练样本都在根节点,然后递归的通过选定的离散值属性,来划分样本,直至满足停止条件2树剪枝许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝接下来在判定树的使用中,对于某一未知样本,通过将样本的属性值与判定树相比较来判断其类别归属2在判定树归纳中,为什么树剪枝是有用的?答当判定树创建时,由于数据中的噪声和孤立点,许多分枝反应的是训练数据中的异常剪枝方法处理这种过分适应数据的问题通常,这种方法使用统计度量,剪去最不可靠的分枝,这将导致较快的分类,提高树独立于测试数据正确分类的可靠性3为什么朴素贝叶斯分类称为〃朴素”的?简述朴素贝叶斯分类的主要思想答朴素贝叶斯分类被称为〃朴素”的原因是计算元组的类条件出现概率时,做了类条件独立的朴素假定贝叶斯分类的主要思想参考教材《数据挖掘概念与技术》小节4请简述判定树归纳算法的基本策略答
1.树以代表训练样本的单个节点开始
2.如果样本都在同一个类,则该节点成为树叶,并用该类标记
3.否则,算法使用基于嫡的度量——信息增益作为指导信息,选择能够最好的将样本分类的属性;该属性成为节点的“测试〃或判定属性使用分类属性
4.对测试属性每个已知的值,创建一个分支,并以此划分样本
5.算法使用同样的过程,递归的形成每个划分上的样本判定树一旦一个属性出现在一个节点上,就不在该节点的任何子节点上出现
6.递归划分步骤停止的条件有1给定节点的所有样本属于同一类2没有剩余属性可以用来进一步划分样本——使用多数表决3没有剩余的样本5对分类和预测方法进行比较和评估的标准都有哪些?答1导出分类法后,再使用训练数据评估分类法,这种方法可能错误的导致乐观的估计2保持方法给定数据随机划分为两个集合训练集2/3和测试集1/3训练集导出分类法,测试集对其准确性进行评估随机子选样是保持方法的一个变形,将保持方法重复k次,然后取准确率的平均值3k-折交叉确认初始数据被划分为k个不相交的,大小大致相同的子集S1,S2…Sk进行k次训练和测试,第i次时,以Si做测试集,其他做训练集o准确率为k次迭代正确分类数除以初始数据集样本总数6简述数据分类的两步过程答第一步,建立一个模型,描述预定数据类集和概念集训练数据集由为建立模型而被分析的数据元组形成,其中每个元组属于一个预定义的类,由一个类标号属性确定学习模型可以用分类规则、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类模型在使用之前,要先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现过分适应数据〃的情况7简述后向传播分类的优缺点答优点1预测精度总的来说较高2健壮性好,训练样本中包含错误时也可正常工作3输出可能是离散值、连续值或者是离散或量化属性的向量值4对目标进行分类较快缺点1训练学习时间长2蕴涵在学习的权中的符号含义很难理解3很难跟专业领域知识相整合
四、算法题判定树buys_PCGame如下所示第八章聚类分析
一、填空题1划分方法、层次的方法、基于密度的方法2数据分布的情况3高类内相似度、低类间相似度4数据矩阵、相异度矩阵5处理数度快6度量或执行错误、数据变异的结果7数据分布、分布参数、预期的孤立点数
二、单选题1C;2C;3C
三、简答题1数据挖掘对聚类分析有哪些要求?答1可扩展性大多数来自于机器学习和统计学领域的聚类算法只在处理数百条数据时能表现出高效率2能够处理不同的数据类型3发现任意形状聚类的能力4最小化用于决定输入参数的领域知识5能够处理噪声数据6对于输入数据的顺序不敏感同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果7能够高效地处理高维数据8支持基于约束的聚类9可解释性和可用性聚类要和特定的语义解释和应用相联系2简述基于划分的聚类方法划分的准则是什么?答给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k=n每个簇至少包含一个对象,每个对象或元组属于且仅属于一个簇划分的准则是同一个聚类中的对象尽可能地接近或相关,不同聚类中的对象尽可能地远离或不同3列举孤立点挖掘的常见应用答孤立点挖掘的常见应用有1信用卡欺诈检测2移动电话欺诈检测3客户划分4医疗分析异常4简单地描述如何计算由如下类型的变量描述的对象间的相异度a不对称的二元变量b标称变量c比例标度型ratio-scaled变量d数值型的变量答a不对称的二元变量中,变量的两个状态的重要性是不同的基于不对称的二元变量的相似度称为非恒定的相似度,可以使用Jaccard系数评估它们的相异度b有两种方法方法一简单匹配方法设m为匹配的数目,即对象i和j取值相同的变量的数目也可加上权重,i J之间的相异度可由下式计算:方法二对M个标称状态中的每个状态创建一个新的二元变量,并用M个非对称的二元变量来编码标称变量对于每一个元组中的变量,只有相应值的二元变量取1,其他二元变量取0这样一来,就可以使用不对称二元变量的计算方法计算对象间的相异度了c如果采用与区间标度变量同样的方法,标度可能被扭曲,效果往往不好可以对比例标度型变量进行对数变化之后进行与区间标度变量的相似处理,或者将比例标度型变量看作连续的序数型数据,将其秩作为区间标度的值来对待d数值型变量在可选的标准化后直接使用Manhattan距离或Euclidean距离来计算相异度5给出一个特定的聚类方法如何被综合使用的例子,例如,什么情况下一个聚类算法被用作另一个算法的预处理步骤答例如,在网页结构化信息抽取的应用中,首先根据页面结构对网页进行聚类,然后在不同的网页聚类分组中挖掘共性的模板c ba cb ji d+++=,p mp ji d-=,第九章电子商务与数据挖掘
一、填空题1内容挖掘、结构挖掘、使用挖掘2Web服务器日志、Error Logs、Cookies
二、简答题1列举WEB日志的字段答常用的WEB日志的字段包括以下1远程主机的地址2浏览者的email地址或者其他唯一标识符3记录浏览者进行身份验证时提供的名字4请求的时间5服务器收到的请求类型6状态代码,显示请求是否成功7发送给客户端的总字节数2跟其他应用领域相比,在电子商务中进行数据挖掘有哪些优势?答跟其他应用领域相比,在电子商务中进行数据挖掘的优势包括电子商务提供海量的数据点击流〃Clickstreams将会产生电子商务挖掘的大量数据;丰富的记录信息良好的WEB站点设计将有助于获得丰富的关于商品、分类、访客等等信息;干净的数据从电子商务站点收集的都是电子数据,无需人工输入或者是从历史系统进行整合;研究成果容易转化在电子商务中,很多知识发现都可以进行直接应用;投资收益容易衡量所有数据都是电子化的,可以非常方便的生成各种报表和计算各种收益3列举WEB使用挖掘Web UsageMining的应用答通过WEB使用挖掘,可以1提高站点质量2改善WEB缓存,缓解网络交通,提高性能3在电子商务中还可捕捉到大量的采购过程的细节,为更加深入的分析提供了可能4基于Web日志的用户访问模式挖掘有什么缺点答基于Web日志的用户访问模式挖掘的缺点有1WEB日志提供的数据非常有限,即使使用的是扩展日志格2WEB日志的设计目的是分析WEB服务器的运行状况,而不实现1980年代后期出现各种高级数据库系统(如扩展的关系数据库、面向对象数据库等等)以及面向应用的数据库系统(空间数据库,时序数据库,多媒体数据库等等1990年代研究的重点转移到数据挖掘,数据仓库,多媒体数据库和网络数据库2000年代人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML数据库和整合的信息系统
(4)请列举数据挖掘应用常见的数据源(或者说,我们都在什么样的数据上进行数据挖掘)答常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库其中高级数据库系统和信息库包括空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等()5什么是模式兴趣度的客观度量和主观度量?答客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度,比如支持度、置信度等等;主观度量基于用户对数据的判断来衡量模式的兴趣度,比如出乎意料的、新颖的、可行动的等等
(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?())答一个模式是有趣的,如果Q它易于被人理解;2在某种程(())度上,对于新的或测试数据是有效的;3具有潜在效用;4新颖的;(())5符合用户确信的某种假设7根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?答根据挖掘的知识类型,数据挖掘系统可以分为特征分析,区分,关联分析,分类聚类,孤立点分析/演变分析,偏差分析,多种方法的集成和多层级挖掘等类型第二章数据仓库和数据挖掘的OLAP技术
一、填空题是挖掘电子商务的交易数据和点击流虽然Web日志中给出了被访问页面的URL,但是这并不等于知道了该URL所指向的网页内容,3随着互联网上的动态内容越来越多基于WEB日志的分析与挖掘越来越困难4重构session十分困难由于HTTP是无状态的,因此通过Web日志重构session只能依赖于假设与推断,而且用于假设与推断的数据也少得可怜5一些对数据挖掘很重要的商业相关事件无法由Web日志来决定,例如,购物车中物品数量的增减,网页上的促销信息,失败的关键字检索等等6Web日志中的内容无法映射到业务逻辑数据库5电子商务中进行数据挖掘有哪些难点?答电子商务中进行数据挖掘的难点有1爬虫/机器人访问的过滤2大量数据的处理3分析前的数据变换4提供市场级的决策支持1星形模式、雪花模式和事实星座模式2不物化、部分物化和全物化3面向主题、数据集成、随时间而变化和数据不易丢失4事务操作,只读查询5分布的、代数的和整体的6自顶向下视图、数据源视图、数据仓库视图、商务查询视图7关系OLAP服务器ROLAP、多维OLAP服务器MOLAP和混合OLAP服务器HOLAP8分布的9海量数据,有限的内存和时间
二、单选题1B;2D;3C;4A;5B
三、多选题1ABD;2ABC;3BCD;4ACD;
四、简答题,1为什么在进行联机分析处理OLAP时我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行答使用一个独立的数据仓库进行OLAP处理是为了以下目的Q提高两个系统的性能操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化2两者有着不同的功能操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访;问这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能3两者有着不同的数据数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据2为什么说数据仓库具有随时间而变化的特征?答1数据仓库的时间范围比操作数据库系统要长的多操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息比如过去5-10年2数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素3试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法update-driven,而不愿使用查询驱动query-driven的方法?答因为对于多个异种信息源的集成,查询驱动方法需要复杂的信息过滤和集成处理,并且与局部数据源上的处理竞争资源,是一种低效的方法,并且对于频繁的查询,特别是需要聚集操作的查询,开销很大而更新驱动方法为集成的异种数据库系统带来了高性能,因为数据被处理和重新组织到一个语义一致的数据存储中,进行查询的同时并不影响局部数据源上进行的处理此外,数据仓库存储并集成历史信息,支持复杂的多维查询4请简述几种典型的多维数据的OLAP操作答典型的OLAP操作包括以下几种上卷通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集;下钻上卷的逆操作,由不太详细的数据得到更详细的数据;通常可以通过沿维的概念分层向下或引入新的维来实现;切片在给定的数据立方体的一个维上进行选择,导致一个子方;切块通过对两个或多个维执行选择,定义子方;转轴转动数据的视角,提供数据的替代表示;钻过执行涉及多个事实表的查询;钻透使用关系SQL机制,钻到数据立方体的底层,到后端关系5为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失?答1尽管数据仓库中的数据来自于操作数据库,但它们却是在物理上分离保存的,操作数据库的更新操作不会出现在数据仓库环境下2数据仓库不需要事务处理,恢复,和并发控制等机制3数据仓库只需要两种数据访问数据的初始转载和数据访问读操作6假定Big_University的数据仓库包含如下4个维student,course,semester和instructor;2个度量count和avg_grade在最低得到概念0层例如,对于给定的学生、课程、学期和教师的组合,度量avg_grade存放学生的实际成绩在较高的概念层,avg_grade存放给定组合的平均成绩a为数据仓库画出雪花模式图b由基本方体[student,course,semester,instructor]开始,为列出BigJJniversity每个学生的CS课程的平均成绩,应当使用哪些OLAP操作如,由学期上卷到学年c如果每维有5层包括all,如studentmajorstatus universityall,该数据方包含多少方体包含基本方体和顶点方体?7在数据仓库中,元数据的主要用途包括哪些?答在数据仓库中,元数据的主要用途包括1用作目录,帮助决策支持系统分析者对数据仓库的内容定义2作为数据仓库和操作性数据库之间进行数据转换时的映射标准3用于指导当前细节数据和稍加综合的数据之间的汇总算法,指导稍加综合的数据和高度综合的数据之间的汇总算法8数据仓库后端工具和程序包括哪些?答数据仓库后端工具主要指的是用来装入和刷新数据的工具,包括1数据提取从多个外部的异构数据源收集数据2数据清理检测数据种的错误并作可能的订正3数据变换将数据由历史或主机的格式转化为数据仓库的格式4装载排序、汇总、合并、计算视图,检查完整性,并建立索引和分区5刷新将数据源的更新传播到数据仓库中
五、计算题1答a.内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序分别如下图所示ABCBC ACAB ABCall内存空间需求最小的块计算次序ABCBC ACABABCall内存空间需求最大的块计算次序b.这两个次序下计算二维平面所需要的内存空间的大小内存空间需求最小的次序10,000x1,000用于整个BC平面+100,000/10x1,000用于AC平面的一行4-100,000/10x10,000/10用于AB平面的一格=30,000,000内存空间需求量最大的块计算次序100,000x10,000用于整个AB平面+100,000x1,000/10用于AC平面的一行+10,000/10X1,000/10=1,010,100,000第三章数据预处理
一、填空题1数据清理、数据集成、数据变换、数据规约2分箱、聚类、计算机和人工检查结合、回归3整合不同数据源中的元数据,实体识别问题4沿概念分层向上概化5有损压缩,无损压缩6线性回归方法,多元回归,对数线性模型7五数概括、中间四分位数区间、标准差
二、单选题1C;2A;3D;4C;5C;6B
三、多选题1ABC;2BD;3ABC;4BD;5ACD
四、简答题?1常用的数值属性概念分层的方法有哪些答常用的数值属性概念分层的方法有分箱、直方图分析、聚类分析、基于精的离散化和通过自然划分分段2典型的生成分类数据的概念分层的方法有哪些?答典型的生成分类数据的概念分层的方法包括1由用户或专家在模式级显示的说明属性的部分序;2通过显示数据分组说明分层结构的一部分3说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层4对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性3在现实世界的数据中,元组在某些属性上缺少值是常有的描述处理该问题的各种方法答处理空缺值的方法有1忽略元组当类标号缺少时通常这么做假定挖掘任务设计分类或描述,当每个属性缺少值的百分比变化很大时,它的效果非常差2人工填写空缺值这种方法工作量大,可行性低3使用一个全局变量填充空缺值比如使用unknown或-84使用属性的平均值填充空缺值5使用与给定元组属同一类的所有样本的平均值6使用最可能的值填充空缺值如使用像Bayesian公式或判定树这样的基于推断的方法4常见的数据归约策略包括哪些?答数据归约策略包括1数据立方体聚集2维归约3数据压缩4数值归约5离散化和概念分层产生第四章数据挖掘原语、语言和系统结构
一、填空题1模式分层,集合分组分层,操作导出的分层,基于规则的分2简单性、确定性、实用性、新颖性3最小置信度临界值、最小支持度临界值
二、单选题1C;2D
三、多选题1AC
四、简答题1定义数据挖掘任务的原语,主要应该包括哪些部分?答一个定义数据挖掘任务的原语主要应该包括以下部分的说明说明数据库的部分或用户感兴趣的数据集;要挖掘的知识类型;用于指导挖掘的背景知识;模式评估、兴趣度量;如何显示发现的知识2为什么需要数据挖掘原语和语言来指导数据挎掘?答如果不使用数据挖掘原语和语言来指导数据挖掘1会产生大量模式重新把知识淹没2会涵盖所有数据,使得挖掘效率低下3大部分有价值的模式集可能被忽略4挖掘出的模式可能难以理解,缺乏有效性、新颖性和实用性——令人不感兴趣3描述如下将数据挖掘系统与数据库或数据仓库系统集成的结构之间的差别不耦合、松散耦合、半紧密耦合和紧密耦合答不耦合DM系统不利用DB/DW系统的任何功能这种集成结构简单,但是没有利用数据库的功能意味着信息分析处理借助第三方工具,这使得系统的构建和集成变得很困难松散耦合DM系统将使用DB/DW系统的某些功能这种集成结构简单地利用DB/DW提供的数据查询功能,没有使用DB/DW的后台优化,算法大部分是基于内存的,性能和可扩展性差半紧密耦合除了将DM系统连接到一个DB/DW系统之外,一些基本数据挖掘原语通过分析频繁遇到的数据挖掘功能确定可以在DB/DW系统中实现如此一来,一些中间的挖掘结果可以在DB/DW上实现计算或有效的即时计算,性能会有较大提高紧密耦合DM系统平滑的集成到DB/DW系统中数据挖掘子系统被视为信息挖掘子系统的一部分,数据挖掘查询和功能根据DB或DW系统的挖掘查询分析、数据结构、索引模式和查询处理方法优化这种结构提供了一个统一的信息处理平台,功能、性能等方面都会达。
个人认证
优秀文档
获得点赞 0