还剩8页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第一章概述只搜索有趣的模式是数据挖掘算法的最优化问题L
2、找出所有有趣的模式是数据挖掘算法的完全性问题
3、模式兴趣度的主观度量基于用户对数据的判断比如出乎意料的、新颖的、可行动的等
4、数据挖掘是从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的模式或知识
5、数据挖掘是从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的模式或知识
6、数据挖掘是指从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的模式或知识
7、数据挖掘的主要功能包括概念/类描述、关联分析、分类和预测、聚类分析、孤立点分析、趋势和演变分析等
8、数据挖掘的主要功能包括概念/类描述、关联分析、分类和预测、聚类分析孤立点分析、趋势和演变分析等
9、数据挖掘的主要功能包括概念/类描述、关联分析、分类和预测、聚类分析、孤立点分析、趋势和演变分析等
10、数据挖掘的主要功能包括概念/类描述、关联分析、分类和预测、聚类分析、孤立点分析、趋势和演变分析等
11、数据挖掘的主要功能包括概念/类描述、关联分析、分类和预测、聚类分析、孤立点分析、趋势和演变分析等
12、数据挖掘的主要功能包括概念/类描述、关联分析、分类和预测、聚类分析、孤立点分析、趋势和演变分析等
13、结构挖掘主要针对的就是页面的超链接结构Web
14、写出两个常用的数据挖掘的替换词知识发现,知识提炼、数据/模式分析,数据考古,数据捕捞(选两个)
15、模式兴趣度的客观度指基于所发现模式的结构和关于它们的统计,比如支持度、置信度等等
16、(使用)挖掘的挖掘对象是用户和网络交互过程中抽取出来的二手数Web UsageWeb据,这些数据主要是用户在访问时在日志里留下的信息,以及其它一些交互信Web Web息
17、数据仓库是一个面包主题的_、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程
18、数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程
19、数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程
20、数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程
21、对电子商务网站的数据挖掘包括内容挖掘、结构挖掘、使用挖掘三种Web
22、对电子商务网站的数据挖掘包括内容挖掘、结构挖掘、使用挖掘三种Web
23、对电子商务网站的数据挖掘包括内容挖掘、结构挖掘、使用挖掘三种Web的步骤包括数据清理,数据集成,评估,知24KDDs数据选择,数据变换数据挖掘,模式识表示
25、的步骤包括数据清理,数据集成,评KDD数据选择,数据变换数据挖掘,模式估,知识表示
26、的步骤包括数据清理,数据集成,评KDD数据选择,数据变换数据挖掘,模式估,知识表示
27、的步骤包括数据清理,数据集成,评KDD数据选择,数据变换数据挖掘,模式估,知识表示
28、的步骤包括数据清理,数据集成,评KDD数据选择,数据变换数据挖掘,模式估,知识表示
29、的步骤包括数据清理,数据集成,评KDD数据选择,数据变换数据挖掘,模式估,知识表示
30、的步骤包括数据清理,数据集成,KDD数据选择,数据变换数据挖掘,模式评估,知识表示第二章数据有指导的学习或称有监督的学习指模型的学习在被告知每个训练样本属于哪个类的“指导”1s下进行、监督学习(也称有指导的学习)需要在有标J的数据集上进行
2、有指导的学习指模型的学习在被告知每个训练样本属于哪个类的“指导”下进3行、有指导的学习(用于分类)是指模型的学习在被告知每个训练样本属于哪个类的“指导”4下进行、无指导的学习指每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知5的、无指导的学习(用于聚类)是指每个训练样本的类编号是未知的,要学习的类集合或数量6也可能是事先未知的,通过一系列的度量、观察来建立数据中的类编号或进行聚类、无指导的学习(用于聚类)是指每个训练样本的类编号是未知的,要学习的类集7合或数量也可能是事先未知的,通过一系列的度量、观察来建立数据中的类编号或进行聚类、无监督学习可以在没有标记的数据集上进行学习,实质上无监督学习是一个聚—类的过程
8、无监督学习可以在没有标记的数据集上进行学习,实质上无监督学习是一个聚类的过程
9、半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据来进行10学习,其中标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据来进行学习,IK其中标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界、半监督学习主要考虑如何利用少量有标记的数据和大量未标记的数据来进行学习,12其中标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界、基本统计学度量中极差,四分位数,方差,标准差都是度量数据离散程13度的、基本统计学度量中度量离散程度的有(写出两个):极差,四分位数,方差,标准14差、基本统计学度量中度量数据集中趋势有(写出两个)均值,加权平均,中位数,15众数、基本统计学度量中均值,加权平均,中位数,众数都是度量数据集中趋16势的、数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中17的跟任务相关的数据集从较低的概念层抽象到较的概念层的过程、数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据18库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程、数据对象又称为样本、实例、数据点、对象或元组
19、数据对象又称为样本、实例、数20据点、对象或元组状态或事物的名字,每个值代表某种类别、编、标称属性():类别可以看做是枚举的21nominal attribute码或状态,这些值不必具有有意义的序状态或事物的名字,每个值代表某种类别、编可以看做是枚举的、标称属性()类别22nominal attribute状态或事物的名字,每个值代表某种类别、编码或状态,这些值不必具有有意义的序可以看做是枚举的、标称属性()类别23nominal attribute码或状态,这些值不必具有有意幺的序、四分位数极差()是第四分位数和第四分位数之24InterQuartile RangeQR13间的距离、数据清理包括填写空缺的值,平滑噪声数据,识别、删除孤立点,平解决不一致性
1、数据清理包括填写空缺的值,滑噪声数据,识别、删除孤立点,平解决不一致性
2、数据清理包括填写空缺的值,滑噪声数据,识别、删除孤立点,平解决不一致性
3、数据清理包括填写空缺的值,滑噪声数据,识别、删除孤立点,解决不一致性4第三章预处理、数据平滑技术(处理噪声数据)包括分箱、回归、聚类
5、数据光滑技术(处理噪声数据)包括分箱、回目、聚类
6、数据光滑技术(处理噪声数据)包括分箱、回归、聚类
7、噪声数据是一个测量变量中的随机错误或偏差
8、噪声数据是一个测量变量中的随机错误或偏差
9、数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中10的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程、数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数11据库中的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程、数据库中的数据和对象通常包含原始概念层的细节信息,数据概化就是将数据库中12的跟任务相关的数据集从较低的概念层抽象到较高的概念层的过程、标称属性可以使用卡方检验进行相关性分析
13、数值属性可以采用相关系数和协方差进行相关性分析
14、维归约通过删除不相干的属性或维减少数据量
15、数据归约是得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
16、现实世界的数据是“肮脏的”表现在数据是不完整的,有噪声的,不一致17的、现实世界的数据是“肮脏的”是指数据是不完整的、含噪声的、不一致的
18、现实世界的数据是“肮脏的”是指数据是不完整的、含噪声的、不一致的
19、数据归约策略包括:数据立方体聚集,维归约,数据压缩,数值归约,20离散化和概念分层产生、数据归约策略包括数据立方体聚集,维归约,数据压缩,数值归约,离21散化和概念分层产生、数据归约策略包括数据立方体聚集,维归约,数据压缩,数值归约,22离散化和概念分层产生、维归约通过删除不相干的属性或维减少数据量
23、概念分层提供了从不同层次对数据进行观察的能力
24、数据预处理的主要任务包括数据清理、数据集成、数据变换、数据归约
25、数据预处理的主要任务包括数据清理、数据集成、数据变换、数据归约
26、音频/视频压缩通常是有—损压缩,压缩精度可以递进选择
27、字符串压缩通常是无—损压缩,在解压缩前对字符串的操作非常有限28第四章数据仓库与OLAP、数据仓库系统的主要任务是联机分析处理包括数据分析和决策支持,支1OLAP,持以不同的形式显示数据以满足不同的用户需要、数据仓库系统的主要任务是联机分析处理,包括数据分析和决策支持,支持以不同的2OLAP形式显示数据以满足不同的用户需要、事实表包括事实的名称或度量以及每个相关维表的关键字
3、事实表包括事实的锤或度量以及每个相关维表的关键字
4、事实表包括事实的名称或度量以及每个相关维的关键字
5、操作数据库系统的主要任务是联机事务处理包括日常操作购买,库存,6OLTP,银行,制造,工资,注册,记帐等、操作数据库系统的主要任务是联机事务处理,包括日常操作购买,库存,7OLTP银行,制造,工资,注册,记帐等、度量可以根据其所用的聚集函数分为三类分布的、代数的、整体的
8、度量可以根据其所用的聚集函数分为三类分布的、代数的、整体的
9、度量可以根据其所用的聚集函数分为三类分布的、代数的、整体的
10、三种数据仓库模型为企业仓库、数据集市、虚拟仓库
11、三种数据仓库模型为企业仓库、数据集市、虚拟仓库
12、三种数据仓库模型为企业仓库、数据集市、虚拟仓库
13、最流行的数据仓库概念模型是多维数据模型这种模型可以以星型模式、14雪花模式、或事实星座模式的形式存在、最流行的数据仓库概念模型是多维数据模型这种模型可以以星型模式、雪花模15式、或事实星座模式的形式存在、最流行的数据仓库概念模型是多维数据模型这种模型可以以星型模式、16雪花模式、或事实星座模式的形式存在、最流行的数据仓库概念模型是多维数据模型这种模型可以以星型模式、雪花模五17或事实星座模式的形式存在、最流行的数据仓库概念模型是多维数据模型这种模型可以以星型模式、雪花模式、18或事实星座模式的形式存在、数据立方体允许以多维数据建模和观察,它由维和事实定义
19、数据立方体允许以多维数据建模和观察,它由维和事实定义20数据立方体允许以多维数据建模和观察,它由维和事实定义2L、数据立方体的维—是关于一个组织想要记录的视角或观点
22、数据立方体的维是关于一个组织想要记录的视角或观点
232、数据仓库技术基于多维数据模型这个模型把数据看作是数落立方体形式
3、数据仓库技术基于多维数环模数这个模型把数据看作是数据立方体形式
4、一个数据立方体的度量是一个数值函数,度量可以根据其所用的聚集函数分为三类分布的的、代数的、整体的d ributivealgebraic holistic
5、一个数据立方体的度量是一个数值函数,度量可以根据其所用的聚集函数分为三类分布的、代数的、整体的distributive algebraicholistic
6、一个数据立方体的度量是一个数值函数,度量可以根据其所用的聚集函数分为三类分布的、代数的、整体的distributive algebraicholistic
7、一个数据立方体的度量是一个数最函数,度量可以根据其所用的聚集函数分为三类分布的、代数的、整体的distributive algebraicholistic
8、数据仓库关键特征包括面向主题、数据集成、随时间而变化、数据不易丢失
9、传统的异种数据库集成:采用查询______________驱动方法,而数据仓库采用更新驱动来获得更高的性能
10、传统的异种数据库集成采用查询驱动方法,而数据仓库采用更新驱动来获得更高的性能11s异种数据集成时,数据仓库采用更新驱动,是指将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析
12、异种数据集成时,数据仓库采用更新驱动,是指将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析
13、多维数据模型数据立方体使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力
14、多维数据模型数据立方体使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力
15、多维数据模型数据立方体使得从不同的角度对数据进行观察成为可能,而概念分层则提供了从不同层次对数据进行观察的能力
16、数据仓库的星型模型事实表在中心,周围围绕地连接着Star schema:维表每维一个
17、数据仓库的星型模型事实表在中心,周围围绕地连接着维表,Starschema:事实表含有大量数据,没有冗余
18、数据仓库的雪花模型是星型模型的变种,其中某些维表Snowflakeschema是规范化的,因而把数据进一步分解到附加表中
19、事实星座指多个事实表共享维表,这种模式可以看作星型模式集,Fact constellations因此称为星系模式,或者事实星座
20、事实星座指多个事实表共享维表,这种模式可以看作Fact constellations星型模式集,因此称为星系模式,或者事实星座
21、上卷—操作汇总数据,通过一个维的概念分层向上攀升或者通过维up规约进行
22、下钻是上卷的逆操作,由不太详细的数据到更详细的数据,可drill-down以通过沿维的概念分层向下或引入新的维来实现
23、切片操作在给定的数据立方体的二个维上进行选择,导致一个子立方体
24、切块操作通过对两个或多个维进行选择,定义子立方体
25、在最低抽象层建立的立方体是存放最底层汇总的方体,叫做基本方体
26、数据仓库的设计包括概念模型设计,逻辑模型设计,物理模型设计
27、数据仓库的设计包括概念模型设计,逻辑模型设计,物理模型设计
28、数据仓库的设计包括概念模型设计,逻辑模型设计,物理模型设计
29、最流行的数据仓库概念模型是多维数据模型这种模型可以以星型模式、雪花o模式、或事实星座模式的形式存在
30、当存在大量的索引时,向数据仓库中加载数据速度会非常慢,可以在加载前先删除索引,完成后再建索引
31、当表太大时不应建立太多索引,如果必须建立多个索引,建议将大表分成小表再建立多个索引第五章回归分析、一元线性回归模型中,为自变量,为因变量;为截距,是一常量;为回归1Y=a+bX+s XY a b系数,表示自变量对因变量的影响程度;£为随机误差项、一元线性回归模型中,为回归系数,表示自变量对因变量的影响程度2Y=a+bX+g b、一元线性回归模型中,为自变量,为因变量;为截距,是一常量;为回3Y=a+bX+g XY ab归系数,表示自变量对因变量的影响程度;目为随机误差项、一元线性回归模型中,为自变量,丫为因变量;为截距,是一常量;为回4Y=a+bX+e Xab归系数,表示自变量对因变量的影响程度;£为随机误差项、、、三者之间关系为:5TSS ESSRSS TSS=ESS+RSS、采用检验来度量一个或多个自变量同因变量之间的线性关圣是否显著6F、采用检验对回归参数进行显著性检验,检验检测变量是否是被解释变量的一个显著7t tx y性的影响因素、采用上施验来度量一个或多个自变量同因变量之间的线性关系是否显著8第六章频繁模式挖掘、在多维关联规则挖掘中,搜索的不是名称频繁项集,而是频繁谓词集
1、算法由连梦和更技两个步骤组成2Apriori、算法由遂•崔和夏发两个步骤组成3Apriori、一致支持度指对所有层都使用一致的最小支持度
4、多层关联规则挖掘可采用一致支持度或递减支持度
25、多层关联规则挖掘可采用一致支持度或递减支持度
26、具有递减支持度的多层关联规则的搜索策略包括逐层独立,层交叉单项过滤,层27交叉项集过滤k、具有递减支持度的多层关联规则的搜索策略包括逐层独立,层交叉单项过滤,层28交叉项集过滤k、性质频繁项集的所有非空子集也必须是频繁的29Apr iori、性质频繁项集的所有非空子集也必须是频繁的30Apriori、除了算法外,其他关联规则挖掘方法包括频繁模式增长(增31Apriori FP长),以及使用垂直数据格式等、模式相关性分析的指标(写出两个)提升度、杠杆度、杠杆度皮尔森相关系数,度32IS量等、提升度、皮尔森相关系数和卡方系数等度量在很大程度上受雯事多—的影响,因此33它们识别关联模式关联关系的能力较差、度量通常用于处理非对称二元变量34IS第七章分类、数据分类是一个两步过程,第一步,建立一个模型,描述预定数据类集和概念集;第二步,1使用模型,对将来的或未知的对象进行分类______________、数据分类是一个两步过程,第一步,建立一个模型,描述预定数据类集和概念集;第二2步,使用模型,对将来的或未知的对象进行分类__________、在理论中,集合的上—近似为所有与相交非空的等价类组成的集合3RS AA、在理论中,集合的上近似为所有与相交非空的等价类组成的集合4RS AA、粗糙集决策表中核可以为空,核为空说明该信息系统中的属性具有较高的替代率
5、粗糙集理论是建立在不可分辨关系上的
6、数据分类中,测试集要独立于训练样本集,否则会出现“过分适应数据”的情况
7、粗糙集理论用于数据挖掘其主要应用分为分类规则提取以及数据归约
89、粗糙集理论用于数据挖掘其主要应用分为分类规则提取以及数据归约_______________o、在模糊分类中,个体识别(分类)采用的方式有阈值原则和最大隶属原则10在模糊分类中,个体识别(分类)采用的方式有阈值原则和最大隶属1K原则、模糊分类的基本思想是用属于程度即隶属度代替属于或不属于
12、模糊分类群体识别一般采用贴近度进行识别
13、判定树的生成由两个阶段组成包括判定树构建、树剪枝
14、判定树的生成由两个阶段组成包括判定树构建、树剪枝
15、在判定树分类中,判定树的每个树叶节点代表类或类分布
16、深度学习主要通过神经网络来模拟人的大脑的学习过程,希望借鉴人脑的多层抽象17机制来实现对现实对象或数据的抽象表达,整合特征抽取和分类器到一个学习框架下,特征的抽取过程中应该尽量少地减少人为的干预、深度学习主要通过神经网络来模拟人的大脑的学习过程,希望借鉴人脑的多层抽象
18、常用的聚类算法包括划分方法、层次的方法、基于密度的方法、基于网格的方法、基于2模型的方法、常用的聚类算法包括划分方法、层次的方法、基于密度的方法、基于网格的方法、基于3模型的方法、常用的聚类算法包括划分方法、层次的方法、基于密度的方法、基于网格的方法、基于4模型的方法、常用的聚类算法包括划分方法、层次的方法、基于密度的方法、基于网格的方法、基于5模型的方法、聚类分析是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程
6、一个好的聚类分析方法会产生高质量的聚类,即高类内相似度,低类间相似度
7、一个好的聚类分析方法会产生高质量的聚类,即高类内相似度,低类间相似度
8、均值算法属于一种聚—类算法9k-、中心点算法属于一种聚—类算法10h、基于密度的聚类优点是可以过滤掉“噪声”和“孤立点”,发现任意形状的簇
11、基于密度的聚类优点是可以过滤掉“噪声”和“孤立点”,发现任意形状的簇
12、基于密度的聚类只要临近区域的密度即(对象或数据点的数目)超过某个临界值,13就继续聚类、基于密度的聚类只要临近区域的密度(对象或数据点的数目)超过某个临界值,就14继续聚类其优点是:可以过滤掉“噪声”和“孤立点”,发现任意形状的簇O、层次聚类方法可分为凝聚层次聚类和分裂层次聚类
15、层次聚类方法可分为凝聚层次分聚类和分裂层次聚类
16、凝的层次聚类方法使用自底向上的策略
17、凝聚的层次聚类方法使用自底向上的策略
18、分裂的层次聚类方法使用自顶向下的策略
19、分裂的层次聚类方法使用自顶向下的策略20第九章离群点一个数据集与其他数据有着显著区别称为孤立点(或离群点)
1.离群点产生原因包括计算的送或者操作的错误以及数据本身的可变性或弹性
2.离群点产生原因包括计算的误差或者操作的错误以及数据本身的亘变或弹性
3.离群点产生原因包括计算的误差或者操作的错误以及数据本身的可变性或建
4.离群点产生原因包括计算的误差或者操作的错误以及数据本身的可变性或弹性
5.。
个人认证
优秀文档
获得点赞 0