还剩7页未读,继续阅读
文本内容:
零基础学习大数据拾掘知识点整顿
1.数据、信息和知识是广义数据体现的不一样形式.重要知识模式类型有广义知识,关联知识,类知识,预测型知识,特异型知识
23.web挖掘研究的重要流派有Web构造挖掘、Web使用挖掘、Web内容挖掘.一般地说,是一种多环节的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以4KDD及模式评估等基本阶段.数据库中的知识发现处理过程模型有阶梯处理过程模型,螺旋处理过程模型,以顾客为中心的处理5构造模型,联机模型,支持多数据源多知识模式的处理模型KDD KDD.粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的6知识发现处理方案三个重要阶段,其中背面两种反应了目前知识发现软件的两个重要发展方向.决策树分类模型的建立一般分为两个环节决策树生成,决策树修剪
7.从使用的重要技术上看,可以把分类措施归结为四种类型8a)基于距离的分类措施)决策树分类措施b)贝叶斯分类措施cd)规则归纳措施
9.关联规则挖掘问题可以划提成两个子问题)发现频繁项目集:通过顾客给定寻找所有频繁项目集或者最大频繁项目集a Minsupport,b)生成关联规则:通过顾客给定Minconfidence,在频繁项目集中,寻找关联规则.数据挖掘是有关学科充足发展的基础上被提出和发展的,重要的有关技术10数据库等信息技术的发展记录学深入应用人工智能技术的研究和应用1L衡量关联规则挖掘成果的有效性,应当从多种综合角度来考虑a精确性挖掘出的规则必须反应数据的实际状况b实用性挖掘出的规则必须是简洁可用的c新奇性挖掘出的关联规则可认为顾客提供新的有价值信息
12.约束的常见类型有单调性约束;反单调性约束;可转变的约束;简洁性约束..根据规则中波及到的层次,多层次关联规则可以分为13同层关联规则假如一种关联规则对应的项目是同一种粒度层次,那么它是同层关联规则层间关联规则假如在不一样的粒度层次上考虑问题,那么也许得到的是层间关联规
14.按照聚类分析算法的重要思绪,聚类措施可以被归纳为如下几种划分法基于一定原则构建数据的划分属于该类的聚类措施有k-means、k-modes、k-prototypes^k-medoids、PAM、CLARA、CLARANS等层次法对给定数据对象集合进行层次的分解密度法基于数据对象的相连密度评价网格法将数据空间划提成为有限个单元Cell的网格构造,基于网格构造进行聚类模型法给每一种簇假定一种模型,然后去寻找可以很好的满足这个模型的数据集
15.类间距离的度量重要有:最短距离法定义两个类中最靠近的两个元素间的距离为类间距离最长距离法定义两个类中最远的两个元素间的距离为类间距离中心法定义两类的两个中心间的距离为类间距离类平均法它计算两个类中任意两个元素间的距离,并且综合他们为类间距离离差平方和
16.层次聚类措施详细可分为凝聚的层次聚类一种自底向上的方略,首先将每个对象作为一种簇,然后合并这些原子簇为越来越大的簇,直到某个终止条件被满足分裂的层次聚类采用自顶向下的方略,它首先将所有对象置于一种簇中,然后逐渐细分为越来越小的簇,直抵到达了某个终止条件层次凝聚的代表是AGNES算法层次分裂的代表是DIANA算法.文本挖掘的方式和目的是多种多样的,基本层次有17TD关键词检索最简朴的方式,它和老式的搜索技术类似挖掘项目关联聚焦在页面的信息包括关键词之间的关联信息挖掘上信息分类和聚类运用数据挖掘的分类和聚类技术实现页面的分类,将页面在一种更到层次上进行抽象和整顿自然语言处理揭示自然语言处理技术中的语义,实现Web内容的更精确处理
18.在web访问挖掘中常用的技术途径分析途径分析最常用的应用是用于鉴定在一种站点中最频繁访问的途径,这样的知识对于一种电子商务网Web站或者信息安全评估是非常重要的关联规则发现使用关联规则发现措施可以从Web访问事务集中,找到一般性的关联知识序列模式发现在时间戳有序的事务集中,序列模式的发现就是指找到那些如〃某些项跟随另一种项〃这样的内部事务模式分类发现分类规则可以给出识别一种特殊群体的公共属性的描述这种描述可以用于分类新的项聚类可以从WebUsage数据中汇集出具有相似特性的那些客户在Web事务日志中,聚类顾客信息或数据项,就可以便于开发和执行未来的市场战略
19.根据功能和侧重点不一样,数据挖掘语言可以分为三种类型数据挖掘查询语言但愿以一种像这样的数据库查询语言完毕数据挖掘的任务SQL数据挖掘建模语言对数据挖掘模型进行描述和定义的语言,设计一种原则的数据挖掘建模语言,使得数据挖掘系统在模型定义和描述方面有原则可以遵照通用数据挖掘语言通用数据挖掘语言合并了上述两种语言的特点,既具有定义模型的功能,又能作为查询语言与数据挖掘系统通信,进行交互式挖掘通用数据挖掘语言原则化是目前处理数据挖掘行业出现问题的颇具吸引力的研究方向.规则归纳有四种方略减法、加法,先加后减、先减后加方略20减法方略以详细例子为出发点,对例子进行推广或泛化,推广即减除条件(属性值)或减除合取项(为了以便,我们不考虑增长析取项的推广),使推广后的例子或规则不覆盖任何反例加法方略起始假设规则的条件部分为空(永真规则),假如该规则覆盖了反例,则不停地向规则增长条件或合取项,直到该规则不再覆盖反例先加后减方略由于属性间存在有关性,因此也许某个条件的加入会导致前面加入的条件没什么作用,因此需要减除前面的条件先减后加方略道理同先加后减,也是为了处理属性间的有关性
21.数据挖掘定义有广义和狭义之分从广义的观点,数据挖掘是从大型数据集(也许是不完全的、有噪声的、不确定性的、多种存储形式的)中,挖掘隐含在其中的、人们事先不懂得的、对决策有用的知识的过程从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程
22.web挖掘的含义针对包括Web页面内容、页面之间的构造、顾客访问信息、电子商务信息等在内的多种Web数据,应用数据挖掘措施以协助人们从因特网中提取知识,为访问者、站点经营者以及包括电子商务在内的基于因特网的商务活动提供决策支持
23.K-近邻分类算法KNearestNeighbors,简称KNN的定义通过计算每个训练数据到待分类元组的距离,取和待分类元组距离近来的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别°
24.K-means算法的性能分析重要长处是处理聚类问题的一种经典算法,简朴、迅速对处理大数据集,该算法是相对可伸缩和高效率的当成果簇是密集的,它的效果很好重要缺陷在簇的平均值被定义的状况下才能使用,也许不合用于某些应用必须事先给出k要生成的簇的数目,并且对初值敏感,对于不一样的初始值,也许会导致不一样成果不适合于发现非凸面形状的簇或者大小差异很大的簇并且,它对于〃躁声〃和孤立点数据是敏感的
24.1D3算法的性能分析算法的假设空间包括所有的决策树,它是有关既有属性的有限离散值函数的一种完整空间因此算ID3ID3法防止了搜索不完整假设空间的一种重要风险假设空间也许不包括目的函数ID3算法在搜索的每一步都使用目前的所有训练样例,大大减少了对个别训练样例错误的敏感性因此,通过修改终止准则,可以轻易地扩展到处理具有噪声的训练数据ID3算法在搜索过程中不进行回溯因此,它易受无回溯的爬山搜索中的常见风险影响收敛到局部最优而不是全局最优算法有两个致命的性能瓶颈
26.Apriori多次扫描事务数据库,需要很大的负载a I/O对每次循环,侯选集中的每个元素都必须通过扫描数据库一次来验证其与否加入假如有一种频k CkLk繁大项目集包括个项的话,那么就至少需要扫描事务数据库遍1010b.也许产生庞大的侯选集由Lk-1产生k-侯选集Ck是指数增长的,例如104个1-频繁项目集就有也许产生靠近107个元素的2-侯选集如此大的侯选集对时间和主存空间都是一种挑战a基于数据分割的措施基本原理是〃在一种划分中的支持度不不小于最小支持度的项集不也许是全局频繁的〃k-.改善算法适应性和效率的重要的改善措施有27Apriori基于数据分割()的措施基本原理是〃在一种划分中的支持度不不小于最小支持度的-项集不a Partitionk也许是全局频繁的〃b基于散列的措施基本原理是〃在一种hash桶内支持度不不小于最小支持度的k-项集不也许是全局频繁的〃基于采样的措施基本原理是〃通过采样技术,评估被采样的子集中,并依次来估计项集的全局频度〃c k-其他如,动态删除没有用的事务〃不包括任何的事务对未来的扫描成果不会产生影响,因而可以d Lk删除〃,面向的数据挖掘比面向数据库和数据仓库的数据挖掘要复杂得多28Weba异构数据源环境Web网站上的信息是异构:每个站点的信息和组织都不一样样;存在大量的无构造的文本信息、复杂的多媒体信息;站点使用和安全性、私密性规定各异等等b数据的是复杂性有些是无构造的(如Web页),一般都是用长的句子或短语来体现文档类信息;有些也许是半构造的(如Email,HTML页)当然有些具有很好的构造(如电子表格)揭开这些复合对象蕴涵的一般性描述特性成为数据挖掘的不可推卸的责任动态变化的应用环境cWeb的信息是频繁变化的,像新闻、股票等信息是实时更新的这种高变化也体目前页面的动态链接和随机存取上上的顾客是难以预测的WebWeb上的数据环境是高噪音的
29.简述知识发现项目的过程化管理I-MIN过程模型MIN过程模型把KDD过程提成IM
1、IM
2、…、IM6等环节处理,在每个环节里,集中讨论几种问题,并按一定的质量原则来控制项目的实行IM1任务与目的它是KDD项目的计划阶段,确定企业的挖掘目的,选择知识发现模式,编译知识发现模式得到的元数据;其目的是将企业的挖掘目的嵌入到对应的知识模式中任务与目的它是的预处理阶段,可以用、、等分别对应于数据清洗、数据选择IM2KDD IM2a IM2b IM2c和数据转换等阶段其目的是生成高质量的目的数据IM3任务与目的它是KDD的挖掘准备阶段,数据挖掘工程师进行挖掘试验,反复测试和验证模型的有效性其目的是通过试验和训练得到浓缩知识为最终顾客提供可使用的模型Knowledgeconcentrate,IM4任务与目的它是KDD的数据挖掘阶段,顾客通过指定数据挖掘算法得到对应的知识任务与目的它是的知识表达阶段,按指定规定形成规格化的知识IM5KDD任务与目的它是的知识解释与使用阶段,其目的是根据顾客规定直观地输出知识或集成到企业IM6KDD的知识库中.改善算法适应性和效率的重要的改善措施有30Aprioria基于数据分割Partition的措施基本原理是〃在一种划分中的支持度不不小于最小支持度的k-项集不也许是全局频繁的〃b基于散列Hash的措施基本原理是〃在一种hash桶内支持度不不小于最小支持度的k.项集不也许是全局频繁的〃c基于采样Sampling的措施基本原理是〃通过采样技术,评估被采样的子集中,并依次来估计k-项集的全局频度〃d其他如,动态删除没有用的事务〃不包括任何Lk的事务对未来的扫描成果不会产生影响,因而可以删除〃
31.数据分类的两个环节是什么?建立一种模型,描述预定的数据类集或概念集a数据元组也称作样本、实例或对象为建立模型而被分析的数据元组形成训练数据集训练数据集中的单个元组称作训练样本,由于提供了每个训练样本的类标号,因此也称作有指导的学习通过度析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供b使用模型进行分类首先评估模型(分类法)的预测精确率假如认为模型的精确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类
32.web访问信息挖掘的特点Web访问数据容量大、分布广、内涵丰富和形态多样一种中等大小的网站每天可以记载几兆的顾客访问信息广泛分布于世界各处访问信息形态多样访问信息具有丰富的内涵访问数据包括决策可用的信息Web每个顾客的访问特点可以被用来识别该顾客和网站访问的特性同一类顾客的访问,代表同一类顾客的个性一段时期的访问数据代表了群体顾客的行为和群体顾客的共性Web访问信息数据是网站的设计者和访问者进行沟通的桥梁Web访问信息数据是开展数据挖掘研究的良好的对象Web访问信息挖掘对象的特点访问事务的元素是Web页面,事务元素之间存在着丰富的构造信息访问事务的元素代表的是每个访问者的次序关系,事务元素之间存在着丰富的次序信息每个页面的内容可以被抽象出不一样的概念,访问次序和访问量部分决定概念顾客对页面存在不一样的访问时长,访问长代表了顾客的访问爱好页面内文本信息的挖掘
33.web挖掘的目的是对页面进行摘要和分类页面摘要对每一种页面应用老式的文本摘要措施可以得到对应的摘要信息页面分类分类器输入的是一种Web页面集(训练集),再根据页面文本信息内容进行监督学习,然后就可以把学成的分类器用于分类每一种新输入的页面{在文本学习中常用的措施是TFIDF向量表达法,它是一种文档的词集(Bag-of-Words)表达法,所有的词从文档中抽取出来,而不考虑词间的次序和文本的构造这种构造二维表的措施是每一列为一种词,列集(特性集)为辞典中的所有有辨别价值的词,因此整个列集也许有几十万列之多每一行存储一种页面内词的信息,这时,该页面中的所有词对应到列集(特性集)上列集中的每一种列(词),假如在该页面中不出现,则其值为0;假如出现k次,那么其值就为k;页面中的词假如不出目前列集上,可以被放弃这种措施可以表征出页面中词的频度对中文页面来说,还需先分词然后再进行以上两步处理这样构造的二维表表达的是Web页面集合的词的记录信息,最终就可以采用NaiveBayesian措施或k-NearestNeighbor等措施进行分类挖掘在挖掘之前,一般要先进行特性子集的选用,以减少维数}。
个人认证
优秀文档
获得点赞 0