还剩19页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第一章商务智能根本概念一.数据仓库的开展与展望作为商务智能三大核心技术之一的数据仓库发源于处理日常业务的数据库传统数据库在日常的业务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足因为,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的开展趋势而传统数据库只保存了当前的业务处理信息,缺乏决策分析所需要的大量历史信息为满足管理人员的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境——数据仓库DW,Data Warehouseo
1.数据仓库----一种能够将日常业务处理中所收集到的各种数据转变为具有商业价值信息的技术
2.而传统数据库系统无法承当起这一责任因为传统数据库的处理方式与决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动这些不相称性主要表现在决策处理中的系统响应问题、决策数据需求的问题和决策数据的操作问题•系统响应问题在传统的事务处理系统中,用户对系统和数据库的要求是数据存取频率要高、操作时间要快用户的业务处理操作请求往往在很短的时间内就能完成,这就使系统在多用户的情况下,也可以保持较高的系统响应时间但在决策分析处理中,用户对系统和数据的要求发生了很大的变化有的决策问题处理请求,可能会导致系统长达数小时的运行有的决策分析问题的解决,则需要遍历数据库中大局部数据这些操作必然要消耗大量的系统资源,这是实时处理业务的事务联机处理系统所无法忍受的•据测数据需求的问题在进行决策分析时,需要全面、正确的集成数据,这些集成数据不仅包含企业内部各部门的又关上护具,而且还包含企业外部的、甚至竞争对手的相关数据但是在传统数据库中,只存储了本部门的事务处理数据,而没有与决策问题有关的集成数据,更没有企业外部数据数据的集成操做是有数据仓库处理,不是由决策分析程序处理在决策数据的继承中还需要解决数据混乱问题例如,同一实体的属性在不同的应用系统中,可能有不同的数据类型、不同的字段名称这样在使用这些数据进行决策之前,必须对这些数据进行分析,确认其真实含义在决策分析中,系统常常需要从数据库中抽取数据、查找有用的数据,然后将这些数据导入其他文件或数据库中,供用户使用这些被抽取出来的数据,有可能被其他用户再次抽取由于这种不加限制数据的连续抽取,使企业的数据控件构成了一个错综复杂的数据“蜘蛛网”,即形成了自然演化体系结构在这个数据“蜘蛛〃网中,有可能两个节点上的数据来自于同一个原始数据库但是由于数据抽取的时间、抽取方法、抽取级别等方面的差异,可能使这两个节点的数据不一致这样,在对同一个问题的决策分析中,由于数据的出发基准不同,而可能导致截然相反的结果也就是说,由于决策分析过程中所形成的自然演化体系,造成了数据可信度的降低,必然导致数据u转化为信息的不可行与不可信,使企业无法将大量珍贵的信息资源转化为企业的核心竞争力数据的集成还涉及外部数据与非结构化数据的应用问题决策分析中经常要用到系统外数据,如行业的统计报告,管理咨询公司的市场调查分析数据这些数据必须经过格式、类型的转换,曾能被决策系统应用在决策分析系统中要求数据能够进行定期的、及时的更新,数据的更新期可能是一天,也可能是一周,而传统数据库缺乏数据动态更新的能力为完成事务处理的需要,传统数据库中的数据一般只保存当前的数据但是对于决策分析而言,历史上的、长期的数据却具有重耍的意义利用历史数据可对未来的开展进行正确的预测,但是传统数据库却无法长期保存大量的历史数据在决策分析过程中,决策人员往往需要的并不是非常详细的数据,而是一些经过汇总、概要的数据但在传统数据库中为支持日常的事务处理需要,只保存一些非常详细的数据,这对决策分析十分不利•策数据的操作问题在对数据的操作方式上,决策分析人员则往往希望以专业用户的身份,而不是参数用户的身份对数据进能够快速地从大量数据中挖掘出对经营管理有用的信息,以应对瞬息万变的市场压力
2.数据挖掘的定义从技术角度和商业角度给出数据挖掘的定义A.数据挖掘的技术定义数据挖掘是从大量的、不完全的、有噪声的、模糊的、随即的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程知识,如果从严格的意义上讲,热门们通常将概念、规则、模式、规律和约束等看作是知识但是知识都是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值同时还要能够易于被用户理解,最好能用自然语言表达所发现的结果人们将数据看作是形成知识的源泉,数据挖掘就是从知识的源泉去挖掘知识原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图像和图像数据;甚至可以是分布在网络上的异构数据发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的发现的知识可以用于信息管理、查询优化、决策支持和过程控制等因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据库中挖掘知识,提供决策支持在这种需求的推动下,聚集了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员B.数据挖掘的商业定义数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键之时,即从一个数据库中自动发现相关商业模式数据挖掘是利用统计学和机器学习的技术来探求哪些符合市场、客户行为的模式对于数据挖掘的应用不仅要依靠良好的算法建立模型,而且更重的是要解决如何将数据挖掘技术集成到当今复杂的信息技术应用环境中其次还需要有商务分析人员参与,因为数据挖掘技术不具备人所特有的经验和直觉,不能区分挖掘出的哪些模式在现实中是有意义的,哪些是无意义的因此,商务分析人员的参与是必不可少的数据挖掘是一类深层次的数据分析技术数据挖掘工具与传统数据分析工具的比较如图:传统数据分析工具(DSS/EIS)数据挖掘工具工具特点回忆型的、验证型的预测型的、发现型的分析重点已经发生了什么预测未来的情况、解释发生的原因分析目的从过去的事实中列出管理人员感兴趣的事实锁定未来的可能客户,以减少未来的销售本钱数据集大小数据维、为重属性数、维中数据均是少量的数据维、为重属性数、维中数据均是庞大的启动方式企业管理人员、系统分析员、管理参谋启动与控制数据与系统启动、少量的人员指导技术状况成熟统计分析工具成熟,其他在开展中六.数据挖掘技术与工具随着海量数据搜集、强大的多处理器计算机和数据挖掘算法这3中基础技术的开展和成熟,数据挖掘技术已在数据仓库系统中得到了广泛的应用A.常用的数据挖掘技术数据挖掘的开展受到数据库系统、统计学、机器学习、可视化技术、信息技术及其他学科的影响,如神经网络、模糊/粗糙集理论、知识表示、归纳技术与高性能计算等从常用的数据挖掘技术来看,可以分成三大类传统分析类、知识发现类和其他最新开展的数据挖掘技术a.传统分析类传统的统计分析(或称数据分析)技术中使用的数据挖掘模型主要有线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近邻算法和聚类分析等技术利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模型来几时这些数据,解释隐藏在这些数据背后的市场规律和商业时机例如,可以使用统计分析工具寻求最正确商业时机来增加市场份额和利润,利用全面质量管理程序来提高产品或效劳的质量使客户更加满意,通过对流水线产品制造的调整或企业业务过程的重整来增加利润在所有的数据挖掘技术中,统计型数据挖掘工具是数据挖掘技术中最成熟的一种,已经在数据挖掘中得到了广泛的应用b.知识发现类知识发现类数据挖掘技术是与统计类数据挖掘技术完全不同的一种挖掘技术它可以从数据仓库的大量数据中筛选信息,寻找市场可能出现的运营模式,开掘人们所不知道的事实知识发现类数据挖掘技术包含人工神经网络、决策树,遗传算法、粗糙集(RS)和关联规则等人工神经网络是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础,建立三大类神经网络模型前馈式网络、反应式网络和自组织网络前馈式网络以感知机、反向传播模型、函数性网络为代表,可用于预测、模式识别等领域;反应式网络以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算;自组织网络以ART模型、Koholon模型为代表,用于聚类处理决策树是一个类似于流程图的树结构,其中每个内部节点表示在某一属性上的测试,每一个分枝代表一个测试输出,而每个树叶节点代表类或类分布由于每个决策和事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,决策树在数据挖掘中一般用于数据的分类处理上,使具有某种内在规律的分析对象处于同一类中遗传算法是近几年开展起来的一种崭新的全局化算法,它借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个个体的适应性提高解决问题是,要对解决问题的模型结构和参数进行编码,一般用字符串来表示,这个过程就将问题符号化、离散化了遗传算法由3个根本过程组成繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉(重组)是选择两个不同个体(染色体)的局部(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程遗传算法的目的在于获取最优化的知识集合粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定的分析和处理问题粗糙集用于从数据库中发现分类规则的根本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后依据条件属性划分的子集与依结论属性划分的子集之间上下近似关系生成判定规则所有相似对象的集合称为处登记和,它形成知识点根本成分;任何初等集合的病机称为精确集,否则一个集合就是粗糙的(不精确的)每个粗糙集就具有边界元素,也就是那些既不能确定为集合元素也不能确定为集合补集元素的元素,而精确集市完全没有边界元素的粗糙集一般用于对象的相似性或共性分析、因果关系及范式挖掘等关联规则是数据挖掘的一种主要形式,是与大多数人想象的数据挖掘过程最为相似的一种数据挖掘形式,即在大型数据库中“淘金〃人们感兴趣的规则在关联规则系统中,规则适用“如果怎么样、怎么样、怎么样,那么久怎么样〃的简单形式表示的关联规则主要用于查找那些由于某些事件的发生而引发的另外一些事件,这种关联规则越来越引起企业管理人员的注意c.最新开展的数据挖掘技术在数据挖掘技术的最新开展中包含了文本数据挖掘、Web数据挖掘、可视化系统、空间数据挖掘和分布式数据挖掘技术等文本数据挖掘和Web数据挖掘是近几年新开展起来的崭新数据挖掘技术,前者主要是为了满足对非结构化信息挖掘的需要,后者则是正对日益开展的Internet技术所带来的大批量网络信息的挖掘可视化系统是为了使数据挖掘能够以图形或图像的方式在屏幕上显示出来,并能进行交互处理,这样就可以很清楚地发现隐含的和有用的知识可视化技术可分为两类表示控件数据场的体可视化技术和表示非控件数据的信息可视化技术可视化数据挖掘可以分为数据可视化、数据挖掘结果可视化和交互式数据可视化挖掘4类控件数据挖掘分布式数据挖掘是基于分布式数据库的,利用分布式算法从分布式数据库中挖掘知识的技术B.常用数据挖掘工具由于数据挖掘工具在企业经营管理、政府行政管理决策及科学研究等领域获得了广泛的应用,许多软件开发商或研究机构纷纷推出了各式数据挖掘商品化工具这些工具可以按照使用方式、所采用的数据挖掘技术和应用范围进行分类a.按使用方式匪类的数据挖掘工具可分成决策方案生成工具、商业分析工具和研究分析工具三类决策方案生成工具往往是针对某个特定行业或特定问题而开发的一类数据挖掘工具,如金融行业的欺诈检查工具,零售行业的客户流失分析工具商业分析工具有两种类型,一种是只为用户提供一个黑箱,用户只需要将需要分析的对象和相关的一些环境因素提供给工具,数据挖掘工具将自动给出数据挖掘的结果,其内部的一些复杂模型并不向用户展示这种类型的数据挖掘工具适合管理人员使用另一种数据挖掘工具则向用户展示数据挖掘模型,用户可以根据自己的需要去选择数据挖掘模型或对数据挖掘模型进行适当的控制例如,将决策树展示给用户,用户可以对决策树进行切片处理这一类工具主要为企业管理参谋或商业分析人员效劳研究分析工具为用户提供了更大的数据挖掘应用的自由空间,其用户主要是数据挖掘研究人员或商业分析人员这些工具包含了一些数据挖掘研究领域的最新研究成果如文本挖掘、Web挖掘或图形、可视化工具等b.按数据挖掘技术分类的数据挖掘工具可分成基于神经网络的工具、基于规则和决策树的工具、基于模糊逻辑的工具和综合型数据挖掘工具基于神经网络的工具由于有非线性数据的快速建模能力,在实际应用中越来越流行开发过程根本上是首先进行数据聚类,然后分类计算权值神经网络很适合非线性数据和含噪声数据,所以在市场数据库的分析和建模方面应用比较广泛基于规则和决策树的工具则采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法这类工具通常是对数据库的数据进行开发,生成规则和决策树,然后对新数据进行分析和预测这类工具的主要优点是规则和决策树都是可读的基于模糊逻辑工具的数据挖掘方法是应用于模糊逻辑进行数据查询、排序等该工具使用模糊概念和“最近〃搜索技术的数据查询工具,它可以让用户指定目标,然后对数据库进行搜索,找出接近目标的所有记录,并对结果进行评估综合性数据挖掘工具采用了多种数据挖掘方法,这类工具一般规模较大,适合对大型数据库的数据进行挖掘综合性数据挖掘工具的数据挖掘能力很强,但价格昂贵,并且用户需要花很长的时间进行学习,才能掌握这里工具的应用c.按应用范围分类的数据挖掘工具•专用型数据挖掘工具主要用于某一特定领域由于专用型的数据挖掘工具针对性较强,采用了一些特殊的算法对特定的数据集进行处理,数据挖掘的效率较高,挖掘出的知识可靠性也高,但是应用范围受到限制•通用型数据挖掘工具一般不考虑所挖掘对象的实际含义,只提供各种通用挖掘算法,允许用户自定义数据源进行多模式挖掘由于这种类型挖掘算法的通用性,在数据的挖掘过程中很难进行算法的优化,因此数据挖掘效果往往不能是所有用户满意通用型数据挖掘工具有IBM公司的IM智能挖掘器,这是一套包括了Explorer、Diamond和Quest在内的软件产品,可以用来提高高端数据挖掘的解决方案其中的Explorer是一种聚类的神经网络工具,Diamond是一种可视化数据挖掘软件产品,而Quest则提供了关联规则、分类规则、序列模式与相似序列等模式SPSS公司的统计软件包SPSS在统计领域处于领先的地位,其中的线性回归分析结果和类似的数据挖掘工具对数据挖掘的结果是一致的,而这些挖掘工具采用的是传统统计方法Red Brick系统公司的Red Brick数据挖掘工具为第一个将数据挖掘解决方案与数据库集成在一起的数据挖掘选件在与数据库的连接中减少了创痛数据挖掘中需要的大量数据准备时间,并且提供了扩展的SQL语言,用户可以使用SQL语言建立、存取和访问数据仓库中的模型第2章数据仓库开发模型在数据仓库的开发中所采用的模型主要有概念模型、逻辑模型、物理模型、元数据模型、粒度模型和聚集模型二数据仓库开发模型模型是对现实世界进行抽象的工具将现实世界的事务及特征转换为信息世界的数据,这种转换需要经历从显示到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程(三级模型开发过程)现实世界概念世界逻辑世界计算机世界信用---------------特性----------------------属性----------------------列(字段、数据项)张三---------------个体----------------------实体----------------------记录客户---------------整体----------------------同质总体-------------------表文件客户与产品-------------整体间联系----------------异质总体----------------数据库数据模型关系图作为数据仓库的灵魂一一元数据模型则自始至终伴随着数据仓库的开发、实施与使用元数据模型的构建、实施与使用是不可能脱离数据仓库的概念模型、逻辑模型与物理模型的设计实施数据粒度模型和聚集模型也在数据仓库的创立中发挥着指导的作用,指导着数据仓库的具体实现尽管在数据仓库的设计过程中可以采用为业务数据处理系统设计所用的概念模型作为设计框架,但是在实际设计中用于数据仓库设计的概念模型与业务数据处理系统的三级数据模型仍有一定的差距
1.数据类型的差距在数据仓库的概念模型中不包含操作型的数据,只包含用户所感兴趣的分析数据、描述数据和细节数据如商品的销售数量、企业的利润等是常见的分析数据;销售时间、销售地点是用户感兴趣的描述数据;所销售产品的详情、购置商品的客户详情,则是用户感兴趣的细节数据
2.数据的历史变迁性数据仓库的概念模型扩充了关键字结构,增加了时间属性并作为关键字的一局部
3.数据的概括性在数据仓库的概念模型中还增加了一些有根本数据所导出的衍生数据,这些导出的衍生数据主要用于对企业的管理决策进行分析由于传统的实体关系图ERD无法表述数据仓库中所需要的分析数据、描述数据和细节数据的关系,无法反映出时间属性的存在与作用,也无法表现出数据的导出关系可将传统的ERD稍作修改,将原ERD中的实体分成指标实体(事务实体)、维实体和详细类别实体(引用实体),这样所构造的数据模型才能反映出数据仓库所特有的概念模型特征利用分类实体所构成的概念模型,可以很直观地观察、理解在数据仓库中的实体和这些实体之间的关系(a)指标实体(分析数据)(b)维实体(描述数据)(c)详细类别实体(详细数据)概念模型的实体图形符号指标实体处于概念模型的中心,是数据仓库活动的中心指标实体往往最后形成了数据仓库中的实体一一事实表,但是在高层模型中是现实世界中的业务处理货某一事件(例如,销售、效劳等)的逻辑表示高层模型中的指标实体表达了在现实世界中的事务处理值,这些值只与每个相关维的一个点相对应这些值是从操作型业务系统中所获得的数据,反映了企业也的真实商业活动状况是管理人员衡量业务活动好、坏和业务处理困难程度的基础由于指标实体的数据需要根据现实所发生的状况进行追加,因此,指标实体的数据量将随着时间的推移而日益膨胀,对指标实体数据的管理是数据仓库管理的重点作为高层概念模型中的指标实体应该具有这样一些特性可以为用户提供定量的数据、商务数据或实体数据的根本分析点,是用户进行分析活动的中心和灵魂;包含了多种访问指标的路径、维或指标;包含相关的标准数据;构成了每个维中最低一级的类别和一个信息组的指标;能够扩大成很大的表格,容纳今后日益增加的数据维实体主要用于对指标实体的过滤和重新组织提供指导可以将用户对指标实体的查询结果按照维指标进行筛选,只允许与维指标相关的数据返回给用户另外维实体为数据仓库的整体构建发挥了重要作用,使不同指标实体之间、指标实体与详细类别实体之间建立起联系这样才能使用户对数据仓库进行轻松的访问与浏览作为维实体应该具有这样一些特性可以星辰给一个微体系,具备访问和过滤指标实体的能力,提供相关的非标准实体,包括一个完整的维体系编码、关键词及相关的表示,可以映射到用户所需要信息的列,在物理数据仓库中是较小的表,可以对前台用户的应用程序进行数据填充,或指引用户的数据仓库查询分析详细类别实体在数据仓库中也用物理数据库表示,通常与现实世界中的某一个实体相对应,可能是一个客户、一件产品、一个销售点这些实体能以更详细的信息为用户提供决策分析支持,使用户在决策过程中得到更加有力的帮助详细类别实体具有终止操作的作用,用户常常通过维实体得到指标实体数据,但操作到详细类别实体时,则操作停止详细类别实体应该具有这样一些特性包含参考数据和有助于完成指标数据智能的支持信息、,提供更定型的数据,与实务结构有映射关系,包含标准的数据结构,数据量比指标实体少,但比维实体多,数据可能是数值型的、定性的或说明性的二.标准的数据模型传统数据库设计是基于某个范式的,具有标准化的特点,系统所需要的是快速响应和高效的数据存储数据仓库为了高效地检索数据信息,通常是非标准化的通过对数据仓库包含的结构进行非标准化处理,可提供信息的检索性能和可用性
1.数据模式标准A.第一范式取消重复元组B.第二范式取消局部函数依赖C.第三范式取消传递函数依赖2,数据仓库的反标准化处理在数据仓库中对数据模型进行标准化处理后,就会发现这些经过标准化处理的模型在数据仓库实际应用中并不理想经过标准化处理后的数据模型形成了一系列的小表,每个表的数据量较小数据仓库中为完成大量数据的处理,需要应用程序对这些表进行动态的互连操作,这就要在不同表中进行屡次I/O操作提高I/O操作的最好方法就是使这些小表合并在一起,即进行数据的反标准化处理此外,在数据仓库的应用中有一些根本数据如果按照标准化处理原则应该存放在根本表中,而其他各种变动性数据则存放在各自的变动表中这样对各种变动表的查询操作都要涉及根本表和变动表,也就是说至少要设计两个以上表的操作如果将根本表的数据作为冗余数据插入到各种变动表中,在对数据仓库的操作中就可以减少表的连接操作也就是说,利用数据模型的反标准处理可以提高数据仓库的运行效率因此,在数据仓库的模型构建中,为提高数据仓库的运行效率,采用反标准处理是必要的三.星型模型ERD作为一种数据仓库的设计基础,在实际应用中存在很多缺点如下图的简单ERD中有4个相互关联的简单实体仅仅从概念模型的角度来设计数据仓库会产生一种“平等〃效应,即所有实体之间的关系都是对等的实际上,由于管理决策的原因,数据仓库的实体绝不会是相互对等的每个实体,都有它们自己的特别处理每个实体,都有他们的特殊处理因此在数据仓库中建立实体时,需要根据载入数据实体的数据量,来考虑数据仓库中数据的结构设计例如,在实际工作中,代表供给商、客户、产品、发货的实体数据量只是一些说明订单的实体,而订单实体则是管理者所真正关心的分析对象这样,在数据仓库的应用中将会有大量的数据载入订单实体表,而其他实体表中的数据载入量相对较少因此需要一种不同的数据模型设计方式,用于描述数据仓库中某个实体所要载入大量数据的设计结构,这就是“星型模型〃星型模型是常用的数据仓库设计模式它使数据仓库形成了一个集成系统,为最终用户提供报表效劳和分析效劳对象星型模型通过使用一个包含主题的事实表和多个非正规化描述事实的维表来支持各种决策查询通过事实表将各种不同的维表链接起来,各个维表都链接到中央事实表维表中的对象通过事实表与另一维表中的对象相关通过事实表将多个维表进行关联,就能建立各个维表对象之间的联系如图星型模型的结构示意图事实表主要包含了描述特定商务事件的数据,即某些特定商务事件的度量值一般情况下,事实表中的数据,不允许修改,新的数据知识简单地添加进事实表中维表主要包含了存储在事实表中数据的特征值每一个维表利用维关键字通过事实表外键约束与事实表中的某一行,实现与事实表的相关联,这就要求事实表中的外键不得为空,这与一般数据库中外键允许为空是不同的这种结构使用户能够很容易地从维表中的数据分析开始,获得维关键字,以便链接到中心的事实表进行查询,这样就可以减少在事实表中扫描的数据量,提高查询性能四.雪花模型雪花模型是对星型模型的扩展,该模型中每一个维都可以想外连接到多个详细类别表在这种模式中,维表除了具有星型模型中的维表功能外,还链接上对事实表进行详细描述的详细类别表,详细类别表通过对事实表在有关维上的详细描述可以到达缩小事实表、提高查询效率的目的雪花模型对星型模型维表的进一步标准化和进行的标准化处理,在为表中存储了正规化的数据,通过把多个较小的标准化表(而不是星型模型中大的非标准化表)联合在一起来改善查询性能由于采取了标准化及维的低粒度,雪花模型提高了数据仓库应用的灵活性星型模型例如事实表维表sales itemCampaignDistributionChannel加Chinn PIDTID MIDPROFIT SALESCOGS INVENT2121699665749588372223891624123588823245117011250875242457174212858442524021590118683741250070306530445422451709166447443289173316444794421491782163345945221718061589445Time Dimension TableID NAMEID NAMEID NAME1Products1Year1Markets2Q12USA2Skateboards3International3Q23B icydes4Q34Tricycles5Q4©CopyngntIBMCorporation2007Product DimensionTable MarketDimensionTable雪花模型例如:五.数据仓库的逻辑模型5c维表sales事实表item维表零用pliei;维表中层模型亦称为逻辑模型,它是对高层概念模型的细分,在高层模型中所标明的每个主题域或指标实体都需要与一个逻辑模型相对应高层概念模型与中层逻辑模型的对应关系如图高层概念模型高层概念模型与中层逻辑模型对应关系逻辑模型的根本结构在逻辑模型中有4个根本结构根本数据组、二级数据组、连接数据组和类型数据组根本数据组中存在着唯一的主要主题域,它有在每个主要主题域中只出现一次的属性同所有的数据组一样,根本数据组包含属性和键码二级数据组有对每个主要主题域可以存在屡次的属性初始数据组有一链接指向二次数据分组有多少个可以出现屡次的不同数据组,就含有多少个二级数据组连接数据组用于本组主耍主题域与其他主耍主题域之间的联系,表达了高层概念模型中实体间的关系它将数据从一个实体与另一个实体联系起来一个概念层确定的关系导致了逻辑层确实认一般情况下,连接数据组往往是一个主题的公共码主键从而建立了两个主题域之间的相互联系类型数据组指数据的类型数据的“类型〃由指向右边的不同数据组组成,主要有左边的超类型数据组和右边的子类型数据组除连接数组以外的3种数据组划分标准都基于数据的不同稳定性(不完全是基于此标准)根本数据组的稳定性要大于二级数据组,而二级数据组的稳定性又大于类型数据组超市企业客户的逻辑模型通过中层逻辑模型的设计,可以向用户提供一个比概念模型更详细的设计结果,是用户了解到数据仓库能够给他们提供一些什么信息逻辑模型也就成为数据仓库开发者与使用者相互之间进行数据仓库开发交流与讨论的工具在逻辑模型中已经具有了各种数据的一些属性,使数据仓库的设计向数据仓库物理模型外进了一步在中层逻辑模型设计中,数据仓库开发者关心的是数据仓库的结构和完整性,需要保证数据仓库的所有数据元素应该包含在数据模型中在设计中不需考虑这些数据元素来自何处,如何获取,只关心这些数据元素是否能够满足用户的信息需求
1.事实表模型设计A.事实表设计在确定了中层逻辑模型后,还需要进一步设计出事实表模型,为下一步的物理模型设计提供具体的设计对象例如,根据上图所示的超市企业客户的逻辑模型可以设计出一下事实表模型a.客户事实表客户根本情况表客户变动情况表b.客户交易事实表商品交易情况表效劳交易情况表信用交易情况表c.客户反应记录表d.客户信用状况表B.事实表中的事实特性事实表是星型模型的核心事实表中一般包含两局部,一是由主键和外键所组成的键局部,另一是用户希望在数据仓库中所了解的数值指标,称为事实或指标由于事实是一种度量,所以事实表中的这种指标往往需具有数值化和可加性的特征因为事实表中,只有那些具有完全可加性的事实才能使根据维所进行的累加更有意义但是事实表中有一些事实表示的是一种强度,这些事实就不具有完全可加性,而是一种半可加性例如,账目结余款反映的是某个时间点的数据,它可以按照地点、商品等大多数维进行累加,但是对于时间维则是例外,将一年中每个月的账目结余款进行累加是毫无意义的,而决策者则可能需要了解所有地区、所有商品账目结余款累加值在事实表中还有一些事实是非可加性的,如果这些事实是对其他事实所进行的描述,此时就要将这些非可加性事实转移到维表中在事实表模型的设计中还需要注意到派生事实派生事实主要有两种,一种是可以通过同一事实表中其他事实计算得到,如超市销售中的商品单价可以用商品的销售总金额和销售数量计算得到,对于这些派生事实一般不保存在事实表中还有一种派生事实是非可加性事实,如各种商品利润率等各种比率或者是可加性事实,但是这种可加性事实可以表现为不同的粒度,可能是某一时间段内的事实,而不是根本领实本身事实表是数据仓库中的最大表,因为它包含了大量的根本业务详细信息在设计事实表时,一定要注意使事实表尽可能地小,因为过于庞大的事实表在表的处理、备份、恢复和在用户查询等方面需要较长的时间在实际设计时,可以利用减少列的数量,降低每一列的大小,把历史数据归档到单独的事实表中等多种方法来降低事实表的大小另外,在事实表中还要解决好数据的精度和粒度的问题
2.维模型设计设计维表的主要目的是把参考事实表的数据放置在一个单独的表中最常用的维表应该直接连接事实表,而不是通过其他维表间接链接事实表这种方法可以最小化表的连接数量,提高系统的性能在观察维表中的维对象时,其属性可以看作是描述该工程的各种信息维属性在分析数据仓库中的数据时非常有用从某种角度讲,维属性就是用户获取数据的窗口二.数据仓库的物理模型在确定了中间层逻辑数据模型的事实表和维表以后,就需要利用物理模型确定这些表模式的存储模式,以及为方便这些表的操作而确定的各种索引模式
1.数据仓库物理模型的存储结构
2.数据仓库物理模型的索引构建
3.数据仓库物理模型的优化问题物理数据模型设计的另一主要内容是物理的I/O设计问题即如何能够更快地将数据从外存储器调入内存,或者将数据快速地从内存送至外存储器计算机内部的运算速度以毫微秒为计算机,而数据的传输速度以毫秒为计算级计算级的I/O称为一个影响数据仓库性能的主要因素三.数据仓库的元数据模型数据仓库中的元数据是关于数据的数据正是有了元数据,才使得数急剧仓库的最终用户可以随心所欲地使用数据仓库,利用数据仓库进行各种管理决策模式的探讨,因此可以说元数据是数据仓库的应用灵魂,没有元数据就没有数据仓库以下讲述内容主要有元数据的类型与组成、元数据在数据仓库中的作用、元数据的收集
6.数据仓库组织的根本目的在于对决策的支持高层的企业决策者、中层的管理者和基层的业务处理这等不同层次的管理人员均可以利用数据仓库进行决策分析,提高管理决策的质量企业各级管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据中敏锐地发现众多的上级数据仓库为管理者利用数据进行管理决策分析提供了极大的便利三.数据仓库的体系结构数据仓库体系结构建立在其概念结构基础之上,并根据商务智能的不同应用情况可以选择虚拟数据仓库结构、数据集市结构、单一数据仓库结构和分布式数据仓库结构
1.数据仓库的概念结构数据仓库应该包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库及各种管理工具和应用工具数据仓库建立以后,首先要从数据源中抽取所需要的数据到数据准备区,在数据准备区中经过数据的净化处理,再加载到数据仓库数据库中,最后在根据用户的需求将数据发布到数据集市/知识挖掘库中当用户使用数据仓库时,可以通过OLAP等数据仓库的应用工具向数据集市/知识挖掘库或数据仓库进行决策查询分析或知识挖掘如图
2.数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,它没有一个独立的数据仓库系统的数据不存储在统一数据仓库中,每个主题有自己的物理存储区但是不同的主题数据仓库在设计时采用了统一企业数据模型,这就保证了不同主题数据仓库可以cia用相同的字段结构、编码和关键字,可以保证不同主题数据仓库的联合查询四.数据仓库的参照结构数据仓库的参照结构由不同的层次组成,这些层次包含了数据仓库的根本功能层、数据仓库的管理层和数据仓库的环境支持层数据仓库的根本功能层包含数据抽取,数据筛选、清理,清理后的数据加载,设立数据及时,完成数据仓库的查询、决策分析和知识的挖掘等操作数据仓库的管理层分成数据管理与元数据管理两局部,主要负责对数据仓库中的数据抽取、清理、加载、更新等操作进行管理
2.数据仓库的管理层数据仓库的运行除依靠上面所介绍的数据仓库根本功能外,还需要能对这些根本功能进行管理的结构框架,这样数据仓库才能正常运行使用数据仓库管理层由数据仓库的数据管理层和数据仓库的元数据管理层组成A.数据仓库的数据管理层包含数据抽取与新数据需求和查询管理,数据加载、存储、刷新和更新系统,平安性与用户授权管理系统,数据归档、恢复及净化系统数据抽取与新数据需数据加载、存储、刷平安性与用户授权管数据归档、恢复及净理系统求和查询管理新和更新系统化系统数据抽取与新数据需求和查询管理主要负责完成从数据源中抽取数据的管理;用户在数据仓库应用中出现对新数据的要求时,从新的数据源或当前数据源中按照用户需求追踪和充实新数据;对数据查询中的并行处理工作的管理数据加载、存储、刷新和更新系统负责对从数据源中所抽取的数据在完成筛选、净化处理以后,将这些数据加载、存储到数据仓库中;捕获数据源中的数据变化,用最新数据充实数据仓库;根据用户的需求和数据仓库管理的要求对数据仓库进行更新等工作平安性与用户授权管理系统主要负责数据仓库的平安管理工作,禁止用户对数据仓库进行某些非法操作;根据用户的管理权限和工作需要给予用户对数据仓库的不同操作权限数据归档、恢复及净化系统中的数据归档、恢复功能主要负责定期对数据仓库中的数据进行归档、备份,以便在数据仓库遭到破坏时可以恢复;而净化系统则负责对从数据源所抽取的数据进行数据的筛选、数据标准的统
一、数据内容的统一等各种求精、重整净化工作的管理数据仓库的元数据管理层B.数据仓库的有效性完全建立在数据的定义(元数据)之上元数据已经渗透到数据仓库的各种活动中,数据源的性质有所获得数据的定义来刻画,增加时间戳就需要有与元数据相关的时间信息,元数据还要为数据仓库的数据操作提供索引数据仓库的元数据管理层负责管理数据仓库所使用的元数据,其中包括数据仓库、数据集市/知识挖掘库和词汇表管理,元数据抽取、创立、存储和更新管理,预定义的查询、报表和索引管理,刷新和复制管:括数据仓库、数;元数据抽取、创::据登录、归档、预定义的查询、刷新和复制管理集市/知识挖立、存储和更新[掘库和词《复与净化管报表和索引管理汇表管I管理.理S£理理,登录、归档、恢复与净化管理如图:a.数据仓库、数据集市/知识挖掘库和元数据词汇表管理元数据管理层利用元数据词汇表来管理数据仓库和数据集市中逻辑数据模型和物理数据模型,以及与技术和业务相关的数据说明元数据主要包含两大局部的元数据一类元数据用于说明从数据源想数据仓库转移的数据,主要方便数据仓库维护人员对数据舱仓库的应用;另一类元数据用于建立从数据仓库想数据仓库前端工具的映射,以方便用户对数据仓库的使用元数据抽取、创立、存储和更新管理b.元数据在数据仓库对数据源进行数据抽取、清理、加载等操作过程中需要对所涉及的元数据进行抽取、创立、存储和更新处理即从数据源中将关于这些数据的说明抽取出来,如果在元数据库中没有这些元数据,就需要创立并存储在元数据库中如果这些元数据已经存在于元数据库中,则需要根据最新情况进行更新C.预定义的查询、报表和索引管理在元数据管理中还需耍对设计人员为数据仓库用户预定义的查询和报表进行管理,将预定义的查询和报表处理方式,甚至处理结果置于元数据库中,这样当用户需要进行相同的预定义查询和报表时,就可以提供相应的结果而预定义的查询和报表处理方式也需要存储在元数据中元数据管理层哈需要实现大型数据仓库的多级索引、数据压缩和复合键等方面的管理d.刷新和复制、登录、归档、恢复与净化管理当数据仓库所连接的数据源发生变化时,数据仓库的内容也要定期刷新这些刷新工作的进行需要依靠元数据库中所包含的有关说明为保证数据仓库的平安,需要经常定期进行复制这样在数据仓库遇到破坏后,可以从备份中将数据仓库恢复数据仓库的备份与恢复工作也有赖于元数据的帮助用户在使用数据仓库时需要进行身份的验证,对用户的登录管理也离不开元数据的支持元数据在加载进数据仓库之前必须要进行净化处理,而净化处理的规则也需要元数据说明
3.数据仓库的环境支持层数据仓库的运行除需要数据仓库管理层对根本功能进行管理外,还需要有数据仓库的环境支持层对根本功能提供支持数据仓库的环境支持层有数据仓库数据传输层和数据仓库基础层组成A.数据仓库的数据传输层数据仓库中不同结构之间的数据传输,需由数据仓库的传输层完成,数据传输层包含了数据传输和传送网络、客户-效劳器代理和中间件、数据复制系统、数据传输的平安和保障系统如图薮丽辐而卷法向荔客户-效劳器代理和1数据复制系统|数据传输的平安和保;J中间件}:障系统:…诵茬盗法的组成在数据传输层中的数据传输和传送网络包含网络协议、网络管理框架、网络操作系统和网络从数据仓库的角度看,网络操作系统的性能应该支持内核线程、高达4TB的内存、最大为1TB的特大型文件系统、大小可变的应用程序所用页面及并行处理,并有日志文件系统、内存分页管理功能、动态加载核心模块功能,可以为数据仓库提供良好的可恢复性能而且操作系统应该遵循开放系统标准,能够支持系统的互操作,这样才能使数据仓库在多操作系统环境中运行数据仓库中的网络问题在于贷款,在数据仓库的网络配置中可以将用户和系统数据分隔到不同的网络中,以增加系统的整体带宽系统数据流量可以通过100Base-TX以太网、FDDI、ATM、千兆位或HIPPI接口,而用户数据流量则放在10/100Base-TX以太局域网上b.客户-效劳器代理与中间件包含数据库网管、数据仓库的中间件、传输层的数据舱仓库数据发布和复制系统等数据库网管便于将数据仓库链接到其他软件产品上而数据仓库的中间件一般用于补充数据仓库中其他组件功能的缺乏,如用于监视数据库与查询管理程序之间的TCP/IP包,这就可以提供关于数据仓库用户、被访问数据库及访问时间等信息利用这些信息可以对数据仓库的结构进行调整,提高数据仓库的性能目前许多数据库管理系统开始将各种中间件的功能添加到数据库管理系统中,英雌,在选择中间件之前需要了解中间件的功能是否已经在数据库管理系统存在传输层的数据仓库数据发布和复制系统主要用于将数据源中的源数据库数据复制到数据仓库的目标数据库上,或将数据仓库中的元数据库数据复制到数据集市的目标数据库上源数据库和幕布奥数据库可以在同一台机器上,也可以不再同一台及其上数据的复制可以根据制定的时间进行数据发送,还可以在数据发送过程中对发送数据进行修改,然后再发送到目标数据库上c.数据复制系统在传输层的复制系统中有发布与复制系统、数据库网管内定义的复制工具和专用的数据仓库产品等d.数据传输的平安和保障系统数据传输的平安和保障系统不仅要解决保障数据仓库中的数据平安问题,还需要保护用户正常使用数据仓库的权利问题因此数据仓库平安保障系统需要设立用户的平安角色,明确哪些用户可以访问哪些数据,确认用户对数据的访问是否威胁到系统的平安;为不同数据设立不同的平安级别,根据平安需要对数据进行平安分区;对用户进行鉴别,并将鉴别的用户通知平安保障系统;保护用户访问数据的路径B.数据仓库的基础层包含系统管理、工作流程管理、存储系统和处理系统局部,如图j,系统管理工作流程管理存储系统处理系统系统管理局部为数据仓库的设计者和最终用户提供执行、管理、终止工具和应用程序等功能工作流程管理局部主要支持处理集成和管理,以协调各种工具、应用程序和操作有条不紊地进行,正确完成对数据仓库和数据集市的抽取、刷新、复制、更新、聚集、概括及其他维护人物和系统管理了任务利用工作流程的管理实现对数据仓库和数据集市的自动维护与刷新,并且可以提供预定义的报表和查询结果,以提高系统的设计者和最终用户的工作效率存储系统为数据源、数据仓库、数据集市中的数据库目录提供了数据库和文件管理器,为数据仓库的存取与使用提供多为的和本地的存储处理系统实际上是数据仓库核心的根本操作环境,即数据源、数据仓库、数据集市、数据仓库存取与使用、中间件的操作环境数据仓库的基础结构层还需要考虑配置管理程序、存储管理程序、平安性管理程序、软件分布管理程序、特许证管理程序、性能监控程序和容量分析程序等五.数据挖掘概述数据挖掘DM,Data Mining是基于数据库的知识发现KDD,Knowledge Discoveryin Database过程中最为关键的步骤,因此,在实际应用中对数据挖掘和KDD这两个数据的应用往往不加区别
1.数据挖掘的开展经营管理的实际需要进入21世纪以后,全球经济一体化的进程日益加快,企业所面临的市场竞争压力日趋严重,企业经营管理者西夏王能够从企业基类的大量历史数据中找到应对日趋严重的竞争压力良方,希望能够从这些数据中找到经营管理出现问题的根本原因例如,经营管理者往往希望了解企业的某些产品为什么销售业绩良好,是产品自身的原因?还是销售的原因?如果是销售的原因,产品的销售人员在销售中采用了什么销售方式?处于这些因素的考虑,是企业经营管理人员,特别是决策人员希望能够采用某种工具从这些数据中去找原因,。
个人认证
优秀文档
获得点赞 0