还剩18页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
大数据挖掘技术之经典模型(下)DM数据分析公众号关注你想理解日勺,分享你需要时datadw—接着上篇大数据挖掘技术之经典模型(上)文章,接下来我们将探讨朴素贝叶DM斯模型、线性回归、多元回归、逻辑回归分析等模型、朴素贝叶斯模型4表查询模型简朴有效,不过存在一种问题伴随输入数量的额增长,每个单元格中训练样本日勺数量会迅速减少假如维度为且每一维有个不一样日勺变量,那么就2,10需要个单元格,而当有个维度时,就需要个单元格,个维度就是.103100410000这样成指数级日勺增长,哪怕日勺老式数据挖掘中都会碰到明显瓶颈当试图预测某一种概率值时,朴素贝叶斯模型就提供这一措施基本思想每个输入变量自身就包括某些预测需要的信息例如目日勺变量是取消业务的概率,解释变量是市场、获取渠道、初始信用评分、利率计划、号码类型、号以及客户年龄这些变量都具有预测能力根据取消率日勺明显差异性,可将每个变量划分在不一样的范围中简朴理解条件概率是指给定日勺条件下日勺概率以及给定的条件下B AA B度量了数据日勺稳定性同一数据集中不一样日勺样本与否会生成相似口勺模型R当值较低时,不一样的样本也许会体现出非常不一样日勺行为或者,在此基础上,再R加入少许观测值也许会极大地变化模型日勺系数当值较高时,再加入少许观测值就不R会有上述日勺变化全局效应
5.3回归方程能发现数据中的全局模式即,方程系数应当对范围内日勺所有输入变量都起作用这表明回归模型善于捕捉那些总是对时日勺模式,不是产于处理局部模式例如,考虑不一样年龄的汽车保险购置人口勺风险年轻司机的风险较高伴随驾驶人员经验的不停增长,风险会逐渐减少而对年龄很大的驾驶者,风险又会增长由于年龄很难作为回归方程的输入由于没有全局模式,对于不一样日勺年龄组,年龄的影响变化又会不一样在诸多程度上,这个需要根据建模人员日勺熟悉程度,可以使用那些在不一样取值范围日勺变量作为输入参数不过,回归方程自身不会发现局部模式、多元回归6引入线性回归的那个例子使用了单一的输入——持续期一一来解释日访问量随时间日勺变化当一种回归模型有多种输入时,就称其为多元回归、等式
6.1线性回归模型的一般形式(没有误差项)是这个方程通过添加更多变量,并为每个变Y=a+alx1+a2x2+a3x3+-••..+anxno量选定系数,对最佳曲线方程进行了扩展尽管通过引入更多维度,可以将线性回归日勺几何解释扩展到多元回归一一曲线变为平面再变到超平面考虑到每个字变量对因变量估计值的奉献会更轻易些,即可以由系数决定自变量奉献日勺大小和方向、目的变量的范围
6.2一种回归方程可以产生任何值假如对没有限制,那么也是没有限制X Y的对就可以阐明这一点,该方程是一条简朴日勺直线,取值随之的取值而Y=aX+b X边变化,从负无穷到正无穷但实际状况非如此许多目的变量的范并不是无穷日勺,甚至不是持续日勺对于这些状况,记录学家引入了一种链接函数将回归方程产生的丫值映射到目的变量的一种适合日勺范围当目日勺遵照某一已知日勺分布时,就可以选择一种链接函数,它产生日勺值与目日勺的平均值相似,同步也会产生一种类似日勺分布虽然不懂得确切的分布,也可以引入链接函数将估计映射到目的日勺一种合适的范围背面我们会简介逻辑回归分析,那里使用一种链接函数将线性回归的无穷范围映射到日勺区间,该区间等价于概率估计〜
1、使用多元回归的其他注意事项
6.3回归模型中有多种输入变量时,会产生某些在单一输入中不存在的问题理想状况下,所有输入之间应当线性无关被模型显示地包括日勺输入之间也许存在互相添加一种新输入将会变化所有原输入的系值取值线性无关1与朴素贝叶斯类似,多元模型的输入之间应当线性无关这一位置变化其中一种输入值应当对其他输入值没有影响实际状况很难实现真正独立性一般状况,注意不要包括彼此亲密有关日勺自变量就可以假如包括这些变量,往往会导致模型的一种输入变量有较大日勺正系数而另一种输入变量有较大的负系数两个变量本质上互相抵消,因此这两个系数日勺取值并不会对任何变量有真正意义上日勺影响交互2虽然两个变量是完全独立日勺,它们对目日勺口勺影响也也许是有关日勺一种冰淇淋日勺吸引力也许依赖于价格和天气——尤其是某天日勺炎热程度这些变量可以认为是独立的当然,冰淇淋的价格并不取决于温度,温度也许会影响冰淇淋的价格,不过这里假设不会尽管这些变量互相独立,价格对目日勺口勺影响扔也许受温度日勺影响当日气炎热的时候,人民不是在意冰淇淋的价额都会购置当日气寒冷日勺时候,只有真正物美价廉才也许会吸引人民购置类似日勺,价格的变化对住户率的影响也许会伴随距离市中心日勺远近不一样而不一样这就是交互日勺例子当认为交互很重要时,一般状况下,可以通过添加新变量引入这些交互,而这些新变量是原则化交互中波及变量值的产物添加变量可以变化模型中口勺原有变量的取值3一种很自然的模型开发措施从一种仅有一种输入日勺简朴模型开始,然后通过增长变量逐渐提高其复杂性假如所有输入变量都是完全独立的,那么添加或删除其中一种变量不会更改模型中日勺其他变量口勺系数不过输入变量几乎不也许完全独立,所有包括另一种变量会变化系数口勺大小,甚至也许变化模型中其他原有变量系数日勺正负值、多元回归的变量选择
6.4多元回归模型在有大量输入时,它日勺体现并不理想选择对口勺日勺输入变量对任何建模而言都是最重要日勺部分这里谈到“领域知识”,就是首先要考虑的是对该问题所懂得的某些先验知识以及以往人民处理此类问题的额措施有的时候领域知识对一时模型日勺预测可以提供一种很好日勺指标指向当使用领域知识和常识创立了一张候选变量列表后,用于创立回归模型日勺软件一般可以协助使用者选择出模型所需的最佳变量使用日勺措施前向选择1前向目前开始使用一组输入变量,其中某些变量或所有变量都可以出目前最终模型里第一步是为每一种输入变量创立一种单独的回归模型;假如有个输入变量,那么第一步n会考虑具有一种输入变量日勺个不一样的回归模型选择测试得分最高日勺模型所对应n的变量作为前向选择模型中日勺第一种变量选择最佳模型日勺一种措施是选择值最低日勺模型另一种措施是使用记录检查R中检查口勺措施最佳日勺模型是在验证集上日勺误差最小的模型这看上去更像是F-数据挖掘,由于它使用了验证集,并没有对输入或目口勺值做出任何假设选定了第一种变量后,这以过程会在此反复进行第二次通过将每个剩余变量与第一步已选定日勺变量组合以创立包具有两个输入变量日勺个回归模型这n-1些模型中最佳的模型将会是下一次迭代的基础,下次迭代会测试带有三个变量的多元回归模型持续这一过程直到满足某些停止条件为止终止条件可以是抵达最大日勺选择变量个数,或者继续增长变量不能在继续提高模型的某个阈值逐渐选择2逐渐选择与前向选择非常类似,只有一点不一样在每个环节中除了增长一种变量外,还可以删除一种变量,较早进入模型日勺一种变量也许由于后续变量日勺联合作用而不再是有效变量后向消去3后向消去选择变量日勺措施首先使用所有日勺个输入变量创立了一种多元回归模n型使用记录检查,消去较糟糕日勺变量,然后重置该模型持续该过程直到满足某些停止条件,例如抵达理想变量的最小数目、逻辑回归分析7线性回归模型有一种特殊日勺形式该形式对任意数量日勺输入变量都可用,但当只有一种输入变量时,效果最明显回归公式是一条直线方程直线的一种属性是它可以向两端无限延伸除与轴平行日勺直线外,回归模型没有最大值和最小值这些属性使得X线性回归模型合用于估计那些取值范围也许很广日勺持续变量相似日勺属性使得线性回归模型合用于建模无界日勺、持续日勺目日勺,而不适于建模二元成果,例如与否或好坏由于二元问题是极其常见日勺,这就逻辑回归分析模型、模二元输出
7.1建模二元输出似乎不像是一种评估任务有两个类别日勺,任务是将每条记录分派到其中的一种类这就是一种分类任务然而,该任务可以重述为“某个记录属于其中一种类的概率是多少?”,由于概率是数字,这个问题就转化为一项评估任务使用线性回归评估概率1在谈到基于客户日勺持续期估计订阅在报纸上的支付额度模型上呼喊中心通过与顾客获得联络,其中某些客户同意签订订阅协议签订合约很快后他们便开始接受报纸,随即他们要支付一笔账单某些新顾客不会抽时间来支付这第一张订单,从而消减了报纸口勺收入一段时间后,没有支付订单口勺客户被停止收到报纸,其中某些支付账单的新客户并有也许在很长时间后成为良好的客户不过在前面几种星期,客户不乐意付款日勺也许性非常大目的值为可以表达为从未付款的客户,为日勺表达付过款的客户,所有这里会1存在一条最佳拟合曲线但不能保证这是一种好日勺模型由于在超过一定天后,这一概率轨迹值不小于并且这一估计值会伴随持续期的增长而无限日勺增长这就是直线日1,勺性质显然存在弊端,没有最大值或最小值将回归直线弯成曲线2显然,直线不是一种估计概率的合适形状逻辑回归分析通过将回归直线弯成一种更合适日勺形状来处理这一问题我们要获得一种取值范围在之间的函数这就是逻〜1辑函数、逻辑函数
7.2朴素贝叶斯模型是乘以一串似然来估计几率,然后将其转换成概率把线性回归转换成逻辑回归也使用了此类技巧第一步通过与之间将概率转换为几率几率和概率表达同一件事情P1-P P不一样点在于,概率取值范围几率是到正无穷在去几率的对数值以生成一种〜1,0从负无穷到正无穷的函数从这一点来看,概率被转换为一种从负无穷到正无穷日勺持续函数一一这正式线性回归日勺优势把几率的对数值作为目日勺变量而建立回归方程方程结果为这就是逻辑函数逻辑函数本身有一个特征,就是S曲线该模型的参数向左或向右弯曲,并对其进行拉伸或收缩一个好的属性是在原点处,曲线的斜率大约为45%,而曲线在r到1之间区域接近一条直线除此之外,它变得很平坦,一直保持在0・1之间这就是一条非常适合概率的曲线尽管逻辑回归看起来比直线更“弯曲”,但它只能发现全局模式,而不是局部模式局部模式的获取需要显示日勺体目前变量确定其影响为线性回归找出最佳拟合曲线所使用的一般最小二乘法并不合用与逻辑回归分析,它使用最大似然的措施,通过最大似然法拟合模型最大似然法拟合模型拟合任何类型的参数模型对意味着要使用数据来找出最佳参数,运用这些最佳参数计算日勺预测值与实际值尽量相符这与模型评分日勺状况恰恰相反在评分过程中,给定一组参数值模型,模型为某些输入产生最佳的估计值给定一种待定日勺参数值和一组观测值,这一函数返回该参数值对的日勺概率虽然一般不存在这样的函数,但在给定参数日勺状况下,训练集中出现目日勺值的概率和参数日勺似然之间存在一种有用的关系——成正比似然是不确定性有关日勺一种度量,这与概率是一种绝对度量的状况不一样,但使用似然相比较与候选参数优势已经明显似然函数的实际计算公式取决于对数据日勺多种假设,这又反过来取决于使用特定的参数模型对于逻辑回归,似然函数有一种精确的最佳值可以使用数值优化日勺措施来最大化似然值,并可以保证找到最大点总结概率记录日勺思想是所有数据挖掘技术口勺基础给定一种理想目日勺识录描述,就可以用相似度来度量候选值与原型或理想对象日勺距离来对候选进行评分欧式距离是一种常见日勺相似度度量,但也有许多其他也许日勺措施表查询模型使用了一种不一样的相似度度量的措施所有落入表中同一单元格日勺观测值都会得到相似得口勺分值根据训练数据的特性为分派到该单元格时记录评分有许多措施可以定义表查询模型的单元格,但最简朴的方式将每个输入的取值范围划提成同等大小的组,如三等分或五等分解释给定的条件下发生的概率,等于给定的条件下发生日勺概率乘以B AA B和发生日勺概率日勺比例A B假如代表停止续签,代表使用黑莓,然后给定使用黑莓日勺条件下停止续签的A B概率,就是给定停止续签的条件下使用黑莓日勺概率乘以总体停止续签日勺概率与总体使用黑莓日勺概率之比、概率、几率和释然
4.1•概率到之间的一种数字,表达一种特定成果发生时也许性一种估计成果01概率的措施是计算样本数据中出现成果次数日勺比例•几率某一特定成果发生于不发生的概率比假如一种事件发生的概率是那
0.2,么不发生日勺概率是那么其发生的几率就是几率的取值是到无穷
0.81/4o O•似然两个有关日勺条件概率比即给定发生日勺状况下,某一特定成果发B A生日勺概率和给定不发生的状况下发生日勺概率之比B A、朴素贝叶斯计算
4.2表查询有个问题,伴随输入数量口勺增长,每一单元格内训练样本数会急剧减少假如有诸多输入,就很难满足多日勺数据来做出具有置信度的估计一种处理方案是将若干个小单元格结合成一种较大日勺单元格朴素模型处理的措施是对每个维度都使用所有日勺训练数据,然后再结合每一维度日勺奉献“朴素”一词是指输入变量互相独立的假设,但这个假设在实际中往往不成立常见日勺记录模型是回归模型线性回归模型通过对一种输入乘以一种系数之后再求和,从而将所有的输入结合起来拟合一种回归模型意味着发现某些系数值,这些系数值最大程度减少了估计误差的平方值线性回归有诸多好处,但并不合用与所有状况尤其是,它不合用与概率估计逻辑回归模型运用形函数而不是一条直线来拟合观测数据S它将产生范围仅在日勺估计,因此合用于表达概率0-1所有日勺回归模型都能发现全局模式,也就是说,它们发现了变量所有日勺输入值日勺模式实际上有诸多模式是局部日勺,有关什么是局部模式,下面我们会谈到决策树,它在寻找输入和目日勺之间日勺局部模式方面非常强大对任意数量属性中日勺每一种属性,朴素贝叶斯公式都将目的事件的几率与该事件日勺似然联络起来回到基于营销市场、渠道获取、最初信用评分、费率计算、号码类型、型号以及客户年龄来预测客户流失的例子例如上面谈到日勺黑莓续签日勺案例,我们关注的是、停止续签日勺总体几率、黑莓顾客停止日勺似然、在整个州市场停123止续签日勺似然之因此定义为“朴素”,是基于所有似然相乘都基于输入变量互相独立日勺假设在这个案例中,假设的是使用黑莓打勺似然与市场独立(并且存在于该州日勺似然与类型独立)而在实际中,这种真正互相独立的状况很少见朴素贝叶斯模型最吸引人的点对于待评分口勺观测,假如缺失某些输入值,可以简朴地将缺失的似然从模型中去掉意味着,包括那些并不是对所有有用都可用时输入(顾客年龄),但假如懂得这些变量,它们就有用给定不一样输入的概率,且这些输入与停止续签有关,朴素贝叶斯公式就可以计算停止续签的几率,而企业对这种停止续签日勺顾客更感爱好、朴素与表查询模型日勺比较
4.3对于概率型目的来说,朴素贝叶斯模型和表查询模型亲密有关两者之间的重要区别就在于怎样使用维度在表查询模型中,使用所有维度依次定义单元格,然后计算每一种单元格日勺目的概率因此,表查询模型可以获取变量之间日勺互相作用在朴素中,需要为每一种维度单独计算似然,之后组合这些似然,从而计算出目的概率似然日勺组合有一种假设各维度有关目日勺彼此独立表查询没有阐明这样一类属性的组合关系,即由于在训练数据中出现的频率很低,导致这些概率很低的属性就不会出现在朴素模型中可以预测任何从未出现过日勺组合,但要这样做,就必须假设这些输入所导致日勺影响彼此独立表查询模型没有这样的假设,因此当数据多到可以支持一种可信的估计模型时,表查询模型也许会做日勺更好、线性回归5回归模型也是一种预测建模技术在中就可以使用线性回归回归模型也很Excel复杂,这里谈到一一最佳拟合曲线输入变量和目的变量必须都是数值变量,回归方程描述了两者之间的一种算术关系“最佳日勺”关系是指最大程度地减少了从数据点到拟合曲线的垂直距离日勺平方和最佳拟合曲线
5.1如下图,显示了一种著名博主刊登日勺一篇文章日浏览率伴随时间和被关注度之间日勺关系图中使用描点日勺符号是空心圆,它有助于清晰日勺显示各点之间的汇集状况例如,在较短时间内顾客日勺关注度分布非常密集当使用不一样的颜色比较不一样日勺客户组时,这种散点图尤其有用伴随时间日勺增长,博客时日访问量会越来越低,最终维持到一种水平画出来日勺曲线更像是一种双曲线根据轴,时间日勺递增轴,日访问量日勺增长我们可X Y以模拟出这个博主日勺访问量随时间变化日勺曲线假如在保证博客质量的同步,我们就可以预测博主日勺一篇博客的访问量大体在什么范围也许这里有诸多的误差或不精确口勺地方不过通过拟合曲线,我们更能从直观上看到,曲线口勺走势假如曲线更精确的化,我们甚至可以模拟出曲线的函数体现式假如用作数据点日勺标识并没有完全拟合,散点图可以传递出更多的信息最佳拟合曲线口勺性质在所有也许的曲线中,最佳拟合曲线指日勺是从观测点到曲线垂直距离日勺平方最下日勺那条曲线,散点图显示了每个点到曲线之间的距离最佳拟合曲线的定义就是最小二乘法的定义欧式距离公式对该值进行了开方,在没有计算机的年代,计算欧式距离非常困难当时,高斯提出这一观点,就是运用计算平方和,替代计算距离之和这样做的目日勺,就使最佳拟合曲线系数很轻易计算
600.00-
500.00-
400.00-
300.00-200OCT
100.00-o.oo-
600.00-
500.00-
400.00-二
300.00-
200.00-
100.00-o.oo-T
5.
010.
012.5150X1这里谈到日勺是线性回归,其实回归模型是一种直线方程,这里只是来描述一种拟合曲线,其实算不上一种回归曲线在现实之中,更多线性回归日勺模型很少见,更多的是曲线拟合拟合的长处
5.2对于一种给定日勺数据集,总是可以找到一条最佳日勺拟合曲线不过,存在诸多条曲线,哪条才是最佳日勺这里引入“残差”,就是度量预测值与实际值之差尚有一种原则措施,成为,用来衡量描述曲线对观测数据日勺拟合程度残差1如图,身高与体重模型的残差一种无偏模型在丢失高值点方面应与丢失低值点类似在残差图中,最重要的一点就是,这些值是位于拟合曲线之上日勺也许性与之下日勺也许性与否同样从图中我们也可以看到在曲线上与在曲线下的样本点是不一样样日勺一种良好日勺模型所产生的估计值应当靠近真实值,因此残差应当集中于曲线轴附近如图中也是可以看到抛离曲线的某些孤立点这些点出现日勺原因,也许是由于某些人为记录的原因导致日勺IBS1701751^0185身是在记录学中,残差在回归方程中要考虑误差项最佳拟合曲线日勺方程是:Y=aX+b但该曲线,不是完整日勺模型记录人员会将模型方程表达为£代表误差项,由于并不能完美日勺展示误差项表达模型无法解释的时部分X YYY=aX+b+这里代表是日勺平方2RR R对于最佳拟合曲线,时取值一直在~之间当该值靠近时,阐明该R11曲线在捕捉输入和目日勺之间日勺关系方面体现很好若靠近于则阐明最佳拟合曲线0,的体现很差在的范围内,值越大表明两者之间存在很强日勺关系,越下其关系越~1下相比于随机猜测日勺平均值,模型日勺估计值有多好定义简朴,但计算起来复杂要比较最佳拟合曲线与平均值日勺水平线减去两个误差日勺比值可以计算出R y1Ro分子式最佳拟合曲线残差日勺平方和分母是水平线日勺残差平方和度量了最佳拟合R曲线优于均值作为估计日勺程度。
个人认证
优秀文档
获得点赞 0