还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习模型评估本次课件将深入探讨机器学习模型评估的核心概念、常用方法以及实践技巧我们将从模型评估的重要性出发,逐步讲解各类评估指标,并结合实际案例,帮助您掌握模型选择与优化的关键技能通过本课程,您将能够更准确地评估模型性能,为机器学习项目的成功奠定坚实基础课程目标1理解模型评估的重要性2掌握常用评估方法和指标模型评估是机器学习流程中不可或缺的一环,它能够帮助我我们将系统地介绍留出法、交们了解模型的性能表现,从而叉验证法、自助法等常用评估判断模型是否能够满足实际需方法,以及准确率、精确率、求同时,评估结果还能为模召回率、F1分数、AUC等关键型的优化提供方向,提升模型评估指标通过学习,您将能的泛化能力够根据不同的问题类型和数据特点,选择合适的评估方法和指标3学会选择合适的评估策略模型评估并非一蹴而就,而是一个迭代优化的过程我们将探讨如何根据评估结果,调整模型参数、选择合适的模型结构,并最终制定出有效的评估策略,确保模型在实际应用中表现出色目录模型评估概述介绍模型评估的定义、重要性以及核心问题评估方法详细讲解留出法、交叉验证法和自助法等评估方法分类问题评估指标深入剖析准确率、精确率、召回率、F1分数、ROC曲线和AUC等指标回归问题评估指标涵盖平均绝对误差、均方误差、均方根误差、决定系数和调整R²等指标模型评估概述
1.评估的必要性核心问题评估流程模型评估是确保机器学习项目成功的关在模型评估过程中,我们需要关注泛化一个完整的模型评估流程包括数据划分键步骤它不仅能够帮助我们了解模型能力、过拟合与欠拟合,以及评估指标、模型训练、性能度量和结果分析等环的真实性能,还能指导我们进行模型优的选择等核心问题只有深入理解这些节每个环节都至关重要,需要我们认化,避免过拟合或欠拟合等问题问题,才能做出合理的评估决策真对待为什么需要模型评估?衡量模型性能模型评估最直接的作用就是衡量模型在特定数据集上的性能表现通过评估,我们可以了解模型是否能够准确地预测未知数据比较不同模型在面对同一个问题时,我们可能会尝试不同的模型模型评估可以帮助我们比较这些模型的优劣,选择最合适的模型防止过拟合过拟合是指模型在训练数据上表现很好,但在测试数据上表现很差模型评估可以帮助我们检测过拟合现象,并采取相应的措施进行避免指导模型优化模型评估的结果可以为模型的优化提供方向例如,如果模型在某些类别上的预测效果不佳,我们可以针对这些类别进行改进模型评估的核心问题过拟合vs欠拟合过拟合是指模型过于复杂,导致在训练数据上表现很好,但在测试数据上表现很差;欠拟合是指模型过于简单,导致2在训练数据和测试数据上都表现不好泛化能力我们需要找到一个平衡点,使模型既能泛化能力是指模型在未见过的数据上的1充分学习训练数据,又能避免过拟合表现能力一个好的模型应该具有较强的泛化能力,能够适应各种不同的数据评估指标的选择情况不同的问题类型和数据特点需要选择不同的评估指标例如,对于类别不平衡3问题,准确率可能不是一个好的选择,而应该考虑使用精确率、召回率或F1分数等指标评估的基本流程数据划分1将原始数据集划分为训练集和测试集训练集用于训练模型,测试集用于评估模型的性能模型训练2使用训练集训练模型,调整模型参数,使模型能够尽可能好地拟合训练数据性能度量3使用测试集评估模型的性能,计算各种评估指标,例如准确率、精确率、召回率等结果分析4分析评估结果,判断模型是否满足实际需求,并根据结果调整模型参数或选择其他模型评估方法
2.留出法交叉验证法将数据集随机划分为训练集和测将数据集划分为K个子集,每次试集,使用训练集训练模型,使使用K-1个子集训练模型,使用用测试集评估模型性能剩余的子集测试模型性能,重复K次并取平均结果自助法通过有放回的采样生成新的训练集,使用未被采样的样本作为测试集留出法Hold-out原理优点缺点留出法是最简单也是最常用的评估方法留出法的优点在于其简单直观,易于理留出法的缺点是评估结果容易受到数据之一它的原理是将原始数据集随机划解和实现它不需要复杂的计算过程,划分方式的影响如果训练集和测试集分为两个互斥的集合训练集和测试集可以快速地评估模型的性能的数据分布不一致,或者划分比例不合训练集用于训练模型,而测试集则用理,可能会导致评估结果出现偏差于评估模型在未见过的数据上的表现留出法注意事项1合理划分比例(通常7:3或2保持数据分布一致性3多次随机划分取平均8:2)为了保证评估结果的可靠性,需要为了减小数据划分方式对评估结果训练集和测试集的划分比例需要根尽量保持训练集和测试集的数据分的影响,可以进行多次随机划分,据具体情况进行调整一般来说,布一致例如,在分类问题中,应每次划分都得到一个评估结果,然训练集应该占较大的比例,以保证该保证训练集和测试集中各个类别后取平均值作为最终的评估结果模型能够充分学习数据的特征常的样本比例大致相同见的划分比例包括7:3和8:2交叉验证法Cross ValidationK折交叉验证留一法重复性K折交叉验证K折交叉验证将数据集分成K个大小相似留一法是K折交叉验证的一个特例,即K为了进一步减小评估结果的偏差,可以的互斥子集,每次用K-1个子集训练,剩等于数据集的大小每次只用一个样本将K折交叉验证重复多次,每次重复都使下的一个子集测试,重复K次,取平均结作为测试集,剩下的样本作为训练集用不同的随机划分方式果折交叉验证K
1.将数据集分成K个子集首先,将原始数据集随机划分为K个大小相似的互斥子集,每个子集都可以作为一次测试集
2.每次用K-1个子集训练,1个子集测试每次选择K-1个子集作为训练集,用于训练模型;然后选择剩下的一个子集作为测试集,用于评估模型的性能
3.重复K次,取平均结果重复上述步骤K次,每次都选择不同的子集作为测试集最终,将K次评估结果取平均值,作为模型的最终性能评估结果交叉验证的优缺点优点缺点•充分利用数据所有样本都既被用作训练数据,也被用作测•计算开销大需要进行K次模型训练和评估,计算开销较大试数据,避免了数据浪费,特别是对于大型数据集和复杂模型•结果更稳定可靠多次评估取平均值,减小了数据划分方式对评估结果的影响,使结果更稳定可靠自助法Bootstrap原理优点缺点自助法是一种基于有放回采样的评估方自助法适用于小数据集,能够有效地利自助法改变了初始数据分布,可能会引法每次从原始数据集中随机抽取一个用数据同时,由于是有放回采样,可入一定的偏差同时,测试集中的样本样本,然后放回,重复N次(N为原始数以减小数据分布改变带来的影响比例较低,可能会导致评估结果不够准据集的大小),得到一个大小为N的新的确数据集,作为训练集原始数据集中未被抽到的样本则组成测试集分类问题评估指标
3.混淆矩阵用于展示分类结果的矩阵,包括真正例、假正例、真负例和假负例等指标准确率预测正确的样本占总样本的比例,简单直观,但不适用于类别不平衡问题精确率预测为正例的样本中真实正例的比例,强调减少假阳性召回率真实正例中被正确预测的比例,强调减少假阴性混淆矩阵Confusion Matrix预测为正例预测为负例真实为正例真正例TP假负例FN真实为负例假正例FP真负例TN混淆矩阵是评估分类模型性能的重要工具它将模型的预测结果与真实标签进行对比,统计出真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)的数量通过混淆矩阵,我们可以更全面地了解模型的分类能力,并计算出各种评估指标,例如准确率、精确率和召回率等准确率Accuracy定义优点缺点准确率是指模型预测正确的样本占总样准确率的优点在于其直观易懂,能够快准确率的缺点是不适用于类别不平衡问本的比例,计算公式为TP+TN/TP速地评估模型的整体性能题当某个类别的样本数量远大于其他+TN+FP+FN类别时,即使模型将所有样本都预测为该类别,也能获得较高的准确率,但实际上模型的性能可能很差精确率Precision定义含义应用精确率是指预测为正例的样本中,真实精确率衡量的是模型预测的正例中有多精确率的应用场景是强调减少假阳性,正例的比例,计算公式为TP/TP+少是真正正确的,反映了模型预测的准即尽量避免将负例预测为正例例如,FP确程度在垃圾邮件过滤中,我们需要尽量保证被识别为垃圾邮件的邮件действительно是垃圾邮件召回率Recall定义含义应用召回率是指真实正例中被正确预测的比召回率衡量的是模型能够正确识别出多召回率的应用场景是强调减少假阴性,例,计算公式为TP/TP+FN少真实的正例,反映了模型捕捉正例的即尽量避免将正例预测为负例例如,能力在疾病诊断中,我们需要尽量保证所有患病的人都被诊断出来分数F1定义含义应用F1分数是精确率和召回率的调和平均,F1分数综合考虑了精确率和召回率,能F1分数的应用场景是需要平衡精确率和计算公式为2*Precision*Recall/够更全面地评估模型的性能当精确率召回率例如,在信息检索中,我们既Precision+Recall和召回率都比较高时,F1分数也会比较希望检索结果尽可能准确,又希望能够高尽可能多地检索到相关信息曲线ROC全称横轴纵轴特点ROC曲线的全称是Receiver ROC曲线的横轴是假正例率ROC曲线的纵轴是真正例率ROC曲线的特点是不受类别Operating Characteristic,中FPR,计算公式为FP/TPR,计算公式为TP/不平衡影响,能够更客观地文译为受试者工作特征曲线FP+TN TP+FN,也就是召回率评估模型的性能AUC AreaUnder Curve定义含义应用AUC是指ROC曲线下面的面积,取值范AUC的含义是随机选择的正样本排序高AUC常用于比较不同模型的性能一般围为[
0.5,1]于随机负样本的概率AUC越大,说明来说,AUC越大的模型,性能越好模型的性能越好曲线PR全称横轴纵轴应用PR曲线的全称是Precision-PR曲线的横轴是召回率PR曲线的纵轴是精确率PR曲线的应用场景是类别严Recall曲线,中文译为精确率重不平衡问题当正例样本-召回率曲线数量远小于负例样本数量时,PR曲线能够更有效地评估模型的性能多分类问题评估宏平均Macro-average微平均Micro-average加权平均Weighted-average先计算每个类别的评估指标,然后对所先将所有类别的混淆矩阵进行累加,然先计算每个类别的评估指标,然后对所有类别的评估指标取平均值后根据累加的混淆矩阵计算评估指标有类别的评估指标进行加权平均,权重为每个类别的样本数量占总样本数量的比例回归问题评估指标
4.平均绝对误差MAE衡量预测值与真实值之间平均绝对差异的指标均方误差MSE衡量预测值与真实值之间平方差异的平均值的指标均方根误差RMSE均方误差的平方根,更易于理解和解释决定系数R²衡量模型解释数据方差能力的指标平均绝对误差MAE定义特点单位平均绝对误差是指预测值与真实值之间平均绝对误差的特点是对异常值不敏感平均绝对误差的单位与因变量相同,易绝对误差的平均值,计算公式为Σ|y-ŷ|,因为它只考虑了误差的绝对值,而没于理解和解释/n,其中y表示真实值,ŷ表示预测值,n有考虑误差的方向和大小表示样本数量均方误差MSE定义特点单位均方误差是指预测值与真实值之间平方均方误差的特点是放大了大误差的影响均方误差的单位是因变量单位的平方,误差的平均值,计算公式为Σy-ŷ²/n,因为它对误差进行了平方处理因此不易于理解和解释,其中y表示真实值,ŷ表示预测值,n表,均方误差对异常值比较敏感示样本数量均方根误差RMSE定义特点应用均方根误差是均方误差的平方根,计算均方根误差的特点是可解释性强,单位均方根误差常用于模型比较,RMSE越小公式为√Σy-ŷ²/n,其中y表示真实与因变量相同,易于理解和解释同时的模型,性能越好值,ŷ表示预测值,n表示样本数量,它也放大了大误差的影响,对异常值比较敏感决定系数R²定义范围缺点决定系数是指模型解释的方差比例,计决定系数的范围是-∞,1],R²越接近1,决定系数容易受异常值影响,当数据集算公式为1-SSres/SStot,其中SSres说明模型解释的方差比例越高,模型的中存在异常值时,决定系数可能会偏高表示残差平方和,SStot表示总平方和性能越好调整R²Adjusted R²特点用途公式调整R²考虑了特征数量,能够惩罚过多调整R²用于比较不同特征数的模型,Adjusted R²=1-[1-R²n-1/n-p-1],n的特征,避免模型过拟合adjusted R²越大,说明模型性能越好是样本量,p是特征数量平均绝对百分比误差MAPE定义优点缺点平均绝对百分比误差是指预测值与真实平均绝对百分比误差的优点是可比性强平均绝对百分比误差的缺点是当实际值值之间绝对百分比误差的平均值,计算,易理解,能够直观地反映模型的预测接近0时不稳定,可能会出现无穷大的情公式为1/n*Σ|y-ŷ/y|*100%,其精度况中y表示真实值,ŷ表示预测值,n表示样本数量模型选择与调优
5.模型选择选择泛化能力最强的模型,避免过拟合和欠拟合,平衡计算效率和模型复杂度过拟合与欠拟合过拟合是指模型在训练数据上表现很好,但在测试数据上表现很差;欠拟合是指模型在训练数据和测试数据上都表现不好偏差-方差权衡偏差是指模型预测值与真实值的偏离程度,方差是指模型预测值的波动程度我们需要权衡偏差和方差,降低总体误差超参数调优选择最优超参数,提高模型性能模型选择的目标泛化能力最强模型选择的首要目标是选择泛化能力最强的模型,即在未见过的数据上也能表现良好的模型避免过拟合和欠拟合我们需要避免选择过拟合或欠拟合的模型过拟合的模型在训练数据上表现很好,但在测试数据上表现很差;欠拟合的模型在训练数据和测试数据上都表现不好计算效率和模型复杂度的平衡在选择模型时,还需要考虑计算效率和模型复杂度的平衡一般来说,更复杂的模型需要更多的计算资源,并且更容易过拟合我们需要选择一个既能满足性能需求,又不会过于复杂的模型过拟合与欠拟合过拟合欠拟合平衡过拟合是指模型在训练数据上表现很好欠拟合是指模型在训练数据和测试数据我们需要找到一个平衡点,使模型既能,但在测试数据上表现很差这是因为上都表现不好这是因为模型过于简单充分学习训练数据,又能避免过拟合模型过于复杂,学习了训练数据中的噪,无法充分学习数据的特征,导致预测这需要选择合适的模型复杂度,并使用声和细节,导致泛化能力下降精度较低合适的正则化方法偏差方差权衡-方差方差是指模型预测值的波动程度方差2越大,说明模型的稳定性越差偏差1偏差是指模型预测值与真实值的偏离程权衡度偏差越大,说明模型的预测精度越我们需要权衡偏差和方差,降低总体误低差一般来说,更复杂的模型偏差较小,但方差较大;更简单的模型偏差较大3,但方差较小我们需要选择一个既能降低偏差,又能降低方差的模型学习曲线横轴纵轴用途学习曲线的横轴是训练样本数,表示用学习曲线的纵轴是性能指标,例如准确学习曲线可以用于诊断过拟合和欠拟合于训练模型的样本数量率、精确率、召回率等性能指标用于如果训练误差远小于测试误差,则说衡量模型在训练数据和测试数据上的表明模型过拟合;如果训练误差和测试误现差都很大,则说明模型欠拟合学习曲线还可以用于估计增加数据的收益如果增加数据能够显著提高模型的性能,则说明模型还有提升空间;如果增加数据不能显著提高模型的性能,则说明模型已经达到了最佳状态验证曲线横轴纵轴用途验证曲线的横轴是超参数取值,表示模验证曲线的纵轴是性能指标,例如准确验证曲线可以用于选择最优超参数,提型中需要手动设置的参数的取值范围率、精确率、召回率等性能指标用于高模型性能通过观察模型对超参数的衡量模型在训练数据和测试数据上的表敏感度,我们可以选择一个能够使模型现在测试数据上表现最好的超参数取值网格搜索Grid Search原理优点缺点网格搜索是一种穷举搜索最优超参数组网格搜索的优点是全面,能够找到所有网格搜索的缺点是计算开销大,特别是合的方法它将所有可能的超参数取值可能的超参数组合中的最优解当超参数的数量较多或取值范围较大时进行组合,然后对每种组合进行评估,,计算时间可能会非常长选择性能最好的组合作为最优超参数组合随机搜索Random Search原理优点缺点随机搜索是一种随机采样超参数组合的随机搜索的优点是效率高,易并行,能随机搜索的缺点是可能错过最优解,因方法它从所有可能的超参数取值中随够快速地找到较好的超参数组合为它只采样了部分超参数组合,而没有机抽取一部分进行组合,然后对每种组对所有组合进行评估合进行评估,选择性能最好的组合作为最优超参数组合贝叶斯优化原理优点步骤贝叶斯优化是一种基于先验知识建立超贝叶斯优化的优点是效率高,适合昂贵贝叶斯优化包括以下步骤
1.定义超参参数-性能模型的方法它通过迭代优化的评估任务,例如深度学习模型的超参数的搜索空间;
2.选择一个先验模型;,平衡探索与利用,最终找到最优超参数调优
3.使用先验模型选择下一个要评估的超数组合参数组合;
4.评估超参数组合的性能;
5.更新先验模型;
6.重复步骤3-5,直到达到停止条件集成学习Bagging Boosting通过对训练数据进行有放回的采通过迭代的方式,逐步构建多个样,构建多个基学习器,然后对基学习器,每个基学习器都关注基学习器的预测结果进行平均或前一个基学习器预测错误的样本投票,从而降低方差,从而降低偏差Stacking通过组合多个不同的模型,提高模型的整体性能Stacking首先使用多个基学习器对训练数据进行预测,然后将基学习器的预测结果作为新的特征,训练一个元学习器,用于对基学习器的预测结果进行组合特征选择过滤法包装法嵌入法根据特征与目标变量之间的相关性,以模型的性能为评价标准,选择能够将特征选择嵌入到模型的训练过程中选择相关性较高的特征常用的过滤提高模型性能的特征常用的包装法,在训练模型的过程中自动进行特征法包括方差选择法、相关系数法、卡包括递归特征消除法和特征选择法等选择常用的嵌入法包括L1正则化和方检验法和互信息法等决策树等正则化L1正则化(Lasso)L2正则化(Ridge)弹性网络(Elastic Net)L1正则化通过在损失函数中添加L1范数L2正则化通过在损失函数中添加L2范数弹性网络是L1正则化和L2正则化的结合惩罚项,使得模型参数尽可能稀疏,从惩罚项,使得模型参数尽可能小,从而,既可以进行特征选择,又可以防止模而达到特征选择的目的防止模型过拟合型过拟合早停法Early Stopping原理步骤注意事项早停法是一种防止模型过拟合的方法早停法的步骤如下
1.将数据集划分为早停法需要合理设置停止条件,例如连它通过监控验证集性能,及时停止训练训练集、验证集和测试集;
2.使用训练续多个epoch内验证集性能没有提高的阈,避免模型在训练数据上过度学习集训练模型;
3.在每个epoch结束后,使值用验证集评估模型的性能;
4.如果验证集性能在连续多个epoch内没有提高,则停止训练实践案例
6.案例1信用卡欺诈检测介绍信用卡欺诈检测的数据集、评估指标选择、模型比较与分析案例2房价预测介绍房价预测的数据集、评估指标选择、模型比较与分析案例信用卡欺诈检测1数据集介绍评估指标选择模型比较与分析信用卡欺诈检测数据集包含信用卡交易由于数据集具有类别不平衡的特点,因可以使用不同的模型进行训练和评估,记录,目标是识别欺诈交易该数据集此准确率不是一个好的评估指标常用例如逻辑回归、随机森林和XGBoost等通常具有类别不平衡的特点,即欺诈交的评估指标包括精确率、召回率、F1分通过比较不同模型的性能,选择最合易的数量远小于正常交易的数量数和AUC等适的模型案例数据预处理1处理类别不平衡可以使用过采样、欠采样或SMOTE等方法处理类别不平衡问题特征工程可以对原始特征进行组合或变换,创建新的特征,提高模型的性能数据划分将数据集划分为训练集、验证集和测试集训练集用于训练模型,验证集用于选择超参数,测试集用于评估模型的最终性能案例模型训练与评估1逻辑回归随机森林XGBoost逻辑回归是一种简单且易于实现的分类随机森林是一种集成学习模型,具有较XGBoost是一种梯度提升树模型,具有模型,适用于处理线性可分的数据集高的准确率和鲁棒性,适用于处理各种很强的学习能力和泛化能力,适用于处类型的数据集理各种类型的数据集案例曲线比较1ROC通过绘制ROC曲线,可以直观地比较不同模型的性能AUC越大的模型,性能越好一般来说,XGBoost模型的AUC最高,其次是随机森林模型,最后是逻辑回归模型这表明XGBoost模型在信用卡欺诈检测任务中表现最好案例特征重要性分析1通过分析特征的重要性,可以了解哪些特征对模型的预测结果影响最大一般来说,交易金额、交易时间和交易地点等特征对信用卡欺诈检测模型的预测结果影响最大这表明这些特征是识别欺诈交易的关键信息案例房价预测2数据集介绍评估指标选择模型比较与分析房价预测数据集包含房屋的各种特征,常用的评估指标包括平均绝对误差、均可以使用不同的模型进行训练和评估,例如房屋面积、卧室数量、地理位置等方误差和均方根误差等例如线性回归、决策树和神经网络等,目标是预测房屋的价格通过比较不同模型的性能,选择最合适的模型案例数据预处理2缺失值处理可以使用均值填充、中位数填充或众数填充等方法处理缺失值异常值检测可以使用箱线图、散点图或聚类等方法检测异常值特征变换可以使用对数变换、标准化或归一化等方法对特征进行变换案例模型训练与评估2线性回归决策树神经网络线性回归是一种简单且易于实现的回归决策树是一种非线性回归模型,适用于神经网络是一种复杂的回归模型,具有模型,适用于处理线性关系的数据集处理各种类型的数据集很强的学习能力和泛化能力,适用于处理各种类型的数据集案例残差分析2通过绘制残差图,可以诊断模型的性能如果残差图呈现随机分布,则说明模型的性能较好;如果残差图呈现某种模式,则说明模型的性能较差,需要进行改进案例学习曲线分析2通过绘制学习曲线,可以诊断模型是否存在过拟合或欠拟合问题如果训练误差远小于测试误差,则说明模型过拟合;如果训练误差和测试误差都很大,则说明模型欠拟合模型部署与监控模型序列化将训练好的模型保存到磁盘上,以便后续使用A/B测试将新模型与旧模型进行A/B测试,比较它们的性能,选择性能更好的模型进行部署性能监控与报警对部署后的模型进行性能监控,如果模型性能下降,则及时报警,并采取相应的措施进行处理评估中的常见陷阱数据泄露过度乐观的交叉验证12在评估模型之前,需要确保测在使用交叉验证进行模型评估试集的数据没有被用于训练模时,需要注意避免过度乐观的型,否则会导致评估结果过于估计例如,如果在交叉验证乐观的过程中使用了整个数据集进行特征选择,则会导致评估结果过于乐观忽视业务背景3在评估模型时,需要结合具体的业务背景进行分析,选择合适的评估指标,并根据业务需求调整模型参数总结评估的重要性方法与指标的选择持续优化的过程模型评估是机器学习流我们需要根据不同的问模型评估并非一蹴而就程中不可或缺的一环,题类型和数据特点,选,而是一个迭代优化的它能够帮助我们了解模择合适的评估方法和指过程我们需要根据评型的性能表现,从而判标估结果,调整模型参数断模型是否能够满足实、选择合适的模型结构际需求,并最终制定出有效的评估策略扩展阅读•《机器学习》周志华•《The Elementsof StatisticalLearning》•scikit-learn文档QA谢谢!。
个人认证
优秀文档
获得点赞 0