还剩42页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习复习课件本课件涵盖机器学习基础理论和主要算法,专为计算机科学专业学生期末复习设计内容包含机器学习核心概念、主流算法的原理与实现、模型评估方法以及实际应用案例通过系统性的知识梳理,帮助学生建立完整的机器学习知识体系,掌握各种算法的优缺点和适用场景课件采用理论结合实践的方式,不仅介绍算法的数学原理,还分析其在真实场景中的应用效果每个章节都配有详细的算法对比分析,便于学生理解不同方法的特点和选择策略课程概述12机器学习基本概念和分类监督学习、无监督学习和强化学习深入理解机器学习的定义、发展历程以及三大学习范式的特掌握各类学习方法的原理、典型算法和应用场景点与区别34评估方法和模型选择策略算法实现和应用场景学习模型性能评估指标、交叉验证方法和超参数调优技术了解主流算法的工程实现和在不同领域的成功应用案例第一部分机器学习基础定义与应用领域发展历史学科关系机器学习是一门多领域交叉学科,涉及概从20世纪50年代的感知机模型到现代深度机器学习与人工智能、数据挖掘、模式识率论、统计学、逼近论、凸分析等数学分学习,机器学习经历了多次重要突破,每别等领域密切相关,是实现人工智能的重支其核心目标是设计和分析让计算机可次技术革新都推动了人工智能领域的快速要技术手段,也是大数据时代的核心技术以自动学习的算法发展机器学习定义算法自动改进数据驱动学习机器学习是一类能够通过经验自动通过分析大量历史数据,发现数据改进性能的计算机算法它不需要中隐藏的模式和规律,建立数学模显式编程就能从数据中学习规律,型来描述数据的内在结构,从而实并利用这些规律对新数据进行预测现对未知数据的准确预测或决策复杂问题求解特别适用于那些难以用传统确定性算法解决的复杂问题,如图像识别、自然语言处理、推荐系统等,是实现人工智能的重要技术路径机器学习分类监督学习无监督学习利用标记数据进行训练从无标记数据中发现模式•分类问题•聚类分析12•回归问题•降维技术•序列标注•关联规则强化学习半监督学习通过与环境交互学习策略结合标记和无标记数据43•策略梯度•标签传播•价值函数•生成模型•Actor-Critic•图方法机器学习方法三要素模型1假设空间,表示学习任务的数学形式策略2评价标准,如损失函数、风险函数算法3求解最优模型的数学方法机器学习方法的三要素相互关联,共同决定学习效果模型定义了学习任务的数学表示形式,策略确定了评价模型好坏的标准,算法则提供了求解最优模型的具体步骤理解三要素之间的关系有助于更好地选择和设计机器学习方法第二部分模型评估与选择1问题识别过拟合与欠拟合现象的识别与分析2指标选择根据任务类型选择合适的评估指标3验证方法交叉验证等可靠的模型验证策略4权衡分析偏差-方差权衡的理论与实践模型评估指标分类问题指标准确率、精确率、召回率、F1值等核心指标,用于评估分类模型的性能混淆矩阵提供了详细的分类结果分析,ROC曲线和AUC值则评估模型的整体分类能力回归问题指标均方误差(MSE)、平均绝对误差(MAE)、决定系数(R²)等指标,从不同角度衡量回归模型的预测精度和解释能力指标选择策略根据具体业务需求和数据特点选择最合适的评估指标对于不平衡数据集,F1值比准确率更能反映模型真实性能交叉验证方法留出法1直接划分训练集和测试集的最简单方法K折交叉验证2将数据分为K份,轮流作为验证集留一法3极端情况下的N折交叉验证方法自助法4使用Bootstrap采样技术的验证方法交叉验证是评估模型泛化能力的重要方法K折交叉验证通过多次训练和验证,能够更可靠地估计模型性能,减少因数据划分带来的偶然性影响不同的验证方法适用于不同的数据规模和计算资源条件偏差与方差偏差分析方差分析1模型预测值与真实值的系统性差异,反映模型预测的波动性,反映模型对训练数据2模型的拟合能力变化的敏感程度拟合状态权衡策略4识别过拟合与欠拟合,采用相应的改进措寻找偏差和方差之间的最佳平衡点,优化3施模型复杂度正则化技术L1正则化L2正则化弹性网络Lasso回归通过L1惩罚项产Ridge回归通过L2惩罚项实结合L1和L2正则化的优势,生稀疏解,自动进行特征选现权重衰减,有效防止过拟在特征选择和处理相关特征择适用于高维数据中筛选合能够处理多重共线性问之间取得平衡特别适用于重要特征,但可能导致相关题,但不会产生稀疏解特征数量大于样本数量的情特征中只保留一个况其他技术早停法通过监控验证误差提前停止训练,Dropout技术在神经网络中随机删除节点,都是有效的正则化方法第三部分线性模型线性回归最基础的回归模型,通过线性函数拟合数据,具有良好的解释性和计算效率逻辑回归线性模型在分类问题中的应用,通过Sigmoid函数将线性输出转换为概率线性判别分析既可用于分类也可用于降维的线性方法,通过最大化类间距离实现分类感知机模型最早的线性分类器,为后续神经网络的发展奠定了基础线性回归1模型表示线性回归模型采用y=wᵀx+b的数学形式,其中w为权重向量,b为偏置项这是最简单且应用最广泛的回归模型,具有良好的数学性质和解释能力2最小二乘法通过最小化残差平方和来估计参数,具有闭式解当特征矩阵满秩时,可以直接计算出最优参数,无需迭代求解3梯度下降优化当数据规模较大或特征矩阵不满秩时,采用梯度下降算法迭代求解包括批量梯度下降、随机梯度下降和小批量梯度下降等变种4多元扩展处理多个自变量的回归问题,需要考虑特征之间的相关性和多重共线性问题,可能需要特征选择或正则化技术逻辑回归Sigmoid函数最大似然估计将线性函数的输出映射到0,1区间,具有良好的概率解释函数形状呈S通过最大化样本的似然函数来估计参数由于似然函数的凸性,保证了全型,在中间区域变化较快,两端趋于平缓,适合表示概率分布局最优解的存在和唯一性,可以使用梯度下降等优化算法求解交叉熵损失多分类扩展逻辑回归的标准损失函数,能够有效惩罚错误分类相比于平方损失,交通过一对
一、一对多或多项逻辑回归等策略处理多分类问题Softmax回叉熵损失对于分类问题具有更好的收敛性和稳定性归是多项逻辑回归的常用实现,适用于多类别分类任务线性判别分析基本原理与PCA比较LDA通过寻找最佳投影方向,使得投影后的数据类间方差最大化,PCA是无监督的降维方法,只考虑数据的方差信息;而LDA是有监类内方差最小化这种方法既能实现降维,又能保持类别的可分性督的,利用类别标签信息寻找最有利于分类的投影方向在分类任务中,LDA通常比PCA具有更好的性能,因为它直接优化数学上通过求解广义特征值问题来找到最优投影方向,具有闭式解,分类目标但LDA要求各类数据服从高斯分布且协方差矩阵相同计算效率较高第四部分决策树1算法原理基于树形结构递归划分特征空间,每个内部节点表示特征测试,叶节点表示决策结果2特征选择使用信息增益、增益率或基尼指数等指标选择最优划分特征3树构建自顶向下递归分治构建完整决策树结构4剪枝优化通过预剪枝或后剪枝技术防止过拟合,提高泛化能力决策树基本原理树形结构以树的形式表示决策规则,直观易懂递归分治自顶向下递归构建,逐步细化决策边界特征选择每次选择最优特征进行数据划分决策输出叶节点给出最终分类或回归结果决策树通过一系列if-then规则对数据进行分类或回归预测构建过程从根节点开始,在每个节点选择最优特征进行数据划分,直到满足停止条件这种方法具有良好的可解释性,能够处理数值型和类别型特征,不需要特征缩放特征选择方法ID3C
4.5信息增益增益率基于信息熵概念,选择信息增益最大的特信息增益除以分裂信息,避免偏向多值特征征CART基尼指数衡量集合纯度,计算简单,适用于二分类不同的特征选择标准适用于不同的算法和场景信息增益容易偏向取值较多的特征,增益率通过归一化解决了这个问题基尼指数计算效率高,在CART算法中广泛使用选择合适的标准对决策树的性能有重要影响决策树剪枝后剪枝先构建完整树再剪枝2•错误率降低剪枝预剪枝•悲观错误剪枝在构建过程中提前停止•代价复杂度剪枝•限制树深度1剪枝效果•限制叶节点样本数有效减少过拟合•设置信息增益阈值•简化树结构3•提高泛化能力•增强可解释性决策树优缺点主要优点主要缺点•解释性强,规则清晰易懂•容易过拟合,特别是深树•计算效率高,训练和预测速度快•对训练数据变化敏感,稳定性差•能处理数值型和类别型特征•偏向于选择取值较多的特征•不需要特征缩放和预处理•难以处理特征间的线性关系•能够自动进行特征选择•在某些复杂数据上性能有限决策树在解释性和计算效率方面具有显著优势,适用于需要理解决策过程的场景但其容易过拟合和不稳定的特点限制了单一决策树的应用,这也促进了集成学习方法如随机森林的发展第五部分支持向量机核方法1处理非线性问题的核心技术软间隔SVM2处理噪声和不可分数据线性可分SVM3最大间隔分类器的基础理论支持向量机通过寻找最大间隔超平面实现分类,具有坚实的数学理论基础从线性可分的硬间隔到处理噪声的软间隔,再到使用核函数处理非线性问题,SVM形成了完整的理论体系其优秀的泛化能力和对高维数据的适应性使其在机器学习中占有重要地位线性可分SVM最大间隔原理1寻找距离各类样本最远的分离超平面支持向量2决定分离超平面的关键样本点对偶问题3转换为二次规划问题求解拉格朗日乘子4利用KKT条件求解最优参数线性可分SVM的核心思想是最大化分类间隔,这不仅能够正确分类训练样本,还能获得更好的泛化能力通过拉格朗日对偶变换,将原问题转化为更易求解的二次规划问题,同时揭示了只有支持向量对最终决策函数有贡献的重要性质软间隔SVM松弛变量C参数调节合页损失引入松弛变量ξᵢ处正则化参数C控制SVM使用合页损理不可分样本和对误分类的惩罚失函数,对正确噪声点,允许部强度C值大时更分类且间隔足够分样本违反间隔注重分类准确性,大的样本损失为0,约束,提高模型C值小时更注重间对其他样本线性对噪声的鲁棒性隔最大化惩罚求解方法通过SMO算法等优化方法高效求解大规模二次规划问题,实现SVM的实际应用核方法线性不可分问题常用核函数1将低维空间中线性不可分的数据映射到高多项式核、高斯RBF核、sigmoid核等,2维空间,使其变为线性可分每种核函数适用于不同的数据分布特性参数调优核技巧原理4核参数的选择对模型性能影响巨大,需要通过核函数隐式计算高维空间内积,避免3通过交叉验证等方法优化显式映射的计算复杂性SVM优缺点与应用主要优点主要缺点•泛化能力强,理论基础坚实•对参数和核函数选择敏感•适合小样本、高维数据•大规模数据训练时间长•通过核函数处理非线性问题•对噪声和异常值较敏感•全局最优解,避免局部最优•多分类问题处理相对复杂•稀疏性好,只依赖支持向量•缺乏概率输出SVM在文本分类、图像识别、生物信息学等领域有广泛应用其在处理高维稀疏数据时表现优异,特别适合特征维度远大于样本数量的场景与神经网络相比,SVM具有更强的理论保证和更好的泛化性能第六部分神经网络感知机基础最简单的神经网络模型,为多层网络奠定基础单层感知机只能解决线性可分问题,多层感知机具有强大的非线性拟合能力多层网络通过增加隐层提高模型表达能力,理论上可以逼近任意连续函数网络深度和宽度的选择需要在拟合能力和计算复杂度之间平衡反向传播通过链式法则高效计算梯度,实现多层网络的参数更新这是训练深度神经网络的核心算法,使深度学习成为可能深度学习现代神经网络的发展方向,包括卷积神经网络、循环神经网络等专门架构,在各个领域取得突破性进展人工神经网络基础神经元模型模拟生物神经元的数学模型,包含输入、权重、激活函数和输出四个基本组件每个神经元接收多个输入信号,经过加权求和和激活函数处理后产生输出多层感知机由输入层、隐层和输出层组成的前馈神经网络隐层的存在使网络能够学习非线性映射,层数和节点数决定了网络的表达能力前向传播信息从输入层逐层传递到输出层的计算过程每一层的输出作为下一层的输入,最终在输出层产生预测结果通用近似理论证明具有足够隐层节点的单隐层网络可以逼近任意连续函数,为神经网络的强大拟合能力提供了理论基础反向传播算法1链式法则利用复合函数求导的链式法则,将输出误差逐层向前传播,计算每个参数的梯度2误差传播从输出层开始,将预测误差反向传播到每个隐层,确定各层参数对总误差的贡献3参数更新根据计算得到的梯度信息,使用梯度下降法更新网络中的所有权重和偏置参数4梯度问题深层网络可能出现梯度消失或梯度爆炸问题,需要特殊的初始化和正则化技术解决激活函数激活函数为神经网络引入非线性,是网络能够学习复杂模式的关键Sigmoid函数曾广泛使用但存在梯度消失问题,ReLU及其变种因计算简单且缓解梯度消失而成为主流选择Tanh函数输出零中心化,在某些场景下性能更好现代深度学习中还发展了许多新的激活函数如Swish、GELU等深度学习简介应用前景优化技术发展深度学习在计算机视觉、自然语专门网络结构批归一化、残差连接、注意力机言处理、语音识别等领域取得突深度网络架构CNN适用于图像处理,RNN处制等技术使训练更深的网络成为破,推动人工智能技术快速发展通过增加网络深度提高表示能力,理序列数据,Transformer在自可能,显著提升了模型性能和训和产业化应用学习数据的层次化特征表示深然语言处理中表现卓越每种架练稳定性度网络能够自动学习从低级特征构针对特定类型的数据和任务进到高级语义的抽象过程行了优化设计第七部分集成学习Boosting方法串行训练改进模型•AdaBoostBagging方法Stacking方法•GBDT并行训练多个模型•XGBoost多层模型堆叠•Bootstrap采样•基学习器•随机森林•元学习器•Extra Trees•交叉验证213Bagging与随机森林1Bootstrap采样有放回地从原始训练集中抽取样本构建多个子数据集,每个子集用于训练一个基学习器这种采样方式增加了数据的多样性,有助于降低模型方差2随机森林构建在Bootstrap采样基础上,每次分裂时随机选择特征子集,进一步增加模型差异性多棵决策树通过投票(分类)或平均(回归)得出最终预测3特征重要性通过计算每个特征在所有树中的平均不纯度减少量评估特征重要性,为特征选择和数据理解提供有价值的信息4参数调优主要参数包括树的数量、最大深度、特征采样比例等增加树的数量通常能提高性能但也增加计算成本,需要在性能和效率间平衡Boosting算法AdaBoost算法梯度提升方法自适应提升算法通过调整样本权重,让后续学习器更关注前面学习GBDT通过拟合残差逐步改进模型,XGBoost在GBDT基础上加入器分错的样本每个弱学习器都试图纠正前面学习器的错误正则化项和工程优化LightGBM采用叶子生长策略,训练速度更快算法简单有效,但对噪声敏感,可能导致过拟合在二分类问题上表现优异,扩展到多分类需要特殊处理这类方法在结构化数据上表现卓越,在数据竞赛中广受欢迎需要仔细调节学习率、树深度等参数防止过拟合Stacking集成元学习器1学习如何组合基学习器预测基学习器预测2多个异构模型的输出作为新特征多样化基学习器3不同算法提供互补的预测能力Stacking通过训练元学习器来学习如何最优地组合基学习器的预测结果为避免信息泄露,基学习器的训练通常采用交叉验证方式这种方法能够充分利用不同算法的优势,但计算复杂度较高,需要大量的计算资源和调参经验集成学习比较方法训练方式主要优势适用场景Bagging并行训练降低方差,防高方差模型如止过拟合决策树Boosting串行训练降低偏差,提高偏差模型,升弱学习器结构化数据Stacking多层训练充分利用模型模型融合,数多样性据竞赛从偏差-方差分解角度来看,Bagging主要降低方差,Boosting主要降低偏差,Stacking则试图同时优化两者在实际应用中,随机森林因其稳定性和易用性而广泛使用,GBDT类算法在精度要求高的场景中表现优异,Stacking在需要极致性能的竞赛中常见第八部分聚类算法K-means聚类层次聚类密度聚类基于距离的经典聚类构建聚类树的层次化基于密度连接性的聚算法,通过迭代优化方法,可以自底向上类方法,能发现任意聚类中心位置,将数合并或自顶向下分裂形状的簇并自动处理据分为K个球形簇算不需要预设簇数,结噪声点DBSCAN是法简单高效,但需要果具有层次结构,但最典型的代表,在处预先指定簇数,且对计算复杂度较高理不规则簇形状时表初始化敏感现优异评估方法包括内部评估和外部评估指标,用于衡量聚类质量轮廓系数、DBI指数等帮助选择最优聚类数量和评估算法性能K-means聚类初始化中心分配样本随机选择K个聚类中心,或使用K-1将每个数据点分配给距离最近的聚类中心,means++等改进初始化方法,减少对初2形成K个初始簇始值的敏感性收敛判断更新中心4检查聚类中心是否发生显著变化,如果变3重新计算每个簇的质心作为新的聚类中心,化很小则算法收敛,否则继续迭代通常使用簇内所有点的均值层次聚类自底向上合并策略树状图分析应用局限凝聚层次聚类从每个点作为单独单连接、全连接、平均连接等不通过树状图可视化聚类过程,帮计算复杂度高,难以处理大规模簇开始,逐步合并最相似的簇同策略影响聚类形状和质量助确定最优聚类数量数据,但结果稳定可解释层次聚类的主要优势是不需要预先指定簇数,且能够揭示数据的层次结构通过观察树状图,可以在不同层次上切割得到不同数量的簇然而,其On³的时间复杂度限制了在大数据上的应用,且一旦合并就无法撤销,容易受到噪声影响密度聚类DBSCAN原理基于密度的空间聚类算法,通过寻找被低密度区域分离的高密度区域来发现簇能够发现任意形状的簇,自动确定簇的数量,并有效处理噪声点关键概念核心点ε邻域内至少包含MinPts个点边界点在核心点ε邻域内但自身不是核心点噪声点既不是核心点也不是边界点的孤立点参数选择半径ε决定邻域大小,MinPts决定密度阈值可通过K距离图等方法辅助参数选择,但仍需要一定的领域知识和经验调节算法优势能处理非凸形状的簇,对噪声鲁棒,不需要预设簇数但对参数敏感,在不同密度的簇上表现可能不一致聚类评估内部指标外部指标•轮廓系数衡量样本与其所在簇的相似度•兰德指数比较聚类结果与真实标签的一致性•DBI指数评估簇内紧密度和簇间分离度•调整兰德指数消除随机聚类的影响•Calinski-Harabasz指数基于方差比的评估•归一化互信息基于信息论的相似度度量•间隙统计量比较真实数据与随机数据的聚类效果•同质性和完整性评估聚类纯度和覆盖度聚类评估的挑战在于缺乏绝对的正确答案内部指标仅基于数据本身,外部指标需要真实标签在实际应用中,通常结合多个指标和可视化方法来综合评估聚类效果,同时考虑业务需求和领域知识第九部分概率图模型1贝叶斯网络用有向无环图表示变量间的条件独立关系,提供了概率推理的图形化框架2隐马尔可夫模型处理时序数据的经典概率模型,在语音识别和自然语言处理中应用广泛3条件随机场判别式概率图模型,在序列标注任务中表现优异,避免了标签偏置问题4变分推断近似推断方法,将复杂的后验分布近似为简单分布,使大规模概率推理成为可能朴素贝叶斯条件独立假设1假设特征之间相互独立,简化计算复杂度极大似然估计2基于训练数据估计先验概率和条件概率拉普拉斯平滑3解决零概率问题,提高模型鲁棒性模型变种4多项式、伯努利和高斯朴素贝叶斯适用于不同数据类型尽管朴素贝叶斯的条件独立假设在现实中往往不成立,但该算法在许多实际应用中表现出色,特别是在文本分类和垃圾邮件过滤等任务中其计算简单、训练快速、对小样本数据友好的特点使其成为基线模型的常见选择隐马尔可夫模型324基本问题核心假设经典算法评估、解码、学习是HMM的三类基本问题马尔可夫性和观测独立性假设简化了模型复前向后向、Viterbi、Baum-Welch算法分杂度别解决三类问题HMM在处理时序数据方面具有重要意义,特别是当系统的真实状态无法直接观测时通过建模状态转移概率和观测概率,HMM能够推断隐藏状态序列和预测未来观测在语音识别、机器翻译、生物信息学等领域都有成功应用条件随机场判别式模型特点优势与应用CRF直接建模条件概率PY|X,避免了对观测序列X的建模假设解决了HMM的标签偏置问题,能够利用丰富的特征信息在命名这种设计使得CRF能够灵活地使用任意特征,不需要假设特征之间实体识别、词性标注、中文分词等序列标注任务中表现优异的独立性CRF的全局归一化特性确保了标签序列的全局最优性,但也增加了相比于生成式模型,判别式模型通常在分类任务上具有更好的性能,训练的计算复杂度,需要使用动态规划等高效算法因为它们直接优化分类目标。
个人认证
优秀文档
获得点赞 0