还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习算法欢迎来到机器学习算法课程!本课程将带您深入探索机器学习的基础理论、主要算法类型及实际应用场景我们将从基础概念出发,逐步讲解不同类型的机器学习算法,包括监督学习、无监督学习以及强化学习等内容通过系统学习,您将掌握如何选择合适的算法解决实际问题,了解各种算法的优缺点,以及如何评估模型性能无论您是机器学习初学者还是希望巩固知识的从业者,本课程都将为您提供全面而深入的学习体验课程介绍课程目标主要内容掌握机器学习的基础理论和常涵盖机器学习基础理论、监督用算法,能够分析实际问题并学习算法(线性回归、逻辑回选择合适的算法解决方案培归、决策树等)、无监督学习养实际操作能力,能够使用算法(聚类、降维)、深度学Python实现基本的机器学习习基础以及实际应用案例分模型析面向对象计算机科学、数据科学相关专业学生,以及希望掌握机器学习技能的IT从业人员学习者需具备基础的数学知识(线性代数、概率统计)和Python编程经验什么是机器学习机器学习定义与人工智能的关系机器学习是人工智能的一个分人工智能是让机器模拟人类智能支,研究计算机如何通过数据学的广泛领域,而机器学习是实现习并改进性能,而无需显式编人工智能的具体方法之一深度程它使计算机能够从经验中学学习则是机器学习中的特定技习,随着接触到的样本增加而提术,基于人工神经网络的多层结高性能构三大范式监督学习通过标记数据学习输入与输出之间的映射关系;无监督学习从无标签数据中发现隐藏的模式和结构;强化学习通过与环境交互和反馈不断优化决策策略机器学习发展历史机器学习起源1950s-1960s1956年,约翰·麦卡锡在达特茅斯会议上提出人工智能概念1957年,弗兰克·罗森布拉特发明了感知机,这是第一个可以学习的神经网络模型理论基础构建1970s-1980s1979年,斯坦福大学的杰弗里·辛顿提出反向传播算法1986年,Rumelhart等人通过重新发现反向传播算法,解决了训练多层神经网络的问题统计学习理论发展1990s-2000s1995年,支持向量机由Vapnik提出1997年,深蓝战胜国际象棋世界冠军2006年,杰弗里·辛顿提出深度信念网络,开启了深度学习热潮至今深度学习革命2010s2012年,AlexNet在ImageNet竞赛中取得突破性胜利2016年,AlphaGo战胜世界围棋冠军李世石2020年代,大型语言模型如GPT系列成为新突破点机器学习应用场景金融领域医疗领域零售领域机器学习在金融业中用于风险评估、算法在医疗行业,机器学习用于疾病诊断、个零售业利用机器学习进行需求预测、个性交易、欺诈检测和客户服务例如,中国性化治疗和药物研发腾讯觅影系统可识化推荐和库存优化阿里巴巴的智能推荐平安的智能催收系统使用机器学习预测别多种常见疾病,辅助医生进行初步筛系统每年为平台带来数十亿元增量销售,客户还款可能性,优化催收策略,提高回查,在某些癌症检测方面准确率超过其算法可实时分析用户行为并调整推荐策款率30%以上90%略机器学习的基本流程数据收集确定问题后,从多种来源获取相关数据包括结构化数据(如数据库记录)和非结构化数据(如文本、图像)数据收集质量直接影响最终模型性能,需确保数据的完整性、准确性和代表性数据预处理对原始数据进行清洗、转换和增强处理缺失值和异常值,进行特征工程(如归一化、标准化、特征选择)此阶段通常占整个机器学习项目时间的60-70%,是最耗时但也最关键的环节模型构建与训练选择合适的算法建立模型,使用训练数据进行参数优化包括模型选择、超参数调优和交叉验证模型训练是一个迭代过程,需不断调整以找到最佳性能点模型评估与优化使用测试数据评估模型性能,基于评估结果优化模型选择合适的评估指标(如准确率、F1分数、AUC等),针对性能不佳的方面进行有针对性的改进模型部署与监控将训练好的模型部署到生产环境,持续监控模型性能建立模型更新机制,应对数据分布变化带来的模型性能下降问题,确保模型长期有效数据在机器学习中的作用模型性能数据决定算法上限特征提取提炼数据中的关键信息数据质量确保准确性、完整性和代表性在机器学习领域有一句名言垃圾进,垃圾出无论算法多么先进,如果输入的数据质量低下,最终的模型性能也会受到限制高质量数据应具备准确性(无错误)、完整性(无大量缺失)、相关性(与问题相关)和代表性(覆盖各种情况)特征工程是将原始数据转化为更有用形式的过程,包括特征选择(选择最相关特征)、特征提取(创建新特征)和特征转换(如归一化)优秀的特征工程能极大提升模型效果例如,在预测房价时,不仅考虑面积,还可能需要每平米价格这样的派生特征监督学习与无监督学习监督学习无监督学习在监督学习中,训练数据包含输入特征和正确的输出标签模型在无监督学习中,训练数据只有输入特征而没有标签模型通过通过学习输入与输出之间的映射关系,来预测新数据的输出识别数据中的内在结构和模式来学习常见算法常见算法•K均值聚类将数据分组,如客户细分•线性回归预测连续值,如房价预测•层次聚类创建数据的层次结构•逻辑回归二分类问题,如垃圾邮件识别•DBSCAN基于密度的聚类,适合非凸形状•决策树分类和回归,如客户流失预测•主成分分析PCA降维,减少特征数量•支持向量机复杂分类问题,如图像识别•关联规则学习发现项目间关联,如购物篮分析•神经网络各种复杂任务,如语音识别评估指标概述分类问题评估指标回归问题评估指标精确率(Precision)正确预测均方误差(MSE)预测值与实为正例的比例,适用于需要减少假际值差异的平方平均,对大误差更阳性的场景,如垃圾邮件过滤召敏感平均绝对误差(MAE)回率(Recall)正确找出的正预测值与实际值差异的绝对值平例比例,适用于需要找出所有正例均,更易理解R²(决定系的场景,如疾病筛查F1分数数)模型解释的方差占总方差的精确率和召回率的调和平均,平衡比例,范围通常在0到1之间,越两者AUC(曲线下面积)评接近1表示模型越好估模型区分正负例的能力,不受阈值影响评价标准选择依据业务需求如在医疗诊断中,可能更关注召回率,以避免漏诊数据分布如数据不平衡时,准确率可能具有误导性计算资源某些指标计算复杂度高,可能不适合实时系统可解释性某些场景需要易于向非技术人员解释的指标机器学习算法大类总览算法类型主要任务典型算法应用场景回归预测连续值线性回归、多项房价预测、销量式回归、决策树预测、温度预测回归分类预测离散类别逻辑回归、决策垃圾邮件检测、树、SVM、朴图像识别、疾病素贝叶斯诊断聚类识别数据分组K均值、层次聚客户细分、异常类、DBSCAN检测、图像分割降维减少特征数量PCA、t-SNE、特征压缩、可视LDA化、去噪集成方法合并多个模型随机森林、提高性能、减少AdaBoost、过拟合GBDT线性回归原理建模思路假设条件损失函数线性回归是最基础的监督学习算法之线性回归模型基于以下假设线性回归常用均方误差(MSE)作为损一,用于预测连续型变量其核心思想失函数•线性关系自变量与因变量间存在线是找到一条直线(或高维空间中的超平性关系Lβ=1/n∑yᵢ-ŷᵢ²=1/n∑yᵢ-面),使所有数据点到这条线的距离之β₀+β₁x₁ᵢ+...+βxᵢ²和最小•误差项独立各个样本的误差相互独ₙₙ立目标是找到使损失函数最小的参数值β数学表达式为y=β₀+β₁x₁+β₂x₂•误差项同方差误差项具有恒定方差这可以通过解析法(最小二乘法)或迭+...+βx+ε,其中y是目标变量,ₙₙ代法(梯度下降)求解x₁到x是特征,β是待求的参数,ε是误ₙ•误差项正态分布误差服从正态分布差项•特征间无多重共线性自变量之间不存在完全线性相关线性回归的优化方法最小二乘法梯度下降法直接求解损失函数的最小值点迭代优化,沿梯度方向更新参数小批量梯度下降随机梯度下降每次使用一批样本更新每次使用单个样本更新最小二乘法是解决线性回归问题的解析方法,通过矩阵运算直接求出最优解β=X^T X^-1X^T y此方法计算简单,对于小型数据集非常高效,但当特征数量很大时,矩阵求逆计算量大,且容易遇到奇异矩阵问题梯度下降是一种迭代优化算法,通过沿着损失函数梯度的反方向逐步调整参数批量梯度下降每次使用所有样本计算梯度;随机梯度下降每次随机选择一个样本计算梯度;小批量梯度下降则是折中方案,每次使用一小批样本梯度下降适用于大规模数据集,但可能收敛较慢,且需要调整学习率线性回归实例房价预测案例Sklearn实现房价预测是线性回归的典型应用我们可以使用多种特征如房屋面积、卧室数量、位置、建筑年代等来预测房屋import pandasas pd价格以北京房价为例,分析表明房屋面积、地铁距离和学区质量对房价影响最显著import numpyas np数据准备阶段需要处理缺失值、异常值,并进行特征工程如创建新特征(每平米价格、距离市中心的距离)和特from sklearn.model_selection importtrain_test_split征缩放(标准化或归一化处理)from sklearn.linear_model importLinearRegressionfrom sklearn.metrics importmean_squared_error#加载数据data=pd.read_csvhouse_data.csv#特征选择X=data[[面积,卧室数,地铁距离,学区]]y=data[价格]#数据分割X_train,X_test,y_train,y_test=train_test_splitX,y,test_size=
0.2,random_state=42#模型训练model=LinearRegressionmodel.fitX_train,y_train#预测与评估y_pred=model.predictX_testmse=mean_squared_errory_test,y_predprintf均方误差:{mse}printf系数:{model.coef_}逻辑回归原理概率输出输出范围为0-1的概率值函数Sigmoid将线性输出转换为概率线性模型基础是加权线性组合逻辑回归是用于分类问题的监督学习算法,尽管名称中包含回归,但它实际上是一种分类方法其核心是将线性回归的输出通过Sigmoid函数转换为0到1之间的概率值Sigmoid函数表达式为σz=1/1+e^-z,其中z是线性函数wx+b逻辑回归的决策边界是一个超平面,将特征空间分为两部分与线性回归使用均方误差不同,逻辑回归通常使用对数损失函数(Log Loss或交叉熵损失)Lθ=-[y·logp+1-y·log1-p]这种损失函数对于错误预测的惩罚更为严厉,特别是当模型对某个样本非常自信但预测错误时逻辑回归应用信用卡欺诈检测疾病风险预测逻辑回归可用于检测信用卡欺诈行为医疗领域使用逻辑回归预测患某种疾病通过分析交易金额、地点、频率等特的风险例如,通过分析年龄、血压、征,模型可计算交易是欺诈的概率如胆固醇水平等指标,预测患心脏病的风果概率超过设定阈值(如
0.7),系统险这有助于医生制定预防措施和个性会标记该交易进行人工审核化治疗方案中国某大型银行采用此方法,将欺诈检中国医学研究团队利用此模型预测糖尿测准确率提高了15%,每年为客户避免病风险,准确率达到85%以上损失超过2亿元用户转化预测电子商务平台利用逻辑回归预测网站访客是否会购买商品根据用户浏览历史、停留时间、点击行为等,计算转化概率,为高潜力用户提供个性化推荐和优惠某中国电商平台应用此技术,精准营销效率提升了40%,广告投入回报率增加了25%近邻算法()K KNN选择参数K确定考虑的邻居数量,K值过小容易受噪声影响,过大则可能忽略局部特征计算距离对于新样本,计算它与所有训练样本的距离,常用距离指标包括欧氏距离、曼哈顿距离等找出个最近邻居K选择距离最小的K个样本作为近邻投票决定类别分类问题少数服从多数;回归问题取平均值或加权平均值应用举例KNN人脸识别KNN算法可用于基础的人脸识别系统通过计算待识别人脸与数据库中已知人脸的特征距离,找出最相似的K个人脸,然后通过多数投票确定身份虽然在实际应用中已被更复杂的深度学习方法超越,但在小型数据集或计算资源有限情况下仍有价值手写数字识别在MNIST手写数字数据集上,KNN算法能达到约97%的识别准确率实现方法是将每个数字图像转换为特征向量(如像素值),然后计算新输入图像与训练样本的距离K值通常设置为3-5,使用欧氏距离作为度量这是KNN算法在图像分类上的经典应用推荐系统音乐或电影推荐系统中,KNN可基于用户相似度提供个性化推荐系统计算用户之间的偏好相似度,找出与当前用户最相似的K个用户,然后推荐他们喜欢但当前用户尚未接触的内容这种协同过滤方法简单有效,是入门级推荐系统的常用算法决策树原理递归建树过程分裂标准决策树算法通过递归分割数据集构建树结构从根节点开始,在决策树使用不同标准选择最优分裂特征每个节点选择一个最优特征进行分割,使子节点的样本尽可能纯信息增益基于熵的减少量,熵越小表示纯度越高公式为净(即属于同一类别)IGS,A=EntropyS-∑|Sv|/|S|*EntropySv,其建树过程包括以下步骤中S是数据集,A是特征,Sv是按特征A分割后的子集增益率信息增益除以特征的内在信息,减少对高基数特征的偏
1.选择最优特征进行分割好
2.按特征值将数据分成子集基尼系数衡量随机选择的样本被错误分类的概率基尼值越小
3.对每个子集重复上述过程表示纯度越高公式为GiniS=1-∑pi²,其中pi是类别i的
4.当达到停止条件时(如节点纯度足够高、树深达到限制、样比例本数量过少)终止递归决策树优缺点决策树的优势决策树的局限可解释性强决策树模型结构直容易过拟合单一决策树倾向于生观,可以轻松转化为一系列if-then成复杂模型,对训练数据拟合过规则,便于向非技术人员解释计度不稳定性数据微小变化可能算效率高训练和预测速度快,不导致树结构显著改变难以表达复需要数据归一化适应性广可处杂关系对于复杂的非线性关系表理分类和回归问题,能处理数值型达能力有限贪婪算法采用局部和类别型特征自动进行特征选最优策略,不保证全局最优解偏择训练过程会自动选择重要特好占主导的类在不平衡数据集上征处理缺失值能力强能够处理可能表现不佳含有缺失值的训练数据常用优化方法剪枝技术通过预剪枝或后剪枝减少过拟合集成方法将多个决策树组合,如随机森林或梯度提升树特征选择预先进行特征筛选,去除无关特征正则化在分裂标准中引入惩罚项样本权重调整为少数类样本赋予更高权重,解决类别不平衡问题决策树应用案例某中国电信公司面临用户流失率上升问题,年流失率达到25%,每位流失用户平均成本达到200元公司收集了过去12个月的用户数据,包括套餐类型、使用时长、月消费、客服沟通次数、投诉历史等20多个特征,构建了客户流失预测模型采用决策树模型后,成功识别出影响用户流失的关键因素高月资费但低使用率、近3个月内多次网络质量投诉以及合约即将到期是流失的主要指标模型准确率达到78%,召回率为82%公司据此调整了挽留策略,对高风险用户提供定制优惠,三个月内流失率下降了15%,挽留了大约10万用户,带来约2000万元的收益随机森林原理随机采样特征随机选择完全生长的决策树投票或平均随机森林使用自助采样在构建每棵树的每个节点随机森林中的每棵决策树对于分类问题,最终预测Bootstrap从原始训练时,算法不考虑所有特通常不进行剪枝,允许其结果由所有树的多数投票集中有放回地抽取多个子征,而是从特征子集中选充分生长单棵树可能过决定;对于回归问题,取集,每个子集训练一个决择最佳分割对于分类问拟合,但森林整体不会,所有树预测值的平均这策树这种随机性使每棵题,通常选择√m个特征因为各树的误差会相互抵种集成方法极大地提高了树都略有不同,增加模型m为总特征数;对于回消,形成一个更准确、更模型的泛化能力的多样性和鲁棒性归问题,通常选择m/3个稳健的模型特征随机森林实际效果抗过拟合能力特征重要性评估随机森林极大地改善了单棵决策树容易过拟合的问题通过结合随机森林提供了评估特征重要性的内置方法,这在特征工程和模多棵树的预测结果,随机森林降低了方差,使模型更加稳健实型解释中非常有价值特征重要性计算基于每个特征对模型性能验表明,与单一决策树相比,随机森林在测试集上的错误率平均的贡献,通常有两种方法降低25%-30%平均不纯度减少计算每个特征在所有树中导致的不纯度减少量在高维数据(特征数量远大于样本数量)的场景中,随机森林尤其有效例如,在基因表达数据分析中,随机森林能够在数万个排列重要性随机打乱某特征值,测量性能下降程度基因特征中准确识别关键模式,而单棵决策树则容易陷入噪声在一个电商客户行为分析案例中,随机森林显示最近购买时间和历史购买频率是预测客户终身价值的最重要特征,而用户年龄和注册渠道影响较小这帮助企业重新设计了营销策略,专注于重活跃客户,提高了25%的回购率集成学习介绍集成学习的核心思想群体智慧胜过单个决策者主要集成方法Bagging、Boosting和Stacking性能提升原理降低方差或偏差,提高稳定性集成学习通过组合多个基础模型(也称为弱学习器)的预测结果,创建一个更强大的模型其理论基础来自于多样性促进准确性的原则-如果各个模型犯错的方式不同,则整体组合可以减少总体错误BaggingBootstrap Aggregating通过有放回抽样创建多个训练子集,各个模型并行训练,最终通过投票或平均合并结果代表算法有随机森林、Bagging分类器等Boosting则是顺序训练模型,每个新模型专注于前面模型预测错误的样本,代表算法包括AdaBoost、梯度提升树GBDT、XGBoost等Stacking使用另一个模型(元学习器)来组合基础模型的输出,可以学习最优组合方式支持向量机()原理SVM间隔最大化支持向量寻找使类别间隔最大的超平面靠近决策边界的关键样本点软间隔核函数允许部分错误以增强泛化能力将数据映射到高维空间解决非线性问题支持向量机SVM是一种强大的分类算法,其核心思想是找到一个最优超平面,使两个类别之间的间隔最大化这个间隔由最近的样本点(即支持向量)到超平面的距离定义数学上,SVM求解的是一个带约束条件的优化问题,目标是最大化γ,满足yiw·xi+b≥γ对所有样本i成立对于线性不可分的问题,SVM引入核函数技巧,将原始特征空间隐式映射到更高维的空间,使数据在新空间中线性可分常用的核函数包括线性核、多项式核、径向基函数RBF核和Sigmoid核为了处理噪声和异常值,SVM引入软间隔概念,允许部分样本被错误分类,通过C参数控制错误惩罚程度,平衡间隔大小与分类错误之间的权衡调优与扩展SVM核函数选择参数优化多分类扩展不同核函数适用于不同数据特性线性核适SVM有几个关键参数需要调优C参数控制SVM本质上是二分类算法,扩展到多分类有用于高维稀疏数据(如文本);多项式核适错误惩罚力度,较大C值追求训练集高准确两种主要策略一对多(One-vs-Rest),合特征间存在组合关系的数据;RBF核是最率,较小C值追求更大间隔;gamma参数为每个类训练一个分类器,将其与所有其他常用的,能处理非线性关系,但对参数敏(在RBF核中)控制决策边界的曲率,较大类区分;一对一(One-vs-One),为每对感;Sigmoid核在某些情况下类似神经网gamma值会造成过拟合;degree参数(在类训练一个分类器,总共需要nn-1/2个分络核函数选择通常通过交叉验证确定多项式核中)控制多项式阶数类器,最终通过投票决定类别网格搜索和随机搜索是常用的参数优化方一对一方法训练更快但需要更多分类器,一法对多方法分类器数量少但面临类别不平衡问题朴素贝叶斯算法基于概率的分类器条件独立性假设多种变体适应不同数据朴素贝叶斯算法基于贝叶斯算法的朴素之处在于假设定理计算各类别的后验概所有特征之间相互条件独根据特征分布假设,朴素贝率,选择概率最高的类别作立这一假设虽然在实际中叶斯有多种变体高斯朴素为预测结果对于给定特征很少成立,但大大简化了计贝叶斯适用于连续值;多项X=x₁,x₂,...,x,使用公算,使模型训练非常高效式朴素贝叶斯适用于离散计ₙ式PY|X∝PY∏Pxᵢ|Y即使特征间存在相关性,模数(如文本);伯努利朴素计算类别Y的概率型在实践中仍表现良好贝叶斯适用于二元特征选择合适变体对性能影响显著拉普拉斯平滑为处理零概率问题(特征在某类别中从未出现),算法使用拉普拉斯平滑技术,向所有计数加上一个小正数这避免了乘积概率为零的情况,提高了模型在稀疏数据上的鲁棒性朴素贝叶斯案例数据收集与预处理特征选择模型训练邮件分类收集标记为垃圾/非垃圾的邮件,进行使用TF-IDF识别区分能力强的词语计算每个词在垃圾/非垃圾邮件中的条对新邮件计算垃圾邮件概率并作出决分词和特征提取件概率策垃圾邮件过滤是朴素贝叶斯的经典应用在一个实际项目中,我们收集了10,000封已标记邮件(6,000封正常邮件,4,000封垃圾邮件)预处理阶段包括去除停用词、词干提取和特征选择,最终选择了2,000个最具区分性的词作为特征使用多项式朴素贝叶斯模型,通过10折交叉验证评估性能,获得了
97.8%的准确率、
96.5%的精确率和
98.2%的召回率与决策树(
94.5%准确率)和SVM(
98.1%准确率)相比,朴素贝叶斯展现了极佳的性能与计算效率平衡更重要的是,模型训练只需几秒钟,预测新邮件仅需毫秒级时间,非常适合实时过滤系统同时,模型可解释性强,能够显示导致分类的关键词及其影响力均值聚类K初始化个聚类中心KK均值聚类首先随机选择K个点作为初始聚类中心初始中心的选择对最终结果有显著影响,常用方法有完全随机选择、K-means++(优先选择距离现有中心较远的点)以及分层采样等良好的初始化可以加速收敛并提高质量分配样本到最近中心计算每个样本点到各聚类中心的距离,将样本分配给距离最小的中心距离度量通常使用欧氏距离,但也可以根据数据特性选择曼哈顿距离、余弦相似度等这一步将数据空间划分为K个区域,形成沃罗诺伊图更新聚类中心重新计算每个簇的中心点,通常取该簇所有样本的平均值这一步使中心点移动到所属簇的质心位置,减小簇内样本到中心的总距离更新过程确保每次迭代后的聚类质量都会提高重复直至收敛重复分配和更新步骤,直到满足收敛条件聚类中心不再显著变化,或者达到最大迭代次数实践中,可以设置容忍度阈值和最大迭代次数来控制算法的终止,平衡计算成本与聚类质量均值算法局限性KK值需预先指定K均值算法最大的局限是需要事先指定簇的数量K,而在实际应用中,最佳簇数通常未知错误的K值可能导致不合理的聚类结果解决方法包括肘部法则(绘制不同K值下的误差曲线)、轮廓系数、间隙统计量或贝叶斯信息准则BIC等评估指标,帮助选择最优K值对异常值敏感K均值使用均值作为簇中心,对异常值非常敏感少量极端值可能显著拉偏聚类中心,影响整体聚类结果为减轻这个问题,可以在聚类前进行异常值检测与去除,或者使用K-medoids等变体算法,它使用实际数据点作为中心,对异常值更为鲁棒仅适合发现球形簇K均值隐含假设数据簇呈现球形(欧氏距离度量下)或凸形,难以发现复杂形状的簇当数据集包含非凸形状、不同密度或大小差异显著的簇时,K均值表现不佳谱聚类、DBSCAN或基于密度的聚类算法在这些情况下是更好的选择结果依赖初始值由于采用随机初始化中心,K均值可能陷入局部最优解,不同初始值可能导致不同结果常用策略是运行多次K均值(不同随机种子),选择总误差最小的结果;或使用K-means++等改进的初始化方法,提高找到全局最优解的概率降维方法主成分分析()PCA线性降维思想PCA计算步骤累积贡献率主成分分析PCA是一种经典的线性降
1.对数据进行中心化(减去均值)选择保留多少主成分是PCA使用中的关维技术,其核心思想是将数据投影到方键问题累积贡献率是确定主成分数量
2.计算协方差矩阵差最大的方向上,保留数据中最重要的的重要指标,计算为前k个主成分对应的
3.计算协方差矩阵的特征值和特征向量信息PCA假设数据中的主要信息体现特征值之和除以所有特征值之和在数据变化最大的方向上
4.将特征向量按特征值大小排序通常,选择累积贡献率达到85%-95%的数学上,PCA寻找原始空间中的一组正主成分数量,既能有效减少维度又能保
5.选取前k个特征向量形成投影矩阵交基向量(主成分),使得数据在这些留大部分信息在某些应用中,也可以
6.将原始数据变换到新空间方向上的投影保留最大方差第一主成通过可视化碎石图(特征值衰减曲分是方差最大的方向,第二主成分与第PCA计算高效且无参数,但作为线性方线)来确定合适的主成分数量,寻找曲一主成分正交且在剩余方向中方差最法,无法捕捉复杂的非线性关系在处线明显拐点大,依此类推理高维数据时,可以显著提高效率实际应用PCAPCA在人脸识别中的典型应用是特征脸Eigenfaces方法在一个实际项目中,我们收集了1,000张不同人脸的64×64像素灰度图像,每张图像包含4,096个像素值作为特征直接处理如此高维的数据计算成本高且容易过拟合应用PCA后,发现仅前150个主成分就捕获了95%的方差信息将原始4,096维特征降至150维,不仅使存储空间减少了96%,而且识别准确率从原来的88%提高到了92%这是因为降维过程滤除了噪声,使分类器能专注于更有信息量的特征此外,训练时间缩短了80%,响应速度提升了5倍,使系统可以实现实时识别PCA的另一个优势是可以将前几个主成分可视化,帮助理解不同人脸的主要变化模式层次聚类算法自底向上的层次结构逐步合并最相似的簇树状图表示直观展示簇合并过程多种距离计算方式不同的联结方法适应不同数据特性层次聚类不需要预先指定簇的数量,而是构建一个从单个数据点到包含所有点的完整层次结构常用的凝聚式层次聚类(自底向上)从将每个点视为一个簇开始,然后迭代地合并最相似的两个簇,直到所有点归为一个簇或满足停止条件簇间距离计算有多种方法单连接(最近点距离)适合发现非球形簇,但容易受噪声影响;完全连接(最远点距离)产生更紧凑的簇,对异常值更敏感;平均连接(所有点对平均距离)是折中方案;Ward方法基于合并后方差增加最小的原则,通常产生大小相近的簇层次聚类的计算复杂度为On³,适用于中小型数据集,但可以通过采样或先进行K均值预聚类来处理大数据集聚类结果通过树状图Dendrogram可视化,水平切割树状图可得到不同数量的簇聚类DBSCAN确定参数设置邻域半径ε和最小点数MinPts核心点识别找出ε邻域内至少有MinPts个点的核心点聚类扩展从核心点出发,将所有密度可达点归入同一簇噪声标记将不属于任何簇的点标记为噪声点DBSCAN(基于密度的空间聚类应用和噪声)是一种基于密度的聚类算法,能够发现任意形状的簇,并自动识别噪声点它将簇定义为密度连通的区域,即数据点在空间中的密集区域被视为一个簇,而稀疏区域则被视为噪声或边界与K均值相比,DBSCAN具有显著优势不需要预先指定簇的数量;能够识别任意形状的簇;对数据集中的噪声具有良好的鲁棒性;能够发现不同密度的簇(通过多次运行不同参数)然而,DBSCAN也存在局限参数选择敏感,不同的ε和MinPts可能产生很不相同的结果;在高维空间中表现下降,因为维度灾难导致密度概念变得模糊;处理变密度簇的能力有限,难以同时识别密度差异大的簇;计算复杂度为On²,可通过索引结构如R树或KD树优化至On logn神经网络基础结构感知机与神经元多层前馈网络激活函数人工神经网络的基本单元是神经元,灵感来多层感知机MLP由输入层、一个或多个隐激活函数为网络引入非线性,使其能学习复自生物神经系统每个神经元接收多个输入藏层和输出层组成信息单向流动(前杂模式常用激活函数包括Sigmoid函数信号,每个输入都有一个相关权重神经元馈),无反馈连接隐藏层使网络能学习复σx=1/1+e^-x,输出范围[0,1],但计算加权和,并通过激活函数产生输出最杂的非线性关系,层数越多,理论上表达能有梯度消失问题;ReLUmax0,x,计算简单的神经网络是感知机,只有一个神经力越强每层的神经元数量决定了模型的容高效且缓解梯度消失,但有死亡ReLU现元,能解决线性可分问题量和学习能力象;Tanh,输出范围[-1,1],零中心化但仍有梯度问题;Leaky ReLU,ELU等改进版本解决了ReLU的局限神经网络训练与反向传播前向传播损失计算数据从输入层流向输出层,计算预测值评估预测值与真实值的差异参数更新反向传播使用优化算法调整权重和偏置从输出层向输入层传递误差,计算梯度神经网络训练基于梯度下降原理,通过反向传播算法高效计算梯度训练过程首先进行前向传播,计算每层激活值直至输出层;然后计算损失函数(如均方误差、交叉熵)评估预测与真实值的差异;接着通过反向传播计算每个参数对损失的梯度;最后使用优化器更新网络参数,减小损失关键超参数包括学习率控制参数更新步长,过大导致震荡,过小收敛慢;批量大小影响训练稳定性和计算效率;训练轮数需平衡训练充分性与过拟合风险优化技术如动量法、Adam、RMSprop等改进了传统梯度下降,加速收敛并避免局部最小值正则化手段如L1/L2正则、Dropout、早停法Early Stopping帮助防止过拟合BatchNorm等技术通过标准化每层输入加速训练并改善泛化能力深度学习与传统机器学习区别对比维度传统机器学习深度学习特征提取需要人工设计特征自动学习特征表示数据需求可在中小规模数据上表现通常需要大量数据才能发良好挥优势计算资源计算要求相对较低通常需要强大GPU/TPU加速模型复杂度参数较少,模型相对简单参数量大,模型复杂度高可解释性多数算法具有较好可解释通常被视为黑盒,解释性困难领域适应性需为不同领域重新设计特跨领域迁移学习能力强征表现上限在某些任务上接近瓶颈随数据和模型规模增加持续提升卷积神经网络()简介CNN卷积层池化层全连接层CNN的核心组件,通过滑动窗口池化层通过降采样减少特征图尺卷积和池化层提取的特征最终被应用卷积操作提取局部特征卷寸,降低计算复杂度并增强模型传递到全连接层,进行高级特征积核是一组可学习的权重,在整对位置变化的鲁棒性最大池化组合和最终分类全连接层将所个输入上共享这种参数共享机保留区域最强响应,平均池化保有前层特征映射成最终输出概率制大大减少了参数数量,提高了留区域平均特征池化操作使模分布在现代CNN中,全连接层计算效率卷积层能有效捕捉局型关注是否存在特征而非特征通常包含大部分参数,是模型过部模式,如边缘、纹理和形状在哪里,增强了平移不变性拟合的主要来源图像识别突破CNN在计算机视觉领域带来革命性突破,2012年AlexNet在ImageNet竞赛中将错误率从26%降至16%最新模型如ResNet、EfficientNet在图像分类准确率超过人类CNN成功应用于物体检测、图像分割、人脸识别等众多视觉任务循环神经网络()简介RNN序列建模能力长短期记忆网络LSTM循环神经网络RNN是专为处理序列数据设计的神经网络架标准RNN存在梯度消失/爆炸问题,难以学习长期依赖关系构不同于前馈网络,RNN包含循环连接,使信息能在时间步LSTM通过引入门控机制解决这一问题,包含遗忘门、输入门和之间传递这种记忆机制使RNN能够处理时序模式,如文输出门三个组件本、语音、时间序列等•遗忘门决定丢弃哪些旧信息基本RNN包含隐藏状态h,在每个时间步t更新h_t=•输入门控制添加哪些新信息tanhW_xh*x_t+W_hh*h_{t-1}+b_h,其中x_t是当•输出门确定输出隐藏状态前输入,h_{t-1}是上一时间步的隐藏状态这种循环结构允许网络保持之前输入的信息,形成短期记忆LSTM的关键创新是细胞状态cell state,作为信息高速公路在时间步之间传递,减轻了梯度问题GRU门控循环单元是LSTM的简化版本,合并了遗忘门和输入门,参数更少但性能相当机器学习在自然语言处理中的应用自然语言处理NLP是机器学习的重要应用领域文本分类任务如新闻分类、垃圾邮件过滤利用机器学习将文本分为预定义类别传统方法使用TF-IDF特征和SVM/朴素贝叶斯分类器,现代方法使用词嵌入Word2Vec、GloVe结合深度学习模型,准确率提升15%-20%情感分析是NLP的热门应用,通过分析文本情绪极性(积极、消极、中性)帮助企业理解客户反馈基于BERT的情感分析模型在中文微博评论数据上准确率达到92%,比传统方法高出10%语义理解方面,从早期的规则系统发展到现在的大型语言模型LLM,如GPT系列、文心一言等,能理解上下文语境,回答问题,总结文档,甚至进行多轮对话这些技术已广泛应用于智能客服、内容审核、自动摘要等领域,大幅提升效率机器学习在金融领域应用信用评估模型机器学习在信贷评估中的应用显著提高了准确率和效率传统信用评分主要依赖历史信用记录和收入等少量特征,而现代ML模型可整合数百个指标,包括交易行为、社交数据等替代数据某大型中国银行采用梯度提升决策树模型,将违约预测准确率提高了35%,每年节省贷款损失超过2亿元量化交易机器学习技术彻底改变了量化交易领域算法通过分析市场微观结构、新闻情绪和技术指标,发现人类难以察觉的交易机会深度学习模型在预测短期价格走势方面表现尤为出色,某中国对冲基金使用LSTM网络的策略年化收益率达到15%,显著超越传统统计模型反欺诈系统反欺诈领域是ML应用的典范,实时异常检测系统每天拯救数亿元损失现代反欺诈系统结合规则引擎和ML模型,不断适应新型欺诈手段某支付平台使用随机森林和图神经网络结合的方法,在保持低误报率
0.1%的前提下,欺诈检测率提高至96%,远超传统规则系统的75%机器学习在医学领域应用疾病预测与早期筛查机器学习模型分析患者历史数据预测疾病风险医学影像分析深度学习辅助放射科医生诊断各类疾病药物研发AI加速新药发现和开发过程智能临床决策支持为医生提供诊断和治疗建议在疾病预测领域,中国研究人员开发的机器学习模型能基于健康检查数据预测2型糖尿病风险,准确率达88%,比传统方法高15%该模型整合了实验室指标、生活方式和家族史等信息,成功识别出非典型高风险人群,实现早期干预医学影像分析是AI医疗最成熟的应用以肺部CT图像分析为例,深度学习算法在肺结节检测上已接近专家水平,灵敏度达96%腾讯觅影和依图医疗等中国AI公司开发的系统已在多家医院部署,协助放射科医生提高工作效率30%以上,尤其在基层医院显著提升诊断能力在新冠肺炎期间,AI辅助诊断系统在武汉等地发挥了重要作用,缩短了报告时间,提高了检出率,为疫情防控提供了有力支持机器学习在智能制造中的应用智能质量检测预测性维护机器视觉结合深度学习技术实现产机器学习算法通过分析设备传感器品缺陷自动检测,大幅提高检测速数据,预测设备何时可能发生故度和准确率例如,某中国电子制障,实现从计划维护到预测维护造商使用基于CNN的视觉检测系统的转变某钢铁企业使用基于随机检测PCB板缺陷,准确率达森林的模型预测轧机故障,提前7-
99.3%,比人工检测提高15%,同10天预警,减少计划外停机时间时检测速度提升10倍,大幅降低了80%,每年节省维护成本约500万漏检率和人力成本元生产优化强化学习和优化算法用于制定最优生产计划和参数设置某汽车制造商应用机器学习优化喷漆工艺参数,减少了15%的原材料使用,同时提高了20%的一次合格率深度强化学习算法在复杂生产调度问题上表现优异,某工厂应用后生产效率提升18%大数据与机器学习结合实时分析与决策流处理框架支持即时预测分布式机器学习跨多节点训练大规模模型海量数据处理大数据平台提供数据存储与计算能力大数据与机器学习的结合创造了前所未有的分析能力在数据处理方面,Hadoop生态系统和Spark成为处理PB级数据的基础架构HDFS提供分布式存储,MapReduce和Spark提供分布式计算,而Hive、Impala等工具简化了数据查询国内阿里云MaxCompute和腾讯云TBDS等平台提供了类似功能,支持企业级大数据应用分布式机器学习框架如TensorFlow、PyTorch的分布式版本、MXNet以及国产的OneFlow等,使模型训练能够横向扩展到多台服务器参数服务器架构和AllReduce等技术实现了高效的模型参数同步为支持流式数据处理,Flink、Spark Streaming、Storm等框架与机器学习结合,实现了实时预测例如,某电商平台使用Flink结合在线学习算法,实现了千万级用户的实时个性化推荐,推荐点击率提升30%大模型训练如GPT系列需要处理TB级数据集,结合多阶段流水线、梯度累积和混合精度等技术,优化训练效率模型部署与自动化模型监控与维护A/B测试与灰度发布建立模型性能监控系统,及时发现模型持续集成与部署CI/CD通过A/B测试比较新旧模型性能,使用退化并触发更新监控内容包括技术指模型封装与容器化建立自动化流水线,实现模型的持续训灰度发布策略安全上线这种方法允许标(延迟、资源使用)、统计指标(输将训练好的机器学习模型封装为微服务练、测试和部署CI/CD工具如新模型先在有限用户群体上测试,评估入分布偏移、特征稳定性)和业务指标或容器,便于部署和扩展常用技术包Jenkins、GitLab CI以及专业的其实际业务影响,发现潜在问题后可快(转化率、收入)当发现模型性能下括Docker容器化、RESTful API接口MLOps平台能够自动化执行数据验速回滚,降低风险如某推荐系统更降时,系统可自动触发重训练流程或发和模型序列化(如pickle、ONNX、证、模型训练、性能评估和部署流程新,先向5%用户推送新模型,观察关键出警报,确保模型长期有效TensorFlow SavedModel)容器化这大大减少了手动操作错误,加快了模指标变化后再扩大范围技术解决了在我机器上能运行的环境型从实验到生产的转换速度依赖问题,确保模型在不同环境中表现一致特征工程与自动特征生成手动特征工程AutoML与自动特征生成特征工程是将原始数据转化为模型可用格式的过程,通常需要领AutoML技术旨在自动化机器学习流程,包括特征工程自动域知识和经验手动特征工程包括特征生成工具包括•数值型特征处理归一化、标准化、对数变换、分箱等•Featuretools基于深度特征合成DFS自动创建关系型数据特征•类别型特征处理独热编码、标签编码、目标编码等•tsfresh自动从时间序列数据提取有意义的特征•时间特征提取年、月、日、周、季节性特征等•FLAML微软开发的自适应特征生成框架•特征组合创建交互特征,如A×B、A+B等•AutoGluon亚马逊开发的端到端AutoML工具•特征选择过滤法、包装法、嵌入法等在一个客户流失预测项目中,AutoML系统自动生成了超过高质量的特征工程通常比复杂算法更能提升模型性能,但非常耗200个特征,发现了数据科学家未曾考虑的模式,如连续两个时月服务呼叫次数增加是强预测因子,模型准确率提升了12%过拟合与欠拟合问题过拟合现象欠拟合现象过拟合指模型在训练数据上表现极欠拟合指模型过于简单,无法捕捉佳,但在新数据上表现差表现为数据中的重要模式,在训练集和验训练误差远低于验证误差,模型证集上都表现不佳表现为训练误记住了训练数据而非学习一般规差和验证误差都较高且接近常见律常见于模型过于复杂(如深层于线性模型应用于复杂非线性关神经网络、高阶多项式)或训练数系,或特征选择不当导致关键信息据太少的情况过拟合模型捕捉了缺失的情况欠拟合模型通常有高数据中的随机噪声,而非真实模偏差bias,低方差式variance判断与平衡方法使用学习曲线(训练集和验证集上的误差随训练量变化)判断拟合状态过拟合时,两条曲线间隙大;欠拟合时,两条曲线都高并接近解决过拟合的方法包括增加训练数据、使用正则化(L1/L2/弹性网络)、Dropout、早停、集成方法解决欠拟合的方法包括增加模型复杂度、添加特征或特征交互、减少正则化强度模型可解释性与可用性挑战黑盒问题解释性需求复杂模型难以理解其决策过程监管合规和用户信任要求可解释性性能与解释性平衡解释工具权衡模型精度与可理解性LIME、SHAP等技术提供决策解释随着机器学习模型复杂度增加,黑盒问题日益突出在医疗、金融等高风险领域,仅有高准确率是不够的,还需了解模型为何做出特定决策可解释性对满足监管要求(如欧盟GDPR解释权)、识别潜在偏见、建立用户信任和便于调试都至关重要解释技术大致分为内在可解释模型(决策树、线性/逻辑回归、规则集)和模型解释工具LIME局部可解释模型不可知解释通过在预测点周围拟合局部简单模型解释任何分类器SHAPSHapley AdditiveexPlanations基于博弈论概念,计算每个特征对预测的贡献Partial DependencePlot显示特定特征变化对预测的影响某中国银行使用这些工具解释其贷款审批算法,不仅使客户理解拒贷原因,还帮助识别了算法中对某些地区居民的无意偏见,提高了公平性机器学习伦理与隐私保护算法偏见隐私保护法规与标准机器学习算法可能继承或放大机器学习系统通常需要大量个全球各地正在建立AI伦理和隐训练数据中的社会偏见例人数据,引发隐私风险差分私法规欧盟GDPR对个人数如,某招聘算法因训练数据中隐私通过添加精确控制的噪声据处理设定了严格规定;《中女性比例低而对女性应聘者产保护个体数据;联邦学习允许国个人信息保护法》为中国公生歧视应对方法包括审计训模型在不共享原始数据的情况民提供了类似保护;美国CCPA练数据寻找偏见、使用公平性下进行训练;安全多方计算和授予消费者数据权利行业标约束的算法设计、多样化训练同态加密使加密数据上的计算准如ISO/IEC27701和IEEE数据以及定期的偏见检测成为可能,实现用数据不见数7000系列提供了隐私和伦理实据践指南责任与问责明确的责任链对于AI系统至关重要这包括建立AI伦理委员会审查项目、记录模型开发决策、持续监控部署系统的影响、建立反馈机制修正问题以及设计问责制度确保合规透明的模型卡和数据表能够记录模型特性和限制未来发展趋势生成式AI与大模型基于Transformer架构的大型语言模型LLM如GPT-
4、文心一言和通义千问正在重塑AI领域这些模型展现出惊人的多任务能力和少样本学习能力,能够理解和生成人类语言、代码、图像等未来趋势包括多模态整合、降低计算成本和提高推理能力联邦学习联邦学习允许跨组织训练模型而无需共享原始数据,解决了数据孤岛和隐私问题这一技术在医疗、金融等敏感数据领域特别有价值未来发展方向包括垂直联邦学习的商业应用、更高效的通信协议和针对攻击的安全防护边缘智能将AI能力部署到边缘设备(手机、IoT设备)而非云端,实现低延迟、离线工作和保护隐私模型压缩、量化和神经网络架构搜索等技术使复杂AI在资源受限设备上运行成为可能预计到2025年,超过50%的数据将在网络边缘处理和分析自主系统与增强智能AI正从辅助决策工具发展为自主系统,同时增强人类能力而非替代人类自动驾驶、智能机器人和自主无人机代表着AI自主性的提升,而增强现实与AI结合的系统则提升了人类的分析和创造能力未来重点是人机协作界面和混合智能系统总结与问答课程核心内容从基础概念到前沿趋势的系统讲解实用技能掌握各类算法的选择与应用方法后续学习深入特定领域的机器学习应用在本课程中,我们系统地学习了机器学习的基础理论、主要算法类型及其应用场景从监督学习的线性回归、逻辑回归、决策树到无监督学习的聚类和降维技术,再到深度学习的基本原理,我们建立了完整的机器学习知识体系通过实际案例分析,我们了解了机器学习在金融、医疗、制造业等领域的革命性应用,以及如何处理数据预处理、特征工程、模型训练和评估等关键环节我们还讨论了模型可解释性、隐私保护和伦理问题的重要性,以及应对这些挑战的方法最后,我们展望了包括大模型、联邦学习和边缘智能在内的未来发展趋势希望这些知识能帮助大家在实际工作中应用机器学习解决复杂问题。
个人认证
优秀文档
获得点赞 0