还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习教学课件总览本课件适用于高校及培训课程,全面覆盖机器学习的核心内容我们将通过页精心50设计的内容,结合理论讲解、实际案例分析与代码实践,帮助学习者系统掌握机器学习的基础知识和应用技能,为今后在人工智能领域的深入研究和实际工作打下坚实基础什么是机器学习?机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习并提高性能,而无需明确编程其核心思想是让算法通过观察数据、寻找模式并做出决策,随着数据量的增加而不断优化其性能机器学习在人工智能领域中扮演着基础性角色,它为计算机提供了学习的能力,而深度学习则是机器学习的一个特殊子集,采用多层神经网络结构处理复杂问题机器学习的发展简史年代11950-1960阿兰图灵提出图灵测试,弗兰克罗森布拉特发明感知机模型,奠定了神经··网络的理论基础2年代1970-1980经历冬天后,反向传播算法的提出重新激活了神经网络研究,决策树、AI支持向量机等经典算法也在此期间诞生年代31990-2000统计学习理论与核方法兴起,贝叶斯网络、随机森林等集成方法获得发展深蓝战胜国际象棋冠军IBM4年至今2010深度学习爆发式发展,战胜围棋世界冠军,大型语言模型如系AlphaGo GPT列改变了应用格局AI机器学习的应用场景医疗影像识别金融风控自动驾驶利用深度学习对光片、、等医学影像进通过机器学习模型分析用户行为特征,实时识别结合计算机视觉和强化学习技术,让车辆能够感X CTMRI行自动化分析,辅助医生诊断癌症、骨折等疾病,欺诈交易,为银行和金融机构每年挽回数亿元损知环境、做出决策并安全导航,目前级L2-L3提高诊断准确率达失,假阳性率低于自动驾驶已在多个国家商用15-20%5%机器学习三大流派无监督学习算法从无标记数据中发现隐藏的结构和模式监督学习聚类客户分群、异常检测•降维数据压缩、可视化算法从标记数据中学习,目标是预测未知数•据的标签分类垃圾邮件识别、图像识别强化学习•回归房价预测、销量预测•算法通过与环境交互、获取反馈来学习最优策略游戏围棋、电子游戏•AI控制系统机器人导航•课程体系与学习目标理论基础与模型原理实践编程与项目应用掌握机器学习的数学基础熟练使用及主流机器学习库••Python理解各类算法的原理与适用条件掌握数据处理与特征工程技巧••学会评估模型性能与调优方法能够独立完成机器学习项目全流程••了解前沿技术发展与研究方向具备解决实际业务问题的能力••机器学习基础数学1线性代数基础2微积分与最优化3概率统计基础矩阵运算是机器学习的核心,包括矩阵导数、梯度、雅可比矩阵等概念用于模条件概率、贝叶斯定理、各种概率分布乘法、转置、逆矩阵、特征值分解等操型训练中的参数优化凸优化理论是许如高斯分布、伯努利分布是建模不确定作向量空间与线性变换帮助我们理解多算法的理论基础,如梯度下降法和牛性的工具统计推断方法用于从样本估数据降维和特征提取的本质顿法计总体特征机器学习常用术语1数据集相关训练集用于模型学习的数据集•测试集用于评估模型性能的数据集•验证集用于调整超参数的数据集•特征模型的输入变量•标签模型的预测目标•2模型表现相关欠拟合模型过于简单,无法捕捉数据中的规律•过拟合模型过于复杂,过度拟合训练数据•正则化通过惩罚复杂模型来防止过拟合•泛化模型应用到新数据的能力•机器学习典型流程数据获取与探索收集相关数据,进行探索性分析以理解数据特点包括检查数据分布、缺失值、异常值,以及变量间关系等数据预处理清洗数据,处理缺失值和异常值,进行特征工程,包括特征选择、构造和转换,为建模做好准备模型训练与验证选择合适的算法,在训练集上训练模型,使用交叉验证等方法评估模型性能,调整超参数以优化模型模型评估与部署在测试集上评估最终模型性能,分析错误案例,将模型部署到生产环境,并设计监控机制持续跟踪模型表现监督学习简介目标与流程分类与回归监督学习的目标是从已标记的训练数据中学习一个函数,该函数能够将输入映射监督学习主要解决两类问题到正确的输出其基本流程包括分类问题预测离散类别,如垃圾邮件检测(是否)、手写数字识别()/0-9准备带标签的训练数据
1.选择合适的模型和损失函数回归问题预测连续值,如房价预测、温度预测、销售额预测
2.通过最小化损失函数优化模型参数
3.使用测试数据评估模型泛化能力
4.线性回归原理模型假设与表达式损失函数线性回归假设目标变量与特征之间存在线性关系最小二乘法通过最小化预测值与实际值的平方差来求解参数y x矩阵形式表示为参数的闭式解为其中,是特征矩阵,是参数向量,是误差项Xβε线性回归案例房价预测实例import numpyas npimport pandas as pdfrom sklearn.linear_model importLinearRegressionfrom目标根据房屋面积、卧室数量、地理位置等特征预测房屋价格sklearn.model_selection import train_test_splitfrom sklearn.metrics importmean_squared_error,r2_score#加载数据df=pd.read_csvhouse_data.csv#特征与目标变量X=df[[面积,卧室数,建造年数据集包含1000套房屋的信息,特征包括面积(平方米)、卧室数量、建造年份、地段评分等份,地段评分]]y=df[价格]#划分训练集和测试集X_train,X_test,y_train,y_test=train_test_split X,y,test_size=
0.2,random_state=42#训练模型model=评估指标均方根误差和决定系数RMSE R²LinearRegressionmodel.fitX_train,y_train#预测与评估y_pred=model.predictX_testrmse=np.sqrtmean_squared_errory_test,y_predr2=r2_scorey_test,y_pred逻辑回归逻辑函数与模型损失函数与优化逻辑回归尽管名为回归,实际上是一种分类算法它通过逻辑函数(函数)将线性模型的输出转逻辑回归使用对数似然损失函数sigmoid换为之间的概率0-1通常使用梯度下降法优化参数其中₀₁₁₂₂z=β+βx+βx+...+βxₙₙ当概率大于时,预测为正类;否则为负类
0.5逻辑回归应用案例用户点击预测场景import pandasaspdfrom sklearn.model_selection目标预测用户是否会点击网页上的广告importtrain_test_splitfrom sklearn.linear_modelimport LogisticRegressionfrom sklearn.preprocessing特征用户年龄、性别、浏览历史、网页停留时间、设备类型等import StandardScalerfrom sklearn.metrics importaccuracy_score,roc_auc_score#加载数据df=业务价值优化广告投放策略,提高点击率和转化率,降低获客成本pd.read_csvad_clicks.csv#特征工程X=df[[年龄,停留时间,历史点击率]]X=pd.get_dummiesdf,columns=[性别,设备类型],drop_first=Truey=df[是否点击]#特征标准化scaler=StandardScalerX=scaler.fit_transformX#训练模型X_train,X_test,y_train,y_test=train_test_split X,y,test_size=
0.2,random_state=42model=LogisticRegressionC=
1.0model.fitX_train,y_train#评估模型y_pred_prob=model.predict_probaX_test[:,1]auc=roc_auc_scorey_test,y_pred_prob近邻算法()k KNN原理说明参数选择与适用场景近邻算法是一种基于实例的学习方法,其核心思想是关键参数的选择k k计算测试样本与所有训练样本的距离值过小模型复杂度高,容易过拟合••k选择距离最近的个训练样本值过大模型复杂度低,容易欠拟合•k•k对于分类问题,采用多数投票;对于回归问题,取平均值通常通过交叉验证确定最优值••k常用距离度量欧氏距离、曼哈顿距离、明可夫斯基距离等适用于样本量不大、特征空间简单的低维数据,对异常值敏感实例演示KNN手写数字识别from sklearn.neighbors importKNeighborsClassifierfrom sklearn.metrics import目标识别的手写数字图像0-9accuracy_scorefrom sklearn.model_selection数据集数据集,包含张训练图像和张MNIST60,00010,000import GridSearchCVfrom sklearn.datasets import测试图像load_digits#加载数据digits=load_digitsX,y=digits.data,digits.target#划分数据集X_train,实现步骤X_test,y_train,y_test=train_test_split X,y,
1.将28×28像素的图像展平为784维向量test_size=
0.2,random_state=42#参数优化归一化像素值至范围param_grid={n_neighbors:[3,5,7,9,11,13,
2.0-115]}grid_search=使用算法训练模型
3.KNNGridSearchCV KNeighborsClassifier,param_grid,选择最优值并评估模型准确率
4.kcv=5grid_search.fitX_train,y_trainbest_k=grid_search.best_params_[n_neighbors]#最优模型knn=KNeighborsClassifiern_neighbors=best_kknn.fitX_train,y_trainaccuracy=accuracy_scorey_test,knn.predictX_test决策树及其原理决策树基本结构分裂准则与信息增益决策树是一种树形结构的分类模型常用的分裂准则包括根节点包含所有样本信息增益基于熵的减少,算法使用••ID3内部节点表示特征或属性测试增益率算法使用,解决信息增益偏向多值属性的问题••C
4.5分支表示测试的输出基尼不纯度算法使用,衡量集合的纯净度••CART叶节点表示类别或决策结果•决策树的优点是可解释性强,缺点是容易过拟合,需要剪枝处理决策树构建过程是自上而下的递归划分过程决策树案例展示蘑菇分类问题fromsklearn.tree importDecisionTreeClassifier,export_graphvizimport graphviz#加载数据mushrooms=目标根据蘑菇的特征(如形状、颜色、气味等)判断其是否有毒pd.read_csvmushrooms.csvX=pd.get_dummiesmushrooms.dropclass,axis=1y=mushrooms[class].map{e:0,p:1}#训练决策树X_train,X_test,y_train,y_test=train_test_split X,数据集包含8,124个样本,每个样本有22个特征,类别为可食用或有毒y,test_size=
0.2,random_state=42dt=DecisionTreeClassifiermax_depth=5dt.fitX_train,y_train#可视化决策树dot_data=export_graphvizdt,feature_names=X.columns,class_names=[可食用,有毒特征包括],filled=True,rounded=Truegraph=•菌盖形状凸形、平坦、凹陷等graphviz.Sourcedot_datagraph.rendermushroom_decision_tree菌盖颜色棕色、黄色、白色等•气味杏仁味、腥味、无味等•菌褶附着方式附着、自由、挤压等•集成学习简介集成学习基本思想集成学习通过组合多个基学习器的预测结果,获得比单个学习器更好的性能这类似于三个臭皮匠,顶个诸葛亮的思想,通过集体智慧降低犯错风险方法Bagging的缩写,通过对训练集进行有放回抽样,生成Bootstrap Aggregating多个训练子集,分别训练基学习器,最终通过投票或平均得到结果代表算法随机森林方法Boosting基学习器按序列生成,每个新学习器关注前一个学习器的错误样本,逐步提高整体性能代表算法、、AdaBoost GradientBoosting XGBoost随机森林实战随机森林核心特点参数调优随机森林是的一种特殊形式,它不仅在样本上进行随机抽样,还在特征上进行随树的数量,通常越多越好,但有收益递减Bagging•n_estimators机选择每个节点考虑的特征数,影响多样性•max_features•构建多棵决策树,每棵树使用bootstrap抽样的数据•max_depth树的最大深度,控制复杂度•每个节点分裂时,从特征子集中选择最佳特征•min_samples_split/leaf控制节点分裂和叶节点的最小样本数分类问题通过投票决定结果,回归问题取平均值•通常使用网格搜索或随机搜索进行参数优化,并用交叉验证评估性能可以计算特征重要性,帮助理解模型•支持向量机()SVM最大间隔与核函数的优势与适用场景SVM支持向量机的核心思想是找到一个最优超平面,使其与最近的样本点(即支持特别适合以下场景SVM向量)距离最大高维小样本数据集•对于线性不可分的数据,通过核函数将原始特征空间映射到更高维的空间,SVM文本分类和图像识别•使数据在新空间中线性可分需要较高泛化性能的场景•常用核函数有较强的理论基础,能有效避免过拟合,但计算复杂度高,对大规模数据SVM训练速度慢线性核•Kx,y=x·y多项式核•Kx,y=γx·y+r^d高斯径向基核•RBF Kx,y=exp-γ||x-y||²应用举例SVM文本分类实践fromsklearn.feature_extraction.text import目标根据新闻文章内容将其分类到不同主题(如政治、体育、TfidfVectorizerfrom sklearn.svm importSVCfrom科技、文化等)sklearn.pipeline importPipelinefromsklearn.model_selection importGridSearchCV#创建处理流程处理流水线pipeline=Pipeline[tfidf,TfidfVectorizermax_features=5000,svm,文本预处理分词、去停用词、词干提取
1.SVCkernel=rbf,probability=True]#参数优化特征提取向量化
2.TF-IDFparam_grid={tfidf__ngram_range:[1,1,1,特征选择选取最具区分性的词语
3.2],svm__C:[
0.1,1,10],svm__gamma:模型训练与参数优化[scale,auto,
0.1,
0.01]}#交叉验证
4.SVMgrid_search=GridSearchCVpipeline,param_grid,模型评估准确率、精确率、召回率
5.cv=5,scoring=accuracygrid_search.fitX_train,y_train#最优模型best_model=grid_search.best_estimator_accuracy=best_model.scoreX_test,y_test神经网络初步感知机与多层感知机前向传播与反向传播感知机是神经网络的基本单元,它模拟了生物神经元的工作原理神经网络训练包含两个主要过程前向传播从输入层到输出层计算预测值反向传播从输出层到输入层计算梯度并更新权重反向传播算法基于链式法则,是神经网络能够学习的核心机制其中是激活函数,常用的有f•Sigmoid:fz=1/1+e^-z•tanh:fz=e^z-e^-z/e^z+e^-z•ReLU:fz=max0,z多层感知机由输入层、隐藏层和输出层组成,能学习复杂的非线性映射MLP深度学习与卷积神经网络卷积层与池化层典型架构CNN卷积神经网络是一种专为处理网格结构数据(如图像)设计的深度学习模型,其关键组件图像识别领域的经典架构CNN CNN包括最早的之一,用于手写数字识别•LeNet-5CNN卷积层使用滤波器提取局部特征,保持空间关系年竞赛冠军,深度学习兴起的标志•AlexNet2012ImageNet池化层下采样操作,减少参数数量,提高计算效率使用小卷积核和深层结构•VGGNet全连接层将特征映射转换为最终输出引入残差连接,解决深层网络的梯度问题•ResNetCNN通过局部连接和权值共享大大减少了参数数量,提高了训练效率•Inception/GoogleNet采用多尺度卷积的网络深度学习实际案例手写数字图片识别import tensorflowas tffromtensorflow.kerasimport layers,models#构建模型model=目标使用卷积神经网络识别数据集中的手写数字MNISTmodels.Sequential[layers.Conv2D32,3,3,()0-9activation=relu,input_shape=28,28,1,网络结构layers.MaxPooling2D2,2,layers.Conv2D64,3,3,activation=relu,输入层×像素的灰度图像•2828layers.MaxPooling2D2,2,layers.Flatten,第一卷积层个×滤波器,激活•3233ReLUlayers.Dense128,activation=relu,第一池化层×最大池化•22layers.Dropout
0.2,layers.Dense10,第二卷积层个×滤波器,激活activation=softmax]#编译模型•6433ReLUmodel.compileoptimizer=adam,第二池化层×最大池化•22loss=sparse_categorical_crossentropy,全连接层个神经元,激活•128ReLU metrics=[accuracy]#训练模型history=输出层个神经元(对应个数字),激活•1010Softmax model.fitX_train,y_train,epochs=10,validation_data=X_val,y_val#评估模型test_loss,test_acc=model.evaluateX_test,y_test无监督学习简介无监督学习概述无监督学习的应用无监督学习是机器学习的一个分支,它处理的是没有标签的数据,目的是发现数据中隐藏的结构或模式无监督学习主无监督学习在以下领域有广泛应用要解决两类问题客户分群和市场细分•聚类将相似的数据点分组,发现数据的自然分组异常交易和欺诈检测•降维减少数据的维度,同时保留重要信息图像压缩和特征提取•其他无监督学习任务还包括密度估计、异常检测和关联规则学习等•推荐系统中的协同过滤基因表达数据分析•文本主题提取和文档聚类•聚类K-means初始化个聚类中心K随机选择个数据点作为初始聚类中心,或使用等改进方法选择更优K K-means++的初始中心分配数据点到最近的聚类计算每个数据点到各聚类中心的距离,将其分配给距离最近的聚类中心所代表的类别更新聚类中心计算每个聚类中所有数据点的均值,将均值点作为新的聚类中心重复步骤直至收敛2-3重复分配和更新过程,直到聚类不再变化或达到最大迭代次数收敛后的聚类代表数据的自然分组案例K-means客户分群场景fromsklearn.cluster importKMeansfrom目标根据客户的购买行为将其分为不同群体,以便制定有针对性的sklearn.preprocessing importStandardScalerimport营销策略matplotlib.pyplot asplt#加载客户数据customer_data=pd.read_csvcustomer_data.csvX=customer_data[[数据包含购物频率、平均消费金额、最近一次购买间隔等特征购物频率,平均消费,购买间隔]]#标准化特征scaler=StandardScalerX_scaled=scaler.fit_transformX#应用价值确定最佳K值inertia=[]for kin range1,11:kmeans识别高价值客户群体=KMeansn_clusters=k,random_state=42•kmeans.fitX_scaled发现潜在流失风险客户•inertia.appendkmeans.inertia_#绘制肘部图针对不同群体设计差异化产品和服务•plt.plotrange1,11,inertiaplt.xlabel聚类数量•优化营销资源分配plt.ylabel惯性plt.titleK-means肘部图#使用最佳K值聚类best_k=4#从肘部图分析得出kmeans=KMeansn_clusters=best_k,random_state=42customer_data[聚类]=kmeans.fit_predictX_scaled主成分分析()PCA原理的应用PCA PCA主成分分析是一种常用的线性降维方法,它通过正交变换将原始特征空间转换为一组线性无关的广泛应用于PCA主成分,这些主成分按方差大小排序数据可视化将高维数据降至或以便可视化•2D3D的数学步骤PCA降噪去除数据中的噪声成分•
1.数据中心化减去每个特征的均值•特征提取提取数据中最具代表性的特征
2.计算协方差矩阵•预处理减少特征数量,加速后续机器学习算法计算协方差矩阵的特征值和特征向量
3.的局限性在于它只能捕捉线性关系,对于非线性数据结构效果有限PCA特征向量按特征值从大到小排序
4.选取前个特征向量构成投影矩阵
5.k将原数据投影到新空间
6.关联规则与算法Apriori关联规则基本概念算法Apriori关联规则分析是一种发现数据中项目间隐藏关系的技术,常用于市场篮分析核心指标算法是挖掘频繁项集和关联规则的经典算法,基于频繁项集的所有子集也必须Apriori包括是频繁的这一性质支持度包含某项集的交易占总交易的比例算法步骤Support置信度买了也买的条件概率Confidence AB找出所有频繁项集
1.1提升度关联规则的强度,衡量项目间的相关性Lift根据频繁项集生成候选项集
2.k-1k关联规则表示为,即如果购买了,那么也可能购买计算候选项集的支持度,筛选出频繁项集A→B AB
3.k重复步骤,直到无法生成新的频繁项集
4.2-3从频繁项集生成强关联规则
5.强化学习基础强化学习核心概念马尔可夫决策过程强化学习是一种通过与环境交互来学习最优行为策略的机器学习方法,其核心组成包括强化学习通常建模为马尔可夫决策过程,它具有以下特性MDP智能体学习做决策的实体下一状态仅依赖于当前状态和动作,与历史路径无关Agent•环境智能体所处的外部系统转移概率表示在状态下执行动作后转移到状态的概率Environment•Ps|s,a sa s状态环境的描述奖励函数定义了在状态下执行动作并转移到状态的即时奖励State•Rs,a,s sa s动作智能体可以执行的操作目标是找到最大化累积奖励的最优策略Action•奖励环境对动作的反馈信号Reward策略智能体的行为规则Policy算法Q-Learning原理游戏应用案例Q-Learning AI是一种经典的无模型强化学习算法,它通过学习动作价值函数函数来确定最优策略常用于简单游戏的训练,如迷宫寻路、贪吃蛇、简易赛车等Q-Learning-QQ-Learning AI函数表示在状态下执行动作的长期期望回报以迷宫游戏为例Q sa状态智能体在迷宫中的位置•动作上、下、左、右移动•通过以下方式更新值Q-Learning Q奖励到达终点获得正奖励,碰壁获得负奖励,其他步骤获得小的负奖励(鼓励尽快找到出口)•训练过程通过反复尝试,智能体逐渐学习到从任意位置到达终点的最短路径•其中,是学习率,是折扣因子,是即时奖励αγr机器学习的性能评估分类指标回归指标准确率正确预测的样本比例,计均方误差预测值与真实值差异的平方Accuracy MSE算公式为的平均值,计算公式为TP+TN/TP+TN+FP+FNΣy-ŷ²/n精确率预测为正的样本中真正为均方根误差的平方根,与原始Precision RMSEMSE正的比例,计算公式为数据单位相同,更直观TP/TP+FP召回率实际为正的样本中被正确预平均绝对误差预测值与真实值差异绝Recall MAE测的比例,计算公式为对值的平均值,计算公式为TP/TP+FNΣ|y-ŷ|/n分数精确率和召回率的调和平均,计算公决定系数模型解释的方差比例,范围在F1R²式为之间,越接近表示模型越好0-11××2Precision Recall/Precision+Recall可视化评估混淆矩阵展示分类模型的预测结果与实际类别的对应关系曲线反映真正例率和假正例率ROC TPR的权衡关系FPR值曲线下面积,表示模型区分不AUC ROC同类别的能力,范围在之间,越大越好
0.5-1曲线反映精确率和召回率的权衡关系,PR适用于类别不平衡的情况交叉验证与模型选择交叉验证机制模型选择策略交叉验证是一种评估模型泛化性能的方法,能更可靠地估计模型在未见数据上的表现常见的交叉验证方法包括模型选择的常用方法折交叉验证将数据分为份,每次使用份训练,份验证,重复次网格搜索穷举所有超参数组合k kk-11k留一交叉验证极端情况下等于样本数量随机搜索随机采样超参数空间LOOCV k分层交叉验证保证每个折中类别分布与原始数据一致贝叶斯优化根据先前评估结果智能搜索时间序列交叉验证考虑数据的时间顺序模型选择的准则验证集性能(准确率、、等)•F1AUC模型复杂度(参数数量、训练时间)•可解释性需求•业务需求与约束•特征工程实务特征选择从已有特征中选择最相关、最有用的子集,减少维度和噪声常用方法过滤法基于统计指标(如相关系数、互信息)•包装法基于模型性能(如递归特征消除)•嵌入法模型内部机制(如正则化、树模型重要性)•特征构造从原始特征创建新特征,捕捉更复杂的模式常用方法数学变换对数、平方根、多项式•特征组合乘积、比率、差值•时间特征周期性、趋势、滞后值•分组统计均值、中位数、计数等•特征缩放将特征转换到相似的尺度,提高算法性能常用方法归一化缩放到范围•[0,1]标准化转换为均值、标准差•01鲁棒缩放基于中位数和四分位数•最大绝对值缩放保持稀疏性•数据预处理缺失值处理异常值检测与处理缺失值是数据集中常见的问题,处理方法包括异常值可能是错误数据,也可能包含重要信息,常用检测方法删除法移除含缺失值的行或列(数据量大且缺失比例小时适用)统计方法Z-score、IQR法则插补法距离方法局部离群因子LOF、DBSCAN•统计量填充均值、中位数、众数模型方法孤立森林、单类SVM•模型预测KNN、随机森林等处理方式•时间序列插补前向/后向填充•删除确认为错误的数据指示变量法创建额外的二元特征表示缺失状态•进行数据转换(如对数变换)处理缺失值前,应先分析缺失机制(完全随机缺失、随机缺失或非随机缺失)•离散化或分箱处理•用模型进行替换机器学习常见陷阱数据泄漏样本不均衡数据泄漏指训练过程中意外引入了测试集类别分布严重不平衡会导致模型偏向多数信息,导致模型性能被错误高估类,忽略少数类时序泄漏使用未来数据预测过去重采样欠采样多数类或过采样少数类••(如)目标泄漏特征中包含目标变量信息SMOTE•加权对少数类赋予更高权重样本泄漏训练和测试集有重叠••集成法如、•EasyEnsemble解决方法严格划分训练验证测试集,保BalanceCascade持特征工程在各阶段的独立性,构建适当的交叉验证策略•选择合适的评估指标如F
1、AUC等过拟合与欠拟合过拟合模型过于复杂,在训练集表现好但泛化能力差欠拟合模型过于简单,无法捕捉数据中的模式解决过拟合增加训练数据、正则化、降低模型复杂度、早停法、集成学习解决欠拟合增加模型复杂度、增加特征、减少正则化强度模型调优技巧超参数优化方法模型性能提升技巧超参数是模型训练前需要设置的参数,不同于模型内部学习的参数常用优除了超参数优化,提升模型性能的常用技巧化方法正则化、正则化,等,防止过拟合L1L2Dropout网格搜索穷举所有参数组合,计算量大但全面Grid Search特征工程构建更有信息量的特征,是提升性能的关键随机搜索随机采样参数空间,效率往往高于网格搜索Random Search集成方法、、等,结合多个模型的优势Bagging BoostingStacking早停法监控验证集性能,在过拟合前停止训练贝叶斯优化基于先前结果智能搜索,节省计算Bayesian Optimization交叉验证更可靠地评估模型,避免对特定数据集过拟合资源遗传算法模拟自然选择过程,适合参数空间极大的Genetic Algorithm情况项目实操房价预测全流程
1.数据探索与分析1加载波士顿房价数据集,分析特征分布、相关性和缺失值绘制散点图、直方图和热力图,理解数据特点和潜在问题importpandasas pdimportmatplotlib.pyplot aspltimport seabornas snsdf=
22.特征工程与预处理pd.read_csvboston_housing.csvdf.describesns.heatmapdf.corr,annot=True处理缺失值,创建新特征(如面积比率、位置聚类),对偏斜分布进行变换,标准化数值特征,编码分类特征#创建新特征df[面积比]=df[RM]**2/df[LSTAT]#对目标变量进行对数变换df[log_price]=np.logdf[MEDV]#标准化特征fromsklearn.preprocessing importStandardScalerscaler=StandardScalerX_scaled=scaler.fit_transformX
3.模型选择与训练3尝试多种回归模型(线性回归、Ridge、Lasso、随机森林、XGBoost等),使用交叉验证评估性能,选择最佳模型进行调参fromsklearn.ensemble importRandomForestRegressorfrom sklearn.model_selection importcross_val_scoremodels={LinearRegression:LinearRegression,Ridge:Ridge,RandomForest:RandomForestRegressor,XGBoost:XGBRegressor}for name,model inmodels.items:scores=cross_val_scoremodel,X_scaled,y,cv=5,scoring=neg_mean_squared_error rmse=np.sqrt-scores.mean printf{name}:{rmse}
44.模型评估与部署在测试集上评估最终模型,分析误差分布,识别预测困难的样本,导出模型用于实际预测,构建简单的Web接口展示预测结果#保存模型import joblibjoblib.dumpbest_model,house_price_model.pkl#预测与评估y_pred=best_model.predictX_testrmse=np.sqrtmean_squared_errory_test,y_predr2=r2_scorey_test,y_pred#误差分析residuals=y_test-y_predplt.scattery_pred,residualsplt.axhliney=0,color=rplt.title残差图项目实操图片分类项目概述实现步骤目标构建一个能识别不同植物种类的图像分类模型数据准备将图像调整为统一大小,划分训练验证测试集//数据增强随机旋转、翻转、缩放、亮度变化等数据集包含个类别的植物图片,每类约张,总计张彩色图55002500像模型构建使用预训练CNN(如ResNet50)进行迁移学习模型训练设置学习率、批次大小、早停等参数技术路线使用卷积神经网络进行图像特征提取和分类,利用数CNN模型评估计算准确率、混淆矩阵、类别精确率召回率据增强提高模型泛化能力/模型可视化使用展示模型关注区域Grad-CAM机器学习与大数据大数据挑战与解决方案分布式机器学习框架大数据环境下的机器学习面临以下挑战生态系统Hadoop数据规模超出单机内存和处理能力分布式文件系统,存储大规模数据••HDFS训练时间长,实时性要求难以满足并行处理框架••MapReduce数据分布在多个节点,需要协同计算基于的机器学习库••Mahout Hadoop容错性和扩展性要求高•生态系统Spark解决方案包括内存计算引擎,比快倍•Spark CoreMapReduce10-100分布式计算框架的机器学习库••MLlib Spark并行化算法设计结构化数据处理••SparkSQL增量学习和在线学习实时数据处理••Spark Streaming采样和降维技术•机器学习与云平台机器学习服务AWS Google Cloud AIMicrosoft AzureML提供端到端的机器学习平支持、提供可视化界面和Amazon SageMakerGoogle CloudAI PlatformTensorFlow AzureMachine Learning台,支持模型训练、部署和管理等框架的分布式训练系列产,支持从实验到生产的全周期管理Amazon PyTorchAutoML PythonSDK、等预构品使非专业人员也能创建高质量模型提供提供即用型能力,Rekognition AmazonComprehend TPUAzure CognitiveServices AI建服务可直接集成到应用中,无需专业知识专用硬件加速深度学习训练如视觉、语言、搜索和决策服务AI自动机器学习AutoML原理与流程主流工具AutoML AutoML(自动机器学习)旨在自动化机器学习流程中的手动步骤,减少对专业知识的依赖主要自动化内开源工具AutoML容包括基于的自动机器学习工具•Auto-Sklearn scikit-learn特征工程与选择•使用遗传算法优化机器学习管道•TPOT算法选择•自动训练和比较多种模型•H2O AutoML超参数优化•自动深度学习框架•AutoKeras模型集成•商业服务模型评估与选择••GoogleCloudAutoML通常采用元学习、贝叶斯优化、进化算法等技术来高效搜索模型空间AutoML•Azure AutomatedML•Amazon SageMakerAutopilot•DataRobot与生成式AIGC AI生成式基本原理大语言模型AI生成式是指能够创建新内容(如文本、图像、音频、视频)的人工智能系统主要技术包括大型语言模型(如系列、)是基于架构的自回归语言模型,经过大规模文本预训练,具有以下能力AI GPTLLaMA Transformer生成对抗网络GAN由生成器和判别器组成,通过对抗训练生成逼真内容•自然语言理解与生成变分自编码器VAE学习数据的潜在表示,能生成新样本•上下文学习自回归模型根据先前内容预测下一个元素常识推理•扩散模型通过逐步去噪过程生成高质量图像代码生成•多语言翻译•这些模型通常采用预训练微调范式,先在大规模语料上预训练,再在特定任务上微调,可用于聊天机器人、内容创作、信息检索等应用-机器学习前沿方向联邦学习可解释性AI联邦学习是一种分布式机器学习方法,允许可解释性旨在使机器学习模型的决策过AI多方在不共享原始数据的情况下共同训练模程对人类可理解型模型内在可解释性决策树、线性模型•保护数据隐私原始数据不离开本地等•减少通信成本只传输模型参数事后解释方法、值等••LIME SHAP遵守数据法规如、等反事实解释探索如果改变,结果•GDPR CCPA•X会怎样应用场景医疗数据分析、智能手机个性化、银行风控等在医疗、金融、法律等高风险领域尤为重要自监督学习自监督学习从未标记数据中生成自己的监督信号,解决标注数据稀缺问题对比学习学习相似不同样本的表示•/掩码预测预测被遮挡的内容•数据增强一致性不同增强之间保持表示一致•代表工作、、等BERT SimCLRMAE伦理风险与安全性算法偏见与公平性隐私保护与合规机器学习算法可能放大或继承训练数据中的偏见,导致不公平的决策,如机器学习系统面临的隐私挑战•招聘算法对特定性别或种族的歧视•模型逆向攻击从模型输出推断训练数据•信贷评分模型对低收入群体的系统性不利•成员推断攻击判断某样本是否用于训练•刑事风险评估工具中的种族偏见•数据泄露风险在处理敏感数据时解决方案保护措施与合规要求•数据平衡与去偏审查训练数据,确保多样性和代表性•差分隐私添加噪声保护个体隐私•公平性约束在算法优化目标中加入公平性指标•安全多方计算在加密状态下处理数据•后处理技术调整模型输出以达到公平标准•同态加密允许在加密数据上进行计算•多元团队确保开发团队的多样性•法规遵从GDPR、CCPA等隐私法规•知情同意明确用户数据使用方式机器学习常见开源框架Scikit-learn TensorFlowPyTorch基于的经典机器学习库,提供开发的端到端开源平台,以静态开发的深度学习框架,以动Python GoogleFacebook简洁一致的,实现了大多数传统机计算图为特色,支持大规模分布式训练态计算图和优先的设计理念受API Python器学习算法适用于中小规模数据集的和多平台部署后引到学术界欢迎代码直观易读,调试方TensorFlow
2.0处理和入门学习,但不支持加速和入了即时执行模式,提高了易用性便,适合研究和快速原型开发GPU分布式计算优势工业级稳定性、部署便捷优势灵活直观、命令式编程风格、强优势使用简单、文档完善、与(、大的社区支持、与生态紧密集TensorFlow ServingPython科学计算生态无缝集成)、可成Python TensorFlowLite TensorBoard视化学习路线与深造建议入门学习路线进阶学习与实践平台数学基础线性代数、微积分、概率统计竞赛平台编程基础、数据结构与算法Python全球最大的数据科学竞赛平台•Kaggle数据分析、、数据可视化Pandas NumPy天池阿里巴巴旗下竞赛平台•AI机器学习基础监督无监督学习算法、模型评估/中国计算机学会大数据竞赛平台•DataFountain深度学习入门神经网络基础、、CNN RNN社区与资源项目实践竞赛、开源项目贡献Kaggle寻找开源项目和最新研究实现•GitHub推荐课程获取最新研究论文•arXiv吴恩达《机器学习》和《深度学习》系列•数据科学博客和经验分享•Towards DataScience、(斯坦福)•CS229CS231n研究机构、等发布的研究•AI OpenAIDeepMind《统计学习方法》(李航)•《机器学习》()•Python SebastianRaschka常见面试题与实战考核理论面试常见问题项目实战考核解释过拟合和欠拟合,如何解决?数据分析类•和正则化的区别及作用机制?•L1L2分析客户流失原因并建立预测模型•逻辑回归与的比较?•SVM电商网站用户行为分析与推荐系统设计•梯度下降法的原理及变种?•模型构建类决策树的分裂标准有哪些?•从原始数据构建信用评分卡模型与的区别?••Random ForestGBDT•深度学习中的反向传播原理?•实现图像分类系统并部署为Web服务•CNN中卷积层和池化层的作用?•构建时序预测模型预测销售/股价等•如何处理类别不平衡问题?能力考核点评估分类模型的指标有哪些?•数据清洗与特征工程能力•模型选择与调优能力•结果解释与业务洞察能力•工程实现与部署能力•总结与答疑课程核心要点回顾学习方法建议机器学习是一门让计算机从数据中学习的科学,包括监督、无监督和强化学习三大流派理论结合实践学习新概念后立即动手实现•构建成功的机器学习项目需要扎实的数学基础、数据处理技能和算法理解由浅入深先掌握基本算法,再探索复杂模型•特征工程和模型调优对模型性能至关重要参与开源项目阅读和贡献高质量代码•评估模型需选择合适的指标,注意避免数据泄漏和过拟合关注实际问题从现实业务中寻找应用场景•实际应用中要考虑模型的可解释性、公平性和部署效率与社区交流分享经验,向专家学习•持续学习和实践是提升机器学习技能的关键持续更新知识关注前沿研究和新工具•最后,欢迎提问!我们将在本节课解答您的疑问,帮助您更好地理解和应用机器学习技术。
个人认证
优秀文档
获得点赞 0