还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《费雪机械学习》概述欢迎来到《费雪机械学习》课程!本课程系统地介绍机械学习的核心概念、技术和应用,从基础理论到实际应用,帮助学习者建立完整的知识体系课程内容涵盖机械学习基础概念、算法原理、模型评估与优化等方面,旨在培养学习者的理论基础和实践能力通过系统学习,您将掌握机械学习的关键技术,能够解决实际问题本课程特别适合AI技术研究人员和应用开发者,无论您是刚接触这个领域还是希望深化知识,都能从中获益我们将通过理论讲解和实际案例,帮助您真正理解和应用机械学习技术第一部分机器学习基础机器学习的定义与相关领域的关系费雪观点机器学习是人工智能的一个分支,研究计算人工智能是广义概念,包含机器学习;而深费雪观点强调数据驱动、统计基础与实用价机系统如何通过经验自动改进性能它使计度学习则是机器学习的一个重要子集,专注值的平衡,认为好的机器学习模型应建立在算机能够在没有明确编程的情况下学习和适于多层神经网络架构坚实的统计理论基础上,同时具有实际应用应价值机器学习的主要类型包括监督学习、无监督学习、半监督学习和强化学习,每种类型都有其特定的应用场景和技术特点费雪理论特别强调算法的可解释性和稳定性,这对于构建可靠的机器学习系统至关重要机器学习的历史发展1年代早期探索1950这一时期出现了人工智能的概念,图灵测试被提出,标志着机器智能研究的开始第一个神经网络模型被设计出来,为后续发展奠定基础2年代专家系统时代1980基于规则的专家系统成为主流,计算机开始能够模拟人类专家的决策过程这一时期的系统主要依靠人工编码的规则库来解决特定领域问题3年代统计学习兴起1990机器学习开始向统计学习方法转变,支持向量机等算法被发明,数据驱动的方法逐渐取代纯规则的方法这期间奠定了现代机器学习的理论基础4年后深度学习革命2010深度学习技术取得突破性进展,特别是在计算机视觉和自然语言处理领域GPU计算能力的提升和大数据的可用性促进了这一革命机器学习基本概念数据、特征与标签数据是机器学习的燃料,特征是数据的属性或特性,标签是我们希望预测的目标值高质量的数据和有代表性的特征对模型性能至关重要模型、参数与超参数模型是算法学习的结果,参数是模型内部通过训练学习的值,而超参数是算法运行前人工设定的配置模型质量直接决定了预测效果数据集划分训练集用于模型学习,验证集用于调整超参数,测试集用于评估最终性能合理的数据划分有助于准确评估模型的泛化能力过拟合与欠拟合过拟合指模型过度学习训练数据的噪声,欠拟合则是模型无法捕捉数据的基本模式平衡这两者是机器学习中的关键挑战机器学习的类型监督学习无监督学习使用带标签的数据训练模型,包括分类(预测使用无标签数据发现数据中的隐藏模式,主要类别)和回归(预测连续值)任务常见算法包括聚类和降维代表算法有K均值聚类、层有线性回归、决策树和神经网络等次聚类和主成分分析等强化学习半监督学习智能体通过与环境交互并获得奖励反馈来学习同时使用标记和未标记数据进行训练,适用于最优行为策略适用于游戏、自动驾驶等需要标记数据稀缺但未标记数据丰富的情况结合序列决策的场景了监督和无监督学习的优势第二部分数据预处理数据收集与质量评估数据清洗与异常处理高质量的数据收集是成功的基础,需评估数据的完整性、准确性、处理缺失值、异常值和噪声数据,确保数据的一致性和可靠性这一致性和代表性数据质量问题会直接影响模型性能,因此需建立一步骤通常消耗大量时间但对最终模型至关重要严格的质量评估标准数据变换与归一化特征工程对数据进行标准化、归一化或其他变换,使其适合算法处理合适创建、选择和转换特征以提高模型的预测能力良好的特征工程往的变换可以提高训练效率并改善模型性能往比复杂的算法更能提升模型性能数据采集与存储数据类型分类常见数据来源数据存储技术结构化数据具有预定义模式的表格数据,•公共数据集和数据仓库针对大规模数据,常用技术包括分布式文件如数据库中的表格系统(如HDFS)、NoSQL数据库(如•网络爬虫和API接口MongoDB、Cassandra)和数据仓库解非结构化数据无固定格式的数据,如文本•传感器和物联网设备决方案文档、图像和视频等•用户交互和行为日志数据湖技术允许在原始格式下存储大量数•内部业务系统半结构化数据不完全符合结构化模型但包据,便于灵活分析含标记元素,如JSON和XML文件在数据采集和存储过程中,必须考虑数据隐私和安全问题,遵守相关法规如GDPR或国内的个人信息保护法建立合适的数据治理框架对于保障数据质量和合规性至关重要数据清洗技术缺失值识别与处理•删除当缺失比例低且随机分布时•填充使用均值、中位数、众数或预测值•高级方法基于模型的多重插补异常值检测与处理•统计方法Z-分数、IQR法则•基于模型的方法隔离森林、单类SVM•处理策略删除、替换或单独建模重复数据识别与合并•精确匹配完全相同记录的检测•模糊匹配处理相似但不完全相同的记录•实体解析确定不同表示指向同一实体数据一致性检验•格式标准化统一日期、货币等格式•逻辑验证检查字段间关系的合理性•跨源验证比较不同来源的相同数据特征工程特征选择从原始特征集中选择最相关的子集,减少维度和噪声特征提取与转换创建新的、更有信息量的特征,捕获数据中的重要模式降维技术减少特征数量同时保留关键信息,提高效率并防止过拟合自动化工具使用特征工程框架和AutoML工具简化流程特征工程是机器学习中最关键的环节之一,往往比算法选择对模型性能影响更大良好的特征应该具有信息量大、与目标相关、独立性强等特点实践中,特征工程需要结合领域知识和数据分析,是一个反复迭代的过程特征选择过滤法包装法基于统计指标评估特征与目标的相关性,使用目标模型的性能作为特征子集的评价与模型无关常用方法包括相关系数、卡标准递归特征消除RFE、前向选择和后方检验、信息增益和方差分析等这些方向消除等方法属于此类这些方法考虑了法计算高效但可能忽略特征间的交互作特征间交互但计算成本高用嵌入法特征重要性评估在模型训练过程中自动选择特征常见的使用已训练模型评估每个特征的贡献度包括带正则化的线性模型(如Lasso回常用于随机森林、梯度提升树等集成模型归)和基于树的特征重要性这些方法结中,提供直观的特征排序和选择依据合了过滤法和包装法的优点第三部分线性模型线性回归原理逻辑回归与分类线性回归模型假设目标变量与特征之间存在线性关系,通过最小逻辑回归虽名为回归,实际是一种分类算法,通过Sigmoid函数化预测值与实际值之间的误差来学习参数这是最基础也是最广将线性组合转换为概率输出,常用于二分类问题,也可扩展到多泛应用的预测模型之一分类场景线性判别分析优化方法LDA通过寻找能够最大化类间方差同时最小化类内方差的投影,解决线性模型通常采用解析解(如最小二乘法)或迭代优化(如实现数据降维和分类与PCA不同,LDA是一种有监督的方法梯度下降)正则化技术如L
1、L2正则化可防止过拟合并提高模型泛化能力线性回归单变量线性回归多变量线性回归最简单的回归形式,只考虑一个自变量与因变量之间的线性关系模扩展到多个自变量的情况,模型公式为y=w₁x₁+w₂x₂+...+型公式为y=wx+b,其中w是权重,b是偏置项w x+b这种模型可以捕捉多个特征与目标变量的关系ₙₙ单变量线性回归可以通过简单的最小二乘法求解,也可以直观地用散多变量线性回归需要考虑特征间的多重共线性问题,可能需要进行特点图和拟合线可视化征选择或正则化处理线性回归的优化目标是最小化预测值与实际值之间的平方误差和(最小二乘法),这可以通过解析解直接计算,也可以通过梯度下降等迭代方法求解梯度下降法特别适用于大规模数据集,通过逐步调整参数,朝着使损失函数最小化的方向前进线性回归的评估MSE RMSE均方误差均方根误差预测值与实际值差异的平方的平均值,越小表示模型越准确MSE的平方根,与原始数据单位相同,便于解释R²MAE决定系数平均绝对误差模型解释的因变量方差比例,范围为0-1,越接近1表示拟合越好预测值与实际值绝对差异的平均值,对异常值不敏感残差分析是评估线性回归模型的重要工具,通过检查残差(实际值减预测值)的分布特性,可以判断模型假设是否满足理想情况下,残差应该呈正态分布,且与预测值无明显相关性交叉验证方法如k折交叉验证可以更全面地评估模型的泛化能力,避免对特定数据集过度拟合通过在不同数据子集上反复训练和验证,获得更可靠的性能评估逻辑回归函数Sigmoid将线性组合转换为0-1之间的概率值二分类问题将概率阈值设为
0.5,大于则为正类,小于则为负类多分类扩展3一对多OvR或一对一OvO策略,或使用softmax函数正则化L1或L2正则化防止过拟合,增强模型泛化能力逻辑回归虽然名称中包含回归,但实际上是一种分类算法它通过Sigmoid函数将线性模型的输出转换为概率值,再根据概率值进行分类决策逻辑回归的损失函数通常使用对数似然(交叉熵),通过最大化数据的似然概率来优化模型参数在实际应用中,逻辑回归是许多分类任务的首选算法,特别是当需要模型具有良好解释性且计算资源有限时它也常作为更复杂模型的基准比较对象线性模型的优缺点优势局限性适用场景•计算效率高,训练和预测速度快•无法捕捉非线性关系•数据量较小的场景•模型简单,参数少,不易过拟合•对特征工程要求高•需要高解释性的应用•高度可解释性,每个特征的影响清晰•对异常值敏感•特征与目标线性相关•对小数据集有良好表现•假设特征间相互独立•资源受限的环境•可作为基线模型快速建立•在复杂数据集上表现受限•作为更复杂模型的基准与其他模型相比,线性模型通常在复杂性和表现力方面处于较低水平,但在效率和解释性方面具有优势在实际应用中,可以先尝试线性模型,如果性能不足再考虑更复杂的非线性模型如决策树、随机森林或神经网络第四部分决策树基本结构纯度度量决策树是一种树形结构模型,由节点(代表特征)和分支(代表特征构建决策树时,需要选择最优的特征进行分割,常用的纯度度量包取值)组成从根节点开始,根据特征值选择分支,直到到达叶节点括得到预测结果•信息增益基于熵的减少来选择特征典型的决策树包含根节点、内部节点和叶节点,每个内部节点代表一•增益率信息增益的归一化版本个特征的测试,每个分支代表测试的一个结果,每个叶节点代表预测•基尼不纯度衡量集合的不纯净程度的类别或值决策树的构建通常采用贪心算法,在每个节点选择最优的特征进行分割为了防止过拟合,常使用剪枝技术对树进行简化,包括预剪枝(在构建过程中停止生长)和后剪枝(构建完整树后再简化)决策树的优势在于可解释性强、可处理混合类型特征、对特征缩放不敏感,但单棵树容易过拟合且不稳定,这也是后来发展集成方法如随机森林的原因决策树算法算法分裂标准处理特征类型处理缺失值剪枝策略ID3信息增益仅分类特征不支持无内置剪枝C
4.5增益率分类和连续特支持错误率后剪枝征CART基尼不纯度/分类和连续特支持成本复杂度剪均方差征枝ID3算法是最早的决策树算法之一,使用信息增益选择最佳分裂特征信息增益基于熵的减少来衡量,熵越小表示数据纯度越高但ID3倾向于选择取值较多的特征,且只能处理分类特征C
4.5是ID3的改进版,引入了增益率作为分裂标准,克服了ID3偏向多值特征的缺点C
4.5还能处理连续特征和缺失值,并使用悲观错误率进行后剪枝,提高了模型泛化能力CART算法构建二叉树,对分类问题使用基尼不纯度,对回归问题使用均方差作为分裂标准CART支持复杂的剪枝策略,在实际应用中非常流行,是许多现代集成方法如随机森林的基础决策树的优化剪枝技术•预剪枝设置最大深度、最小样本数等阈值限制树生长•后剪枝先构建完整树,再自下而上评估节点合并的影响•基于代价复杂度的剪枝平衡树的复杂度和准确性属性选择度量•信息增益基于熵减少,但偏好多值特征•增益率信息增益除以特征自身的熵,降低多值特征偏好•基尼不纯度衡量随机选取样本被错误分类的概率连续值处理•二分法寻找最优分割点将连续特征离散化•多区间划分将连续特征划分为多个区间•动态调整在树生长过程中重新评估分割点缺失值处理•使用多数值或平均值填充•将缺失作为一个特殊值处理•根据已知特征预测缺失值•分裂时使用所有可用样本的加权集合第五部分神经网络深度学习多层神经网络架构,自动学习复杂特征反向传播2自动计算梯度,从后向前更新网络参数网络结构输入层、隐藏层、输出层组成的前馈架构人工神经元模拟生物神经元的基本计算单元神经网络是一种受人脑结构启发的机器学习模型,由多层互连的人工神经元组成每个神经元接收多个输入,通过权重、偏置和激活函数计算输出通过调整权重和偏置,神经网络可以学习复杂的函数映射关系前馈神经网络是最基本的神经网络类型,信息单向从输入层流向输出层反向传播算法是训练神经网络的核心,通过计算损失函数对参数的梯度,逐层向后调整权重,最小化预测误差深度学习是神经网络的延伸,使用更多层次的网络结构学习更复杂的特征表示神经网络基础感知机模型历史激活函数类型感知机由Frank Rosenblatt于1958年提出,是神经网络的最早形•Sigmoid早期常用,但存在梯度消失问题式最初只能解决线性可分问题,后来的多层感知机克服了这一局•Tanh改进的Sigmoid,输出范围为[-1,1]限•ReLU现代网络主流选择,解决梯度消失问题20世纪80年代反向传播算法的发明解决了多层网络的训练问题,推•Leaky ReLU解决死亡ReLU问题动了神经网络研究的复兴•Softmax用于多分类输出层网络层次结构设计是神经网络的关键决策,包括层数、每层神经元数量、连接方式等深度网络可以学习更复杂的特征,但也面临训练难度增加、计算资源需求大等挑战参数初始化方法对网络训练至关重要,合适的初始化有助于加速收敛并避免局部最优常用方法包括Xavier初始化、He初始化等,它们基于网络结构特点设计,使得信号可以在网络中平稳传播批量归一化等技术也能减轻初始化敏感性的影响神经网络训练损失函数设计反向传播原理损失函数衡量模型预测与真实值的差异,反向传播是训练神经网络的关键算法,通为网络提供学习信号回归问题常用均方过链式法则计算损失函数对每个参数的梯误差MSE,分类问题常用交叉熵损失度它首先前向传播计算预测值,然后反损失函数设计需要考虑问题性质、数据分向传播计算梯度,最后更新参数这一过布和优化特性程高效地解决了多层网络的训练问题批量处理优化器选择批量处理是平衡计算效率和更新稳定性的优化器决定如何使用梯度更新参数SGD技术大批量提供稳定梯度但内存消耗是最基本的方法,而Adam、RMSprop大,小批量更新频繁但可能不稳定Mini-等自适应方法通常收敛更快不同优化器batch是两者的折中,也有助于逃离局部有各自的优缺点,选择需考虑问题特点、最优计算资源和收敛要求深度神经网络多层感知机MLP最基本的前馈神经网络,由多个全连接层组成每层神经元与前一层的所有神经元相连,适用于表格数据处理MLP结构简单但功能强大,可以拟合任意连续函数,是其他深度学习架构的基础卷积神经网络CNN专为处理网格结构数据如图像设计的神经网络CNN使用卷积层提取局部特征,使用池化层降维,最后通过全连接层进行分类卷积操作大大减少了参数数量,提高了计算效率,使得CNN在图像处理领域表现卓越循环神经网络RNN适用于序列数据处理的神经网络,通过隐藏状态保持对历史信息的记忆传统RNN存在长期依赖问题,LSTM和GRU等变体通过门控机制解决了这一问题,广泛应用于自然语言处理和时间序列分析Transformer是近年来最具革命性的架构,通过自注意力机制并行处理序列数据,克服了RNN的串行计算限制它已成为NLP领域的主导架构,并逐渐扩展到计算机视觉等其他领域以Transformer为基础的预训练模型如BERT、GPT等推动了AI技术的快速发展神经网络应用神经网络在各领域都有广泛应用在计算机视觉领域,CNN实现了图像分类、目标检测和语义分割等任务;在自然语言处理中,RNN和Transformer架构用于机器翻译、情感分析和文本生成;推荐系统使用神经网络学习用户偏好,提供个性化推荐;强化学习结合神经网络解决复杂决策问题,应用于游戏AI和机器人控制随着技术进步,神经网络应用不断扩展到医疗诊断、金融预测、自动驾驶等更多领域特别是深度学习的发展,使得神经网络能够处理更复杂的任务,产生更高质量的结果,正在重塑各行各业的工作方式和生产效率第六部分支持向量机最大间隔分类器核函数技术支持向量机SVM的核心思想是寻找能够以最大间隔分隔不同类别数核函数是SVM处理非线性问题的关键,它将原始特征空间中的数据据的超平面这种最大间隔策略提高了模型的泛化能力,使其在未见映射到更高维的空间,使线性不可分的数据变得线性可分数据上表现更好常用的核函数包括线性核、多项式核和径向基核函数RBF核技巧支持向量是距离决策边界最近的数据点,它们支撑起分隔超平面避免了显式计算高维空间中的坐标,大大提高了计算效率SVM的优化目标就是最大化这些支持向量到超平面的距离软间隔SVM通过引入松弛变量,允许一些数据点违反分类约束,提高了模型对噪声和异常值的鲁棒性正则化参数C控制间隔最大化与错误分类之间的平衡,是SVM的重要超参数SVM参数优化通常通过网格搜索或随机搜索结合交叉验证进行关键参数包括核函数类型、核函数参数(如RBF核的γ值)和正则化参数C优化这些参数对SVM性能至关重要,尤其是在处理复杂数据集时基本原理SVM核函数技术线性核函数最简单的核函数形式,Kx,y=x·y适用于原始特征空间中线性可分的数据线性核的主要优势是计算效率高,模型简单,解释性强,适合特征数量较多而样本较少的情况当数据确实呈线性关系时,使用更复杂的核函数可能导致过拟合多项式核函数形式为Kx,y=γx·y+r^d,其中d是多项式的阶数,γ和r是可调参数多项式核能够捕捉特征间的非线性组合关系,适合解决中等复杂度的问题较高阶的多项式核可能导致过拟合,且计算复杂度随阶数增加而迅速上升径向基核函数最常用的非线性核函数,形式为Kx,y=exp-γ||x-y||²RBF核将原始空间映射到无限维空间,能处理高度非线性的数据参数γ控制决策边界的灵活性,较大的γ值倾向于过拟合,较小的γ值则接近线性核RBF核广泛应用于各类复杂数据集核函数选择是SVM应用中的关键决策一般建议首先尝试线性核,如果效果不佳再考虑RBF核核函数参数、正则化参数C以及数据预处理方式(如标准化)共同影响SVM的性能在实践中,应通过交叉验证系统地比较不同核函数和参数组合的性能第七部分贝叶斯方法贝叶斯定理贝叶斯分类器贝叶斯定理描述了条件概率的计算方法,贝叶斯分类器基于贝叶斯定理计算给定特公式为PA|B=PB|APA/PB在机征条件下各类别的后验概率,选择概率最器学习中,它用于根据观察到的数据更新大的类别作为预测结果朴素贝叶斯是最我们对模型参数的信念,将先验概率转变常用的贝叶斯分类器,它假设特征之间条为后验概率件独立贝叶斯方法的核心优势在于它提供了一个尽管条件独立假设在实际中往往不成立,处理不确定性的框架,能够自然地融合先但朴素贝叶斯在文本分类、垃圾邮件过滤验知识,并随着新数据的获取不断更新模等任务中表现出色,这种朴素但有效的型特性使其成为实践中的重要工具贝叶斯网络贝叶斯网络是表示随机变量间概率关系的有向无环图模型图中的节点表示随机变量,边表示条件依赖关系,每个节点有一个条件概率表,描述其与父节点的关系贝叶斯网络能够有效建模复杂的依赖关系,支持推理和决策,在医疗诊断、风险评估等领域有广泛应用学习贝叶斯网络结构是一个挑战性问题,通常需要结合领域知识和数据驱动方法朴素贝叶斯条件独立性假设拉普拉斯平滑连续特征处理文本分类应用朴素贝叶斯假设所有特征在给定类别的情为避免零概率问题,朴素贝叶斯通常应用对于连续特征,朴素贝叶斯通常假设其服朴素贝叶斯在文本分类中特别有效,通常况下相互独立,即Px|y=∏Pxi|y这拉普拉斯平滑,在计数中添加一个小的正从高斯分布,估计每个类别下特征的均值使用多项式模型处理词频特征它在情感种简化使得概率估计变得可行,但也是模数这种技术防止了某个未在训练集中出和方差也可以通过离散化将连续特征转分析、垃圾邮件过滤等任务中表现优异,型的主要限制现的特征值使整个概率变为零换为分类特征是自然语言处理的基础工具朴素贝叶斯的主要优势在于训练和预测速度快、对小数据集有效、易于实现和理解虽然条件独立假设在实际中很少完全满足,但模型在许多实际应用中仍然表现良好贝叶斯分类器还具有增量学习能力,可以轻松更新模型以适应新数据在高维特征空间(如文本分类)中,朴素贝叶斯往往比复杂模型表现更好,这与模型简单性有关,简单模型在高维空间中不易过拟合第八部分集成学习集成学习通过组合多个基础学习器的预测结果,创建一个更强大、更稳定的模型它的核心思想是三个臭皮匠,胜过诸葛亮,即使用多个可能较弱的学习器集体决策,能够获得比单个学习器更好的性能集成方法主要分为三类Bagging(如随机森林)通过对训练数据进行自助采样创建多样性,每个基学习器独立训练;Boosting(如AdaBoost、梯度提升)通过序列训练基学习器,每个新学习器关注前一个学习器的错误;Stacking则训练一个元学习器,学习如何最佳组合基学习器的预测现代集成方法如XGBoost和LightGBM在各类机器学习竞赛和实际应用中表现卓越,成为数据科学家的常用工具随机森林构建基础决策树随机抽样数据子集和特征子集训练每棵树引入随机性随机特征选择和引导式抽样提高树的多样性集成预测3多棵树投票表决(分类)或平均预测值(回归)参数优化调整树数量、树深度和特征抽样比例等参数随机森林是一种基于Bagging思想的集成学习方法,通过构建多棵决策树并取多数票来分类或平均值来回归它的核心特点是引入了两种随机性一是对训练数据的随机抽样(Bootstrap抽样),每棵树使用不同的数据子集;二是特征选择的随机性,每个节点分裂时只考虑特征子集,而非全部特征随机森林的主要优势包括抗过拟合能力强、可处理高维数据、能评估特征重要性、训练高效(可并行化)、对缺失值和异常值稳健其参数调优相对简单,主要关注树的数量(通常越多越好,但有收益递减)、树的最大深度(控制复杂度)、每个节点考虑的特征数(影响树的多样性)等在实际应用中,随机森林常作为基准模型,为更复杂的集成方法提供比较基础。
个人认证
优秀文档
获得点赞 0