还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
迭代优化算法理论与实践欢迎参加《迭代优化算法理论与实践》课程本课程将系统介绍迭代优化算法的基本原理、数学基础、典型方法以及实际应用我们将从基础概念出发,逐步深入探讨各类算法的特点、优势和局限性通过本课程的学习,您将掌握从梯度下降到高级自适应方法的全面知识体系,理解优化算法在机器学习、工程优化等领域的应用,同时获得实践中的调参技巧与经验什么是迭代优化算法定义基本特征数学本质迭代优化算法是一类通过重复应用特迭代优化算法具有初始点选择、更新定计算规则,逐步改进解决方案,最规则设计、终止条件判断三个基本要终逼近最优解的数学方法其核心思素算法通常从一个初始猜测开始,想是将复杂问题分解为一系列简单步根据特定的更新规则不断调整参数,骤,通过不断迭代来逼近最优解直到满足预设的终止条件迭代优化的应用场景机器学习与人工智能工程设计与控制系统在神经网络训练、支持向量机结构优化、参数辨识、控制系求解、聚类分析等任务中,迭统设计等工程问题通常被形式代优化算法是寻找模型最优参化为数学优化问题通过迭代数的核心方法深度学习中的优化算法可以求解复杂工程结反向传播算法结合梯度下降法构的最佳设计参数,达到减等优化方法对网络权重进行调重、节能等目标整运筹优化与决策科学数学基础回顾向量与矩阵运算微积分与极值理论向量是迭代优化算法的基本操作对象,许多优化问题的参数可表函数的导数和梯度是描述函数变化趋势的关键工具,在优化算法示为向量形式向量内积、范数等概念用于度量解的质量和迭代中指导参数更新方向多元函数的偏导数、梯度、Hessian矩阵过程中的变化构成了分析函数局部性质的基础矩阵运算是高维优化问题的核心,特别是矩阵的特征值和特征向极值条件(如一阶必要条件、二阶充分条件)为判断某点是否为量分析对理解算法收敛性至关重要函数极值点提供了理论依据,是优化算法设计的基础优化问题基本分类无约束优化有约束优化优化变量不受任何限制条件约束,可以在整优化变量需满足一系列等式或不等式约束条个定义域内自由取值典型方法包括梯度下件常用方法有拉格朗日乘子法、惩罚函数降法、牛顿法和拟牛顿法等法和内点法等非凸优化凸优化目标函数或约束不满足凸性的优化问题求目标函数和约束集合均为凸的优化问题凸解困难,通常需要多次初始化或启发式方优化具有局部最优即全局最优的良好性质,法可有效求解最优化问题数学表达min fxgx≤0目标函数不等式约束表示需要最小化或最大化的目标,例如限定可行解必须满足的条件,如资源限制、误差函数、能量函数等物理边界等hx=0等式约束描述解必须精确满足的关系,如能量守恒、物理规律等一般形式的优化问题可表示为最小化目标函数fx,同时满足不等式约束gx≤0和等式约束hx=0其中x是决策变量或参数向量,表示问题的解这种数学表达为各类优化问题提供了统一的框架,使得算法设计和分析成为可能目标函数与梯度目标函数性质连续性、可微性、凸性、光滑度梯度的数学含义函数在各方向上的变化率向量梯度计算方法解析法、有限差分法、自动微分目标函数的性质直接决定了优化问题的难易程度对于连续可微函数,其梯度向量指向函数值增长最快的方向,梯度的反方向则指向函数值下降最快的方向,这一性质是梯度下降类算法的理论基础在实际应用中,梯度可通过解析求导、数值差分或自动微分技术获得现代深度学习框架如PyTorch和TensorFlow已集成自动微分功能,极大简化了复杂模型的梯度计算过程何为迭代1初始解x₀算法起点,可基于先验知识或随机选取2迭代公式x=Gxₖ₊₁ₖ递推关系定义了从当前解得到下一解的规则3收敛判据||x-x||εₖ₊₁ₖ确定何时可认为已足够接近最优解4最终解x*满足终止条件的解作为优化问题的近似解迭代是一种通过重复应用特定规则逐步接近目标解的计算方法在优化算法中,迭代过程通常表示为一个递推序列{x},其中每一项都由前一项通过迭代函数G计算得到ₖ迭代方法的设计核心在于构造合适的迭代函数G,使得序列{x}能够快速收敛到问题的最优解收敛ₖ速度、稳定性和计算复杂度是评价迭代算法性能的关键指标为什么要用迭代算法复杂问题无解析解大规模问题计算可灵活适应问题结构行大多数实际优化问题无迭代算法可针对不同问法直接求得闭式解,尤迭代方法将复杂问题分题特点进行定制,通过其是高维非线性问题,解为简单步骤序列,每选择合适的更新策略和只能通过数值逼近方法步计算量可控,适合处参数设置来提高效率求解理高维参数空间的优化问题现代机器学习模型如深度神经网络可能包含数百万参数,传统的精确求解方法在计算资源和时间上都不可行迭代优化算法提供了一条实用路径,能在有限时间内获得足够好的近似解此外,迭代方法对问题规模的扩展性良好,计算复杂度通常随问题维度呈多项式增长,而非指数增长,这对解决大数据时代的优化问题至关重要经典算法概览算法类别典型方法收敛特性适用场景一阶方法梯度下降、随机线性收敛大规模问题、在梯度下降线学习二阶方法牛顿法、拟牛顿超线性收敛光滑问题、中等法BFGS规模直接搜索单纯形法、模式次线性收敛非光滑或无梯度搜索问题随机优化遗传算法、粒子概率收敛多模态、非凸问群题迭代优化算法根据所利用信息的不同,可分为仅使用函数值的零阶方法、利用梯度信息的一阶方法、利用Hessian矩阵的二阶方法,以及基于随机策略的启发式方法算法选择应根据问题特性、规模、计算资源等因素综合考虑一般而言,规模越大越倾向于使用计算复杂度低的方法;问题越复杂越需要利用更多信息的高阶方法梯度下降法原理确定搜索方向选择步长大小利用负梯度方向作为函数值下降最快的方向确定在搜索方向上移动的距离检查收敛性更新参数值判断是否达到终止条件按照负梯度方向移动一定步长梯度下降法是最基础也是最广泛应用的迭代优化算法其核心思想是在当前点,沿着函数值下降最快的方向(即负梯度方向)移动一小步,逐渐接近函数的极小值点从数学上看,若函数f在点x处可微,则-∇fx方向是f在x处下降最快的方向梯度下降法正是利用这一性质,通过迭代公式x=x-α∇fxₖ₊₁ₖₖ不断更新参数,其中α为步长或学习率梯度下降更新公式计算当前梯度∇fx=[∂f/∂x₁,∂f/∂x₂,...,∂f/∂x]ᵀₖₙ确定更新方向d=-∇fxₖₖ选择步长参数α0固定或自适应ₖ更新参数向量x=x+αd=x-αfxₖ₊₁ₖₖₖₖₖ∇ₖ梯度下降法的参数更新公式简洁明了,但其有效性很大程度上依赖于步长α的选择步长过大可ₖ能导致算法发散,步长过小则会使收敛速度过慢在实际应用中,步长可以是固定值,也可以通过线搜索等方法动态确定现代优化算法如Adam、RMSProp等则采用自适应步长策略,根据历史梯度信息动态调整各参数的更新步长学习率对算法的影响学习率过大学习率过小当学习率设置过大时,算法可能在接近最优点时发生振荡甚至发学习率过小会导致算法收敛极其缓慢,每次参数更新的幅度微散更新步长超过了最优点与当前点的距离,导致参数在最优点小,需要大量迭代才能接近最优解这不仅增加了计算时间,还附近来回跳动,无法收敛可能使算法陷入早期停滞状态在严重情况下,过大的学习率会使目标函数值不断增大,算法完在非凸优化问题中,过小的学习率还会增加算法陷入局部最优的全偏离最优解方向,即所谓的爆炸梯度现象风险,因为参数变化太小而无法越过局部最优区域理想的学习率应该在保证算法稳定收敛的前提下,尽可能提高收敛速度实践中常用的策略包括学习率衰减(随迭代次数逐渐减小学习率)、自适应学习率方法(根据参数梯度历史信息动态调整学习率)以及通过验证集性能自动调节学习率等批量、随机、小批量梯度下降批量梯度下降随机梯度下降SGD小批量梯度下降BGD MBGD每次迭代仅使用一个随机每次迭代使用全部训练数样本计算梯度优点是计每次迭代使用一小批数据据计算梯度优点是梯度算效率高,有助于跳出局计算梯度结合了BGD和估计准确,收敛稳定;缺部最优;缺点是梯度估计SGD的优点,既提高计算点是计算成本高,内存需噪声大,收敛轨迹剧烈波效率又减小梯度估计方求大,且容易陷入局部最动差,是实践中最常用的方优法在机器学习任务中,目标函数通常是所有训练样本损失的平均值fθ=1/n∑ᵢLθ;xᵢ,yᵢ三种梯度下降方法的区别主要在于计算梯度时使用的样本数量不同,这直接影响算法的收敛特性和计算效率小批量梯度下降通常是最佳选择,批量大小是重要的超参数批量太小会增加梯度估计的方差;批量太大会降低计算效率典型的批量大小为32到256,具体应根据模型复杂度、数据特性和计算资源进行调整梯度下降局部收敛性质一阶收敛性对于L-Lipschitz连续的可微函数fx,若使用固定步长α≤1/L,则梯度下降法的目标函数值满足fx-fx≥α/2||∇fx||²,表明目标函数单调递减ₖₖ₊₁ₖ线性收敛率若fx额外满足μ-强凸性,则梯度下降法收敛速度呈线性||x-x*||≤1-αμᵏₖ||x₀-x*||,其中x*是最优解收敛率由条件数κ=L/μ决定,κ越大收敛越慢亚线性收敛对于一般凸函数(非强凸),梯度下降法的收敛速度为亚线性fx-ₖfx*≤O1/k这意味着提高精度一个数量级需要增加十倍迭代次数梯度下降法的收敛性质与目标函数的平滑度和凸性密切相关函数越平滑(Lipschitz常数L越小)、越强凸(强凸系数μ越大),算法收敛越快这也解释了为什么在深度学习中常见的非凸优化问题中,梯度下降收敛通常较慢且易陷入局部最优牛顿法与拟牛顿法牛顿法原理拟牛顿法思想牛顿法利用目标函数的二阶导数信息加速收敛其核心思想是用拟牛顿法避免了直接计算Hessian矩阵及其逆矩阵的高计算成二次函数近似原函数,然后直接跳转到该二次函数的最小值点本,而是通过历史梯度信息递推近似Hessian矩阵或其逆矩阵更新公式x=x-[∇²fx]⁻¹∇fx,其中∇²fx典型算法如BFGS、L-BFGS等,在许多优化问题上比标准牛顿法ₖ₊₁ₖₖₖₖ是函数在x处的Hessian矩阵,表示函数的二阶导数更高效,同时保持了超线性收敛特性ₖ牛顿法在靠近最优解时表现出二次收敛特性,收敛速度远快于梯度下降法然而,牛顿法需要计算并存储Hessian矩阵及其逆矩阵,计算复杂度和存储需求随问题维度的平方增长,限制了其在高维问题中的应用拟牛顿法通过构造Hessian矩阵的低秩近似,显著降低了计算和存储成本,是求解中等规模优化问题的优秀选择在机器学习中,L-BFGS算法常用于逻辑回归等凸优化问题牛顿法迭代推导二阶Taylor展开在当前点x附近,函数fx可近似为fx≈fx+∇fxᵀx-x+1/2x-xᵀₖₖₖₖₖ∇²fx x-x,这是一个关于x的二次函数ₖₖ寻找近似函数最小值对上述二次近似函数求导并令其为零∇fx+∇²fx x-x=0,从而得到ₖₖₖ近似函数的最小值点牛顿步更新公式解得x=x-[∇²fx]⁻¹∇fx这就是经典牛顿法的迭代公式,其中ₖₖₖp=-[∇²fx]⁻¹∇fx称为牛顿方向ₖₖₖ牛顿法可视为在每一步迭代中,寻找原函数二阶近似的最小值点作为下一个迭代点对于二次函数,牛顿法仅需一步就能找到精确最小值;对一般函数,则需要多次迭代逐步逼近牛顿法要求Hessian矩阵是正定的,这保证了二次近似函数有唯一最小值当Hessian非正定时,牛顿方向可能不是下降方向,此时需要修正Hessian(如添加正则项)或结合线搜索等技术确保函数值下降拟牛顿法(等)BFGS拟牛顿法的核心思想是避免直接计算Hessian矩阵,而是通过迭代中的梯度变化信息构建Hessian矩阵的近似BFGS(Broyden-Fletcher-Goldfarb-Shanno)算法是最常用的拟牛顿方法,其更新公式为B=B-B ssᵀB/sᵀB s+y yᵀ/yᵀs,其中B是Hessian矩阵的近似,s=x-x是参数更新量,y=∇fx-∇fx是梯度变化量ₖ₊₁ₖₖₖₖₖₖₖₖₖₖₖₖₖₖₖ₊₁ₖₖₖ₊₁ₖBFGS的优势在于构造的近似Hessian矩阵自动保持正定性,算法在实际应用中稳定性好其变种L-BFGS(Limited-memory BFGS)通过仅存储最近m次迭代的向量对{sᵢ,yᵢ}来隐式表示B,大大降低了存储需求,适用于高维优化问题ₖ随机优化算法简介进化计算模拟自然选择与进化过程群体智能模拟生物群体协作行为模拟退火模拟物理退火过程随机搜索基于概率分布的随机采样随机优化算法通过引入随机性来探索搜索空间,避免陷入局部最优与确定性方法不同,这类算法即使在相同初始条件下也可能产生不同的优化路径,增加了找到全局最优解的可能性随机优化方法特别适用于目标函数不可微、多模态或形状复杂的优化问题例如,遗传算法模拟物种进化过程,通过选择、交叉和变异操作不断改进解决方案;粒子群算法模拟鸟群觅食行为,利用群体信息引导搜索;模拟退火算法允许搜索过程在早期以一定概率接受劣质解,随着温度降低逐渐收敛到局部或全局最优解随机梯度下降法()SGD随机抽样每次迭代随机选择一个(或一小批)训练样本xᵢ,yᵢ~Px,y计算样本梯度仅基于选中样本计算梯度近似g≈∇Lθ;xᵢ,yᵢₜ参数更新沿近似梯度方向更新模型参数θ=θ-ηgₜ₊₁ₜₜ学习率调整通常采用学习率衰减策略η=η₀/1+λtₜ随机梯度下降法是机器学习中最常用的优化算法之一,特别适合大规模数据集训练与批量梯度下降相比,SGD每次迭代的计算量大幅降低,但引入了梯度估计的随机性SGD的理论保证基于随机近似理论尽管每步梯度是有噪声的估计,但其期望等于真实梯度在适当的学习率衰减策略下,SGD能以概率1收敛到批量梯度下降的同等解实践中,SGD的噪声还能帮助逃离浅层局部最优,在非凸优化中表现出独特优势动量和自适应方法动量方法Momentum引入历史梯度累积项,模拟物理中的惯性,帮助算法跨越局部起伏、加速收敛更新公式v=γv+η∇fθ,θ=θ-v,其中γ为动量系数,通常设ₜₜ₋₁ₜₜ₊₁ₜₜ为
0.9AdaGrad自适应调整各参数学习率,为频繁更新的参数降低学习率,为不常更新的参数提高学习率特别适合处理稀疏数据,但在深度学习中学习率可能过早衰减至接近零RMSProp改进AdaGrad,使用指数移动平均替代简单累积,解决学习率衰减过快问题在循环神经网络等结构中表现优异,是深度学习中常用的自适应方法之一Adam结合动量和RMSProp的优点,同时维护一阶矩估计(动量)和二阶矩估计(自适应学习率),在实践中表现最为稳健,成为深度学习默认优化器动量方法加速收敛物理类比数学描述动量方法可类比为小球在山谷中滚动传统梯度下降相当于小球动量法引入速度变量v,通过指数加权平均累积历史梯度在粘性很大的介质中运动,每一步都从静止开始;而动量方法则v=γv+η∇fθ保留了小球的速度,使其能够积累动能,更容易越过局部起伏并ₜₜ₋₁ₜ加速向最低点运动θ=θ-vₜ₊₁ₜₜ这种物理类比直观解释了为何动量法在崎岖的目标函数地形上表其中γ∈[0,1为动量系数,η为学习率当γ=0时,退化为标准梯现更好它能够抑制垂直于长期下降方向的振荡,同时加速沿主度下降;当γ接近1时,算法保留更多历史信息要下降方向的移动理论分析表明,对于二次凸函数,最优动量系数γ可以将收敛速率从Oκ提升至O√κ,其中κ为条件数算法原理与公式Adam一阶矩估计动量m=β₁m+1-β₁∇fθₜₜ₋₁ₜ记录梯度的指数移动平均,类似动量二阶矩估计自适应学习率v=β₂v+1-β₂∇fθ²ₜₜ₋₁ₜ记录梯度平方的指数移动平均,用于归一化偏差修正m̂=m/1-β₁ᵗ,v̂=v/1-β₂ᵗₜₜₜₜ修正初始步骤中的估计偏差参数更新θ=θ-η·m̂/√v̂+εₜ₊₁ₜₜₜ自适应步长更新,ε为小常数防止除零Adam AdaptiveMoment Estimation结合了动量法和RMSProp的优点,是目前深度学习中最受欢迎的优化算法之一其默认超参数通常设为β₁=
0.9,β₂=
0.999,ε=10⁻⁸,在大多数应用中表现良好Adam算法的核心优势在于自适应学习率参数更新幅度由梯度平方的累积决定,梯度大的参数更新慢,梯度小的参数更新快这使得算法对初始学习率不太敏感,且能自动调整不同参数的更新速度,特别适合处理高维稀疏梯度有约束优化的基本思想拉格朗日乘子法KKT条件拉格朗日乘子法是处理等式约束优化问题的经典方法对于问KKT条件扩展了拉格朗日乘子法,处理同时包含等式和不等式约题束的优化问题min fx且hx=0min fx且hx=0,gx≤0构造拉格朗日函数Lx,λ=fx-λᵀhx构造广义拉格朗日函数Lx,λ,μ=fx-λᵀhx-μᵀgx最优解满足∇ₓLx,λ=0,∇ᵩLx,λ=0,即KKT条件包括∇fx=λᵀ∇hx,hx=
01.稳定性条件∇ₓLx,λ,μ=0这一方法将约束优化问题转化为无约束问题求解
2.原始可行性hx=0,gx≤
03.对偶可行性μ≥
04.互补松弛性μᵢg_ix=0∀i投影梯度下降法无约束下降步骤首先忽略约束,按照标准梯度下降方向更新z=x-α∇fx,这一步与无约束优ₖₖ化相同投影回约束集由于z可能不满足约束条件,需要将其投影回可行集C x=Proj_Cz,其ₖ₊₁中Proj_Cz是z在可行集C上的投影点,即C中与z距离最近的点迭代直至收敛重复上述两步直至满足收敛条件,如梯度投影范数小于阈值或相邻迭代解的变化小于阈值投影梯度下降法是求解有约束优化问题的直观方法,特别适合约束集具有简单结构(如非负约束、盒约束、L1/L2球约束等)的情况其优势在于算法实现简单,每步计算量小,易于与随机梯度下降等方法结合投影操作的计算复杂度取决于约束集的几何形状对于简单约束如非负约束x≥0,投影操作只需将负值截断为零;对于L2范数约束||x||₂≤r,投影为x·min1,r/||x||₂;而对于复杂约束集,投影操作本身可能是一个优化问题罚函数与内点法罚函数法内点法罚函数法将约束条件转化为目标函数的罚现代内点法结合了障碍函数和KKT条件,项,将有约束问题近似为无约束问题对是求解大规模线性和二次规划问题的有力于问题min fxs.t.gx≤0,构造新目标函工具其基本思想是使用对数障碍函数近数Fx,r=fx+r·Pgx,其中Pgx是对违似不等式约束,同时通过路径跟踪方法逐反约束的惩罚,r0是罚参数步增大罚参数外罚法使用Pgx=max0,gx²或类似形内点法的主要优势在于多项式时间复杂度式,允许初始点在可行域外;内罚法使用和高数值稳定性主要变种包括原始-对偶如Pgx=-Σln-g_ix的障碍函数,要求初内点法、仿射缩放内点法等,广泛应用于始点在可行域内部电力系统优化、供应链管理等领域增广拉格朗日法增广拉格朗日法结合了拉格朗日乘子法和罚函数法的优点,对于问题min fxs.t.hx=0,构造增广拉格朗日函数L_Ax,λ,r=fx-λᵀhx+r/2||hx||²其迭代过程包括固定λ最小化L_A得到x,然后更新λ←λ-r·hx,必要时增大r相比纯罚函数法,增广拉格朗日法收敛更快且数值更稳定,是现代非线性规划的核心方法之一多目标优化简介帕累托最优解1无法再改进任一目标而不损害其他目标帕累托前沿2所有帕累托最优解构成的集合目标函数权重法3加权组合多个目标函数约束转换法4将部分目标转为约束条件进化多目标优化5利用群体搜索逼近整个帕累托前沿多目标优化问题同时考虑多个可能相互矛盾的目标函数min[f₁x,f₂x,...,f x]与单目标优化不同,多目标优化通常不存在同时最小化所有目标的单一解,而是一组折中方案ₘ帕累托最优性是多目标优化的核心概念,表示不存在其他解能够改进至少一个目标而不恶化其他目标求解多目标优化问题的方法大致分为三类将多目标转化为单目标的经典方法(如加权求和法、ε-约束法);直接处理多目标的进化算法(如NSGA-II、SPEA2);以及近年发展的基于梯度的多目标优化方法(如多梯度下降算法)迭代算法的收敛性分析局部最优与全局最优凸优化特性非凸优化挑战在凸优化问题中,目标函数fx和约束集C均为凸,具有以下重非凸优化问题中,目标函数或约束集不满足凸性,带来以下挑要性质战
1.局部最优解必定是全局最优解
1.存在多个局部最优解,算法易陷入局部最优
2.满足KKT条件的点必定是全局最优解
2.满足KKT条件的点可能是局部最优、鞍点甚至局部最差点
3.凸函数的任意局部线性近似都是全局下界
3.不同初始点可能导致完全不同的优化结果这些性质使得凸优化问题相对容易求解,多数迭代算法能可靠地深度学习等现代机器学习方法大多属于非凸优化问题克服局部收敛到全局最优现实中的凸优化应用包括线性规划、二次规最优的常用策略包括多点启动、添加随机扰动、模拟退火以及基划、半定规划等于群体的随机优化方法实践表明,高维非凸问题中的主要挑战往往不是局部最优而是鞍点步长选择技巧步长(学习率)选择是迭代优化算法成功的关键因素,直接影响收敛速度和稳定性常用的步长选择策略包括
1.固定步长最简单策略,选择恒定值α对凸优化问题,当α≤1/L(L为目标函数梯度的Lipschitz常数)时保证收敛
2.衰减步长随迭代次数逐渐减小步长,常见形式有η=η₀/1+βk或η=η₀·γᵏ,其中γ1这种策略平衡了早期的快速探索和后期的精细收敛ₖₖ
3.自适应步长根据优化过程的反馈动态调整步长实现方式包括线搜索方法(如Armijo准则、Wolfe条件)和基于历史梯度信息的方法(如AdaGrad、RMSProp、Adam)
4.周期性步长将步长周期性地增大再减小,如余弦退火策略,有助于跳出局部最优线性搜索与条件Armijo步长调整应用Armijo条件若不满足条件,则缩减步长α←步长初始化验证步长α是否满足充分下降条件τα,其中τ∈0,1通常取
0.5,然后重确定搜索方向设置初始步长α₀0,通常较大以尝fx+αp≤fx+c₁α∇fxᵀp,其中新验证这一过程确保最终找到满足首先选择下降方向p,通常为负梯度试长距离移动若使用信任域方法,c₁∈0,1通常取
0.1该条件要求实条件的步长方向或牛顿方向下降方向必须满足可根据模型可信区域大小确定初值际函数减少量至少达到一阶近似预测∇fxᵀp0,确保沿此方向函数值初减少量的一定比例始下降线性搜索方法通过在确定的方向上寻找合适步长,有效平衡算法的收敛速度和稳定性Armijo条件是最常用的步长选择准则之一,确保每步迭代有充分下降对更精确的步长选择,可结合曲率条件形成强Wolfe条件,在实际优化中获得更好的性能参数初始化对结果影响零初始化的问题将所有参数初始化为零会导致网络所有单元计算相同输出,使反向传播中所有权重获得相同梯度这种对称性使网络无法学习不同特征,严重限制表达能力随机小值初始化传统方法使用均值为
0、标准差较小(如
0.01)的高斯分布初始化参数这打破对称性,但可能导致深层网络中的梯度消失或爆炸问题,特别是对于使用饱和激活函数的网络Xavier/Glorot初始化针对tanh/sigmoid激活函数设计,使前向传播和反向传播中信号方差保持一致对于连接n个输入和m个输出的层,权重从均值
0、方差2/n+m的分布中采样He初始化为ReLU激活函数优化,考虑到ReLU平均会使约一半输入变为零权重从均值
0、方差2/n的分布采样,有效缓解深层ReLU网络的梯度问题高维与大规模问题的挑战维数灾难多峰与平坦区域1搜索空间随维度指数增长,且高维空间中数据高维目标函数通常具有多个局部极值和大片近变得稀疏2似平坦区域计算与存储约束条件数与梯度方向4参数、梯度和中间结果的存储与计算需求随维高维问题常有较大条件数,梯度方向可能不指3度增长向最优解高维优化是现代机器学习中的核心挑战,尤其在深度学习模型中,参数可达数百万甚至数十亿维在高维空间中,直观的几何直觉往往失效随机选取的两点几乎总是近似正交,欧氏距离变得不那么有意义,且数据点在空间中非常稀疏应对高维优化挑战的常用策略包括利用问题的结构特性(如稀疏性、低秩性);使用随机化技术降低每步计算成本;采用维度归约技术减少参数数量;以及设计适合高维问题的优化算法(如坐标下降、随机方法等)现代硬件加速如GPU和TPU也是解决大规模优化问题的重要支撑维数灾难对复杂度影响正则化与优化L2正则化(Ridge)L1正则化(Lasso)L2正则化通过在目标函数中添加参数平方和的惩罚项来约束模型L1正则化使用参数绝对值和作为惩罚项L_reg=L+λ||w||₁复杂度L_reg=L+λ/2||w||²₂与L2正则化不同,L1正则化倾向于产生稀疏解,即许多参数精从优化角度看,L2正则化相当于在损失曲面上添加了碗状惩确等于零这源于L1范数在坐标轴上的尖峰特性,使优化过程更罚,使最优解向零方向移动,但通常不会产生精确的零容易达到坐标轴上的点L2正则化的梯度更新变为w←w-η∇L+λw,等价于每步迭L1正则化的次梯度更新形式为w←w-η∇L+λ·signw在代后进行权重衰减w←1-ηλw-η∇L这一特性使得L2正则坐标下降法中,可证明当|∇L|λ时,最优解为w=0,这一特性化实现简单且计算高效是L1正则化产生稀疏解的直接原因正则化不仅是防止过拟合的统计工具,也是优化算法的重要组成部分适当的正则化可以改善目标函数的条件数,增强优化过程的数值稳定性,并帮助算法逃离不良局部最优点弹性网络(Elastic Net)正则化结合L1和L2优势,形式为λ₁||w||₁+λ₂/2||w||²₂,在实践中表现优异并行与分布式迭代优化随着问题规模增大,单机优化算法面临计算瓶颈,并行与分布式优化成为必然选择主要并行策略包括
1.数据并行将训练数据分割到多个计算节点,各节点使用相同模型计算局部梯度,然后聚合更新全局模型主要挑战是通信开销和梯度聚合策略,常用方法包括同步SGD(等待所有节点计算完毕)和异步SGD(各节点独立更新,容忍部分延迟)
2.模型并行将模型参数分布到不同节点,每个节点负责部分参数的计算和更新适用于单机无法容纳的超大模型,但增加了节点间依赖和通信复杂性
3.混合并行结合数据并行和模型并行的优势,根据模型结构和硬件特性灵活分配计算资源分布式优化的关键技术包括参数服务器架构、梯度压缩通信、去中心化优化以及联邦学习等现代深度学习框架如PyTorch和TensorFlow已集成多种分布式训练功能,大大简化了并行算法实现常用收敛诊断技巧损失曲线分析梯度范数监控绘制迭代过程中目标函数值与迭代次数的关系曲线,观察其是否稳跟踪梯度的欧几里得范数或最大绝对值,这是判断是否接近临界点定下降并最终趋于平稳理想的损失曲线应呈现平滑下降趋势,突的直接指标梯度范数应随迭代逐渐减小,若长时间保持在较大水然上升或剧烈波动通常表明学习率过大或存在数值问题平,可能表明学习率过小或存在鞍点参数变化追踪验证集性能监控计算连续迭代间参数变化量||θ-θ||,观察其是否趋近于零在机器学习中,不仅关注训练损失,还应监控验证集性能训练损ₜₜ₋₁参数变化过大表明算法可能不稳定;变化过早接近零可能表明陷入失持续下降而验证性能停滞或下降是过拟合的明显信号,提示应停局部最优或鞍点止训练或调整正则化策略算法稳健性分析影响因素梯度下降牛顿法拟牛顿法随机梯度下降初始点敏感性中度高度中度低度噪声容忍度中等低中等高步长敏感性高低中等高非凸性适应中等差中等好算法稳健性是衡量优化方法质量的关键指标,反映了算法对各种扰动和不确定性的适应能力稳健的优化算法应具有以下特性对初始点选择不敏感、能处理目标函数的噪声和不平滑性、对超参数(如学习率)设置有较宽容区间、以及在非理想条件下仍能获得可接受解在实践中,增强算法稳健性的常用技术包括梯度裁剪防止梯度爆炸;学习率预热和退火应对不同训练阶段;批量归一化减少内部协变量偏移;数据增强和噪声注入提高模型泛化能力;以及集成多个随机初始化模型的结果降低方差现代深度学习优化器如Adam之所以流行,很大程度上归功于其较强的稳健性,能在不同问题和超参数设置下表现良好随机优化中的常用技巧Mini-batch策略数据增强与正则化选择合适的批量大小是随机优化的关键随机裁剪、旋转、缩放等数据增强技术不较大批量(如512-1024)提供更准确的梯仅增加训练样本多样性,还隐式地增加了度估计但计算成本高;较小批量(如32-优化目标的平滑性Dropout、标签平滑等64)增加参数更新频率但梯度估计噪声正则化技术通过引入随机性,使损失景观大批量大小还影响模型泛化性能,研究更加平滑,减少锐利的局部最优点,有助表明适度小的批量往往有更好的泛化效于优化算法找到更好的解果梯度累积与混合精度梯度累积允许在内存受限情况下模拟大批量训练连续计算多个小批量梯度并累加,再一次性更新模型混合精度训练使用低精度如FP16计算以加速前向和反向传播,同时使用高精度主权重和梯度累积,平衡精度和效率随机优化算法的性能很大程度上依赖于这些看似小技巧的实现细节学习率预热warm-up通过在训练初期使用较小学习率,避免参数分布剧烈变化;梯度裁剪通过限制梯度范数防止训练不稳定;权重衰减weight decay不仅提供正则化效果,还改善优化路径这些技巧的组合使用是现代深度学习系统稳定训练的基础迭代优化在深度学习中的应用损失函数设计优化器选择针对任务特点选择合适的损失函数,平衡可优化根据模型结构和数据特征选择适合的优化算法性与模型性能超参数调整训练动态监控学习率、批量大小、正则化参数等对性能影响显观察收敛曲线和验证性能,及时调整策略著深度学习的核心是通过反向传播算法结合优化器迭代更新网络参数与传统优化不同,深度学习的特殊挑战在于目标函数高度非凸、参数空间维度极高(可达数十亿),以及训练过程中损失景观本身可能随参数变化而改变在实践中,SGD通常用于视觉模型训练,以其良好泛化性闻名;Adam则凭借较强的稳健性成为自然语言处理模型的首选最近的研究趋势包括设计使用二阶信息但计算高效的优化器;开发自适应批量大小和学习率策略;及探索利用损失景观几何特性的优化算法大型模型如GPT、BERT等的成功训练,都依赖于精心设计的优化策略,包括预训练-微调范式、逐层学习率调整等技术工程优化中的迭代法结构优化图像处理机器人轨迹规划结构优化通过数学优化方法设计承重构图像去噪、超分辨率和重建等问题通常被机器人运动规划可表述为在保证碰撞避件,寻求材料分布的最优化拓扑优化重表述为优化问题,目标是在满足数据一致免、运动学约束等条件下最小化能耗或时新分配材料,尺寸优化调整已有结构尺性的同时保持图像先验性质基于全变分间的优化问题差分动力学优化DDO和寸,形状优化微调边界这些技术在航空TV正则化的优化方法在医学成像中应用间接法优化被广泛应用于规划复杂动作如航天、汽车设计中广泛应用,如喷气发动广泛,基于卷积稀疏表示的优化算法已成行走、跑步和跳跃,支持现代机器人系统机支架优化可减重30%以上为现代图像处理的基础的高级运动能力典型案例分析回归LassoLasso模型描述坐标下降求解Lasso回归Least AbsoluteShrinkage andSelection Operator是尽管L1正则化项在零处不可微,Lasso问题有高效的坐标下降算线性回归的一个变体,通过添加L1正则化项促进稀疏解,自动执法坐标下降法每次只更新一个参数,固定其他参数对行特征选择Lasso,每个坐标的最优解有解析表达式min_w{1/2n||Xw-y||²₂+λ||w||₁}w_j=Sr_j/||X_j||²₂,λ/||X_j||²₂其中X为特征矩阵,y为目标向量,w为权重,λ控制正则化强其中S为软阈值算子Sa,b=signa·max|a|-b,0,r_j为当前残差度L1范数促使部分权重精确等于零,实现特征选择与特征X_j的相关性坐标下降法对Lasso问题特别高效,每轮迭代的计算复杂度低,且能充分利用解的稀疏性现代算法如LARS和pathwise坐标下降能快速计算一系列λ值对应的解,便于模型选择典型案例分析深度神经网络训练迭代优化前沿进展学习优化算法使用机器学习设计优化器本身,如通过RNN预测更新方向二阶近似方法利用Hessian-向量积等高效二阶信息方法分布式算法去中心化优化与联邦学习适应现代计算架构无梯度优化进化策略等方法优化不可微函数迭代优化算法研究的前沿方向包括学会学习Learning toLearn,即通过元学习或强化学习设计优化算法本身这类方法将优化器视为可学习的系统,通过在多个任务上训练来学习优化策略,如何根据过去梯度历史和目标函数特征自动调整更新方向和步长自适应优化的另一前沿是针对特定领域结构设计的专用优化器例如,图神经网络优化考虑节点间依赖关系;推荐系统优化针对稀疏特征设计;强化学习中的信任域策略优化TRPO和近端策略优化PPO则专门处理策略优化的特殊挑战这种领域特化趋势反映了通用优化算法在处理高度结构化问题时的局限性近期研究热点100B+16-bit大规模模型参数混合精度训练大型语言模型参数规模的快速增长平衡计算效率与数值精度1000+分布式节点超大规模集群并行训练大模型时代的优化算法面临全新挑战,近期研究热点包括动态学习率调整方法,如Lion优化器结合随机权重平均提高大型Transformer模型训练效率;梯度累积和梯度检查点技术平衡内存使用与计算速度;以及零冗余优化器ZeRO等分布式训练技术,通过参数分片避免数据并行中的参数冗余另一研究热点是迁移优化算法,即利用在源任务上获得的优化经验加速目标任务的优化例如,通过迁移预训练模型的优化器状态(如Adam的动量和方差累积)可显著加速微调过程;利用知识蒸馏将大模型学到的优化路径教授给小模型也是重要方向这些技术对资源受限场景下的模型部署和个性化尤为重要常见误区与陷阱收敛伪像训练曲线平稳不一定表示找到最优解,可能陷入了鞍点或局部最优验证方法包括从多个随机初始点重启算法检查收敛一致性;扰动当前解观察是否能进一步改进;检查梯度范数是否足够小等参数过拟合调整过多超参数(如学习率、正则化系数、批量大小等)容易导致算法过拟合验证集应避免反复在同一验证集上调参,而应使用嵌套交叉验证或单独的测试集评估最终性能尺度敏感性许多优化算法对输入特征和参数尺度敏感未经归一化的特征可能导致某些方向梯度过大或过小,影响收敛实践中应进行特征标准化,或使用如Adam这样的自适应方法缓解尺度问题随机性误判忽略随机性影响可能导致错误结论如SGD等随机算法在相同配置下多次运行可能有显著差异应通过多次运行取平均,或使用相同随机种子确保实验可重复性算法调参实用指南学习率选择从较大值开始,如
0.1或
0.01,然后逐步尝试更小值如
0.
001、
0.0001理想情况下,应进行对数尺度的网格搜索或随机搜索学习率是最关键的超参数,对其调整往往比其他参数更有效批量大小调整常用值从16到256不等,取决于GPU内存和数据特性较大批量通常需要相应增大学习率注意批量过大可能导致泛化性能下降,可考虑梯度累积模拟大批量训练正则化参数常见值为1e-4至1e-2范围调整策略是从零开始逐步增大,观察训练和验证性能变化对不同层可能需要不同正则化强度,输入层通常较大,输出层较小自动化调参利用贝叶斯优化、Hyperband等算法进行自动化搜索设置合理搜索空间,避免穷举搜索自动调参应考虑计算成本与结果质量的权衡,核心参数仍建议手动精细调整学习资料与推荐阅读经典书籍《凸优化》BoydVandenberghe全面介绍凸优化理论与应用;《数值优化》NocedalWright深入探讨实用算法实现;《深度学习》Goodfellow,Bengio Courville第8章专门讨论深度学习优化;《优化算法》刘浩洋等是中文优秀教材,包含丰富实例和代码重要论文KingmaBa2014的Adam优化器论文;Duchi等2011的AdaGrad论文;Sutskever等2013关于深度学习中动量重要性的工作;以及LoshchilovHutter2017的SGDR学习率调度论文这些奠基性工作塑造了现代优化算法的发展开源项目与工具PyTorch Optimizer库提供多种优化算法实现;TensorFlow Probability支持贝叶斯优化;Optuna和Ray Tune等框架简化超参数优化;CVXPY和MOSEK适用于凸优化问题;PuLP和Gurobi擅长处理线性和整数规划这些工具大大降低了实践中应用优化算法的门槛课程小结与知识体系回顾算法应用与实践真实案例、调参技巧、前沿进展高级优化方法二阶方法、约束优化、随机优化基础优化算法梯度下降、动量方法、自适应算法数学基础向量微积分、极值理论、线性代数通过本课程,我们系统学习了迭代优化算法的理论基础、经典方法和实际应用从基本的梯度下降到高级的拟牛顿法,从无约束优化到多目标优化,覆盖了优化算法的主要分支和技术特别关注了现代机器学习中的优化挑战,包括大规模、高维、非凸问题的求解策略掌握迭代优化算法需要理论与实践的结合理论上,理解算法的收敛性质和适用条件;实践中,熟悉算法实现细节和参数调整技巧优化是一个不断发展的领域,新的算法和技术不断涌现,保持学习的习惯对跟上领域前沿至关重要希望本课程为您提供了坚实基础,使您能够根据具体问题选择合适的优化方法,并能灵活调整算法参数以获得最佳性能问题讨论与答疑常见问题进阶思考研究方向如何选择最适合特定问题的优化算法?在优化算法的理论保证与实际表现为何常有优化算法未来发展趋势是什么?可能的方实际应用中,要考虑问题规模、结构特差距?这主要源于理论分析通常基于简化向包括更好地结合问题结构信息的专用点、计算资源限制以及精度要求一般而假设(如凸性、光滑性),而实际问题如优化器;利用量子计算等新型计算架构的言,规模较小且计算资源充足时可考虑二深度学习中的损失函数往往不满足这些条优化算法;自适应学习不同问题特性的元阶方法;大规模问题通常选择一阶方法如件此外,有限精度浮点运算、批量梯度优化器;以及能够处理超大规模分布式环SGD或Adam;非凸问题可能需要多次随近似等实现因素也会导致与理论预期的偏境的高效优化方法跨学科融合也将促进机初始化或随机优化方法差新型优化算法的涌现。
个人认证
优秀文档
获得点赞 0