还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
神经网络欢迎来到神经网络课程!本课程将带领您深入探索人工智能领域中最为关键和革命性的技术之一神经网络作为机器学习的核心组成部分,已经在图像识别、自然语言处理、推荐系统等诸多领域展现出惊人的能力课程目标掌握前沿技术了解神经网络最新研究进展实现网络架构能够设计并实现各类神经网络理解基本原理深刻理解神经网络数学基础神经网络的基本概念模拟大脑的计算模型非线性映射能力神经网络是一种受人类大脑结构和神经网络最显著的特点是能够学习功能启发的计算模型,试图模仿人输入与输出之间的非线性映射关脑处理信息的方式通过大量简单系,这使其能够处理传统算法难以处理单元的互连,实现复杂的信息解决的复杂问题,如图像识别、语处理和学习能力音处理等数据驱动的学习过程神经网络通过大量数据的训练,自动调整网络参数,不断优化性能这种数据驱动的学习方式使其能够适应各种不同的任务和问题领域人工智能发展简史起源阶段1943-19561麦卡洛克和皮茨提出第一个神经网络数学模型,达特茅斯会议正式确立人工智能概念黄金时代21956-1974感知器的提出,计算机能够证明数学定理,解决代数应用题,形成初步的专家系统寒冬1974-1993AI3研究资金减少,公众期望落空,但反向传播算法的发明为后续发展奠定基础统计学习兴起41993-2011支持向量机、贝叶斯网络等统计学习方法成为主流,机器学习开始蓬勃发展至今深度学习爆发20125在竞赛上的成功开启深度学习时代,在各领AlexNet ImageNetAI域取得突破性进展神经网络在人工智能中的地位统计学习的重要分支通用人工智能的基础作为统计学习理论的一个重要分支,神经网络提供了一种强大的数据建模神经网络的研究为探索通用人工智能工具,能够发现数据中的潜在规律和提供了可能路径,其分层结构和自适模式应学习能力,与人类智能有一定相似机器学习的核心技术性产业变革的驱动力神经网络是机器学习中最具代表性的方法之一,特别是在深度学习领域,成为推动人工智能发展的主要力量神经网络已经成为人工智能领域最具活力和影响力的研究方向与传统的符号主义人工智能相比,基于神经网络的连接主义方法展现出更强的学习能力和适应性,能够处理更加复杂和多变的问题随着网络架构的不断创新和计算资源的持续增强,神经网络在人工智能中的地位将进一步提升生物神经元结构树突接收来自其他神经元的信号,并将电信号传导至细胞体细胞体整合来自树突的信号,决定是否产生动作电位轴突传导细胞体产生的电信号,将信息传递给下一个神经元突触神经元之间的连接部位,通过化学物质传递信号生物神经元是神经系统的基本功能单位,人类大脑中约有亿个神经元,通过复杂的连接网络实现860信息处理和认知功能当神经元接收到足够强度的输入信号时,会产生激发现象,沿着轴突将信号传递给其他神经元这种激发与抑制机制构成了大脑信息处理的基础人工神经元模型n输入维度一个神经元可接收多个输入信号Σ加权求和将输入与权重相乘并求和fx激活函数引入非线性变换y输出神经元最终产生的信号人工神经元(也称为感知器)是对生物神经元的数学简化模型它接收多个输入信号x₁,x₂,...,x,每个输入信号都有一个对应的权重w₁,w₂,...,ₙw,表示该输入的重要性神经元首先计算所有加权输入的总和,再加上一个偏置项b z=w₁x₁+w₂x₂+...+w x+bₙₙₙ激活函数概述引入非线性信号调控激活函数的主要作用是引入非线性变激活函数控制神经元的输出范围和分换,使神经网络能够学习和表示复杂布特性,某些激活函数(如Sigmoid的函数关系如果没有激活函数,多和)将输出限制在一个特定区间Tanh层神经网络将等同于单层线性模型,内,而则允许输出具有更大的变ReLU无法解决非线性可分问题化范围影响梯度传播激活函数的导数特性直接影响反向传播过程中梯度的流动,合适的激活函数可以缓解梯度消失或爆炸问题,加速网络训练选择合适的激活函数对神经网络的性能有着重要影响不同的激活函数具有不同的数学性质和适用场景,例如函数在早期神经网络中应用广泛,但在深层网络中容易导致梯度消Sigmoid失;函数计算简单且有助于稀疏表示,但可能出现神经元死亡现象;、ReLULeaky ReLU等改进版本则试图克服这些缺点ELU常见激活函数Sigmoid数学表达式优势σx=1/1+e^-x•输出可解释为概率值平滑的梯度有利于梯度下降•导数σx=σx1-σx•历史上在神经网络领域应用广泛主要特点劣势•输出范围限制在0,1之间•计算成本相对较高•平滑连续,处处可导•梯度在饱和区域接近零•在深层网络中易导致梯度消失•输出不以零为中心函数是最早应用于神经网络的激活函数之一,其形曲线使得输出值被压缩到和之间当输入很大或很小时,函数进入饱和区Sigmoid S01域,梯度接近于零,这会导致在反向传播过程中梯度迅速衰减,尤其在深层网络中表现明显常见激活函数ReLU数学表达式优势ReLUx=max0,x•训练速度快,收敛效率高•生物学上更符合真实神经元的特性导数ReLUx=1if x0,0if x≤0•在深层网络中表现出色主要特点劣势•计算简单高效•神经元死亡问题•解决了梯度消失问题•输出不以零为中心•促进神经网络的稀疏表示•导数在负半轴不连续(,修正线性单元)是当前深度学习中最常用的激活函数之一它的形式极为简单大于零的输入保持不变,小于等ReLU RectifiedLinear Unit于零的输入被设为零这种简单的结构带来了计算上的高效性,同时由于正区间的梯度恒为,有效缓解了梯度消失问题1常见激活函数Tanh数学表达式优势tanhx=e^x-e^-x/e^x+e^-x•零中心化输出有助于下一层的学习•数值稳定性好导数tanhx=1-tanh^2x•在特定任务如RNN中表现优异主要特点劣势•输出范围为-1,1•计算成本较高•输出以零为中心•同样存在梯度饱和问题•在大部分区间梯度大于Sigmoid•在深层网络中仍可能梯度消失双曲正切函数在形状上与函数类似,但输出范围为,是零中心化的这一特性使得在某些应用场景中优于,Tanh Sigmoid-1,1Tanh Sigmoid特别是在网络的中间层,因为零中心化的输出可以减少梯度消失问题的影响,加速收敛神经网络的基本架构输入层接收外部数据,每个节点对应一个输入特征隐藏层位于输入层和输出层之间,负责特征提取和变换输出层产生网络的最终预测结果神经网络的基本架构由三部分组成输入层、隐藏层和输出层输入层接收原始数据,如图像的像素值、文本的词向量等;隐藏层是网络的核心,负责提取和转换特征,深度学习中可以包含多个隐藏层,层数越多,网络的表达能力通常越强;输出层则根据任务需求生成最终结果,如分类问题中的类别概率单层感知器输入数据权重计算接收特征向量X=x₁,x₂,...,x计算加权和z=w·x+bₙ输出结果激活函数生成预测值应用阈值函数y=fz fz单层感知器是最简单的神经网络形式,由于年提出它由一个输入层和一个输出层组成,没有隐藏层每个输入特征都有一个权重,感知器计算这些Frank Rosenblatt1957特征的加权和,然后通过一个激活函数(通常是阶跃函数)生成输出最初的感知器学习算法通过调整权重,使得模型输出尽可能接近目标值多层感知器()MLP网络结构至少包含一个隐藏层,每层神经元与下一层全连接非线性激活使用Sigmoid、ReLU等连续非线性函数激活反向传播训练通过梯度下降优化权重参数通用近似能力理论上可以近似任意连续函数多层感知器MLP是单层感知器的扩展,增加了一个或多个隐藏层,从而能够处理非线性可分的问题每个神经元接收上一层所有神经元的输出,经过加权求和和非线性变换后,将结果传递给下一层MLP采用连续可导的激活函数(而非阶跃函数),这使得可以使用梯度下降法对网络进行训练前向传播算法输入层接收数据1将输入特征x₁,x₂,...,x传递给网络的第一层ₙ计算隐藏层输出2对每个隐藏神经元,计算加权和并应用激活函数h=fWx+b层间信息传递3前一层的输出作为下一层的输入,逐层计算直至最后一层生成最终预测4输出层产生网络的预测结果,如分类概率或回归值前向传播是神经网络进行预测的基本算法,信息从输入层流向输出层的过程在计算过程中,每一层的计算可以表示为矩阵运算,从而能够高效地并行处理大量数据对于包含L层的神经网络,前向传播的数学表达为一系列嵌套函数fx=f^Lf^L-
1...f^1x,其中f^l代表第l层的变换反向传播算法原理计算输出误差将预测输出与真实标签比较,计算损失函数值及其对输出的梯度误差反向传递利用链式法则,将误差梯度从输出层逐层传回到输入层计算参数梯度根据每层的误差梯度,计算权重和偏置的梯度更新网络参数使用梯度下降等优化算法,根据计算的梯度更新网络参数反向传播()是训练神经网络的核心算法,由等人于年提出Backpropagation Rumelhart1986它基于链式法则,有效解决了多层神经网络的参数更新问题算法的关键在于计算损失函数对每个网络参数的偏导数(梯度),然后沿着梯度的负方向调整参数,以降低损失函数值梯度下降法目标寻找使损失函数Jθ最小的参数θ梯度计算计算损失函数关于参数的梯度∇Jθ参数更新沿梯度负方向更新:θ=θ-η·∇Jθ迭代优化重复以上步骤直至收敛梯度下降是机器学习中最基本的优化算法,用于寻找函数的局部最小值在神经网络训练中,它通过计算损失函数对参数的梯度,沿着损失下降最快的方向调整参数学习率η控制每次更新的步长,是一个重要的超参数过大可能导致震荡或发散,过小则会使收敛速度过慢随机梯度下降()SGD算法步骤优势
1.随机选择一个训练样本x⁽⁾,y⁽⁾•每次迭代计算成本低ⁱⁱ
2.计算该样本的损失梯度∇Jθ;x⁽⁾,y⁽⁾•训练速度快,适合大数据集ⁱⁱ
3.更新参数:θ=θ-η·∇Jθ;x⁽⁾,y⁽⁾•随机性有助于跳出局部最小值ⁱⁱ
4.重复以上步骤直至收敛•在线学习能力强劣势•收敛路径噪声大•可能永远无法达到精确的最小值•学习率调整较为复杂随机梯度下降是批量梯度下降的变体,每次只使用一个训练样本来计算梯度并更新参数相比于使用整个数据集的批量梯度下降,的每次迭代计算量SGD大大减少,特别适合大规模数据集的训练此外,由于梯度估计的随机性,能够在非凸优化问题中跳出局部最小值,有时能找到更好的解SGD批量梯度下降()BGD算法定义优势特点批量梯度下降使用整个训练数据集计算梯度,然•梯度估计准确,收敛路径平滑后执行一次参数更新对于包含m个样本的数据•收敛稳定,容易判断是否达到最优集,每次迭代的梯度计算为所有样本梯度的平均•理论上保证向局部最小值收敛值∇Jθ=1/m∑ᵢ∇Jθ;x⁽⁾,y⁽⁾ⁱⁱ•可高度并行化,充分利用矩阵运算局限性•每次迭代计算成本高,内存消耗大•训练速度慢,对大数据集不友好•容易陷入局部最小值•不支持在线学习批量梯度下降是最原始的梯度下降形式,通过考虑所有训练样本来计算梯度由于使用了完整数据集,BGD的梯度估计非常准确,收敛过程平稳,不会出现SGD中的剧烈波动这使得训练过程更可预测,易于监控和调试此外,BGD的每次迭代可以充分利用现代硬件的并行计算能力,尤其是在GPU上进行矩阵运算时效率很高小批量梯度下降()Mini-batch GD批量大小典型范围为32-256,取决于任务和硬件资源梯度计算∇Jθ=1/n∑ᵢ∈batch∇Jθ;x⁽⁾,y⁽⁾,其ⁱⁱ中n为批量大小参数更新θ=θ-η·∇Jθ,每处理一个小批量数据更新一次训练周期一个epoch包含m/n次更新,m为总样本数⌈⌉批量构建通常随机打乱数据,按批量大小顺序分割小批量梯度下降是介于批量梯度下降和随机梯度下降之间的一种方法,它每次使用一小批(mini-batch)样本来计算梯度并更新参数这种方法结合了BGD和SGD的优点一方面,由于使用多个样本估计梯度,比SGD更加稳定;另一方面,由于不需要处理整个数据集,比BGD更加高效,特别适合大规模数据集的训练损失函数均方误差()MSE数学定义适用场景MSE=1/n∑ᵢyᵢ-ŷᵢ²,其中yᵢ为真实值,ŷᵢ为•回归问题预测值,为样本数量n•预测连续值任务梯度∂MSE/∂ŷᵢ=2/nŷᵢ-yᵢ•对异常值敏感的场景•需要惩罚较大误差的情况优缺点分析优点计算简单、易于求导、凸函数(有唯一最小值)缺点对异常值过于敏感、在某些情况下收敛较慢均方误差是回归任务中最常用的损失函数之一,它计算预测值与真实值之差的平方和,然后取平均值平方项确保了正负误差不会相互抵消,同时使得较大的误差受到更严厉的惩罚函数在数学MSE上具有良好的性质它是连续的、处处可导的,且是一个凸函数,这意味着它具有唯一的全局最小值,有利于梯度下降算法的收敛损失函数交叉熵二分类交叉熵主要特点L=-[y·logp+1-y·log1-p]•专为概率分布设计•对错误预测惩罚较大其中∈为真实标签,为预测为正类的概率y{0,1}p•输出层通常与Softmax函数配合使用多分类交叉熵•梯度随误差增大而增大,促进快速学习L=-∑ᵢyᵢ·logpᵢ适用场景其中yᵢ为one-hot编码的真实标签,pᵢ为预测为类别i的概率•二分类问题•多分类问题•概率分布预测交叉熵损失函数源自信息论,用于衡量两个概率分布之间的差异在分类任务中,它测量预测概率分布与真实标签分布之间的距离交叉熵具有重要特性当预测概率与真实标签相差越大,损失值增长越快,这使得模型能够对错误预测做出强烈反应,加速学习过程过拟合问题过拟合定义产生原因模型在训练数据上表现极佳,但在未见过的测试数据上表现不佳的现象模型学•模型过于复杂(参数过多)习了训练数据中的噪声和随机波动,而非数据的真实规律•训练数据不足过拟合的表现•训练时间过长噪声数据比例高••训练误差低但测试误差高解决方法•模型复杂度远超问题需要•对训练数据的微小变化敏感•简化模型结构•增加训练数据量•正则化技术提前停止••集成学习过拟合是机器学习中常见的问题,尤其在深度神经网络这类高复杂度模型中更为突出简单来说,过拟合意味着模型记住了训练数据而非学习数据中的规律,就像学生死记硬背考试题目而不理解基本概念这种现象在训练集和验证集性能差异逐渐扩大时可以观察到正则化技术和正则化L1L2正则化()正则化()L1Lasso L2RidgeJθ=Lossθ+λ∑|θᵢ|Jθ=Lossθ+λ∑θᵢ²特点特点•导致稀疏解(特征选择)•使权重值整体变小但不为零•将无关特征权重降为零•计算简单,梯度稳定•在零点不可导,计算复杂•对多重共线性更稳健正则化是防止神经网络过拟合的重要技术,通过在损失函数中添加惩罚项来约束模型参数和正则化是两种最常用的方法,它们L1L2以不同方式影响模型参数是正则化强度,控制正则化的影响程度,是一个需要调整的超参数λ正则化Dropout随机失活训练时每个神经元以概率p被临时删除网络稀疏化每次训练迭代使用不同的网络子结构推理时缩放测试时保留所有神经元,但输出乘以1-p集成效果相当于训练多个不同网络并进行平均Dropout是由Hinton等人于2012年提出的一种简单而有效的正则化技术,已成为深度学习中控制过拟合的标准方法之一其核心思想是在训练过程中随机关闭一部分神经元,使网络不能过度依赖任何特定的神经元,从而减少共适应性(co-adaptation)问题每次前向传播时,每个神经元都有p(通常为
0.5)的概率被暂时从网络中移除,这样每次迭代实际上都在训练一个不同的子网络批量归一化()Batch Normalization计算批次统计量标准化变换计算每个特征的均值μ和方差σ²x̂=x-μ/√σ²+ε推理阶段缩放和平移使用训练阶段估计的全局统计量y=γ·x̂+β批量归一化是由和在年提出的一种网络优化技术,它通过标准化每一层的输入来加速神经网络的训练在每个中,首先计Sergey IoffeChristian Szegedy2015mini-batch BN算每个特征维度的均值和方差,然后进行标准化操作,将数据转换为均值为、方差为的分布最后通过可学习的缩放因子和偏移因子,恢复数据的表达能力,使网络能01γβ够保留非线性变换的能力卷积神经网络()简介CNN生物学启发核心优势的设计受到视觉皮层工作机制的启相比全连接网络,具有参数共享和稀CNN CNN发,模仿人类视觉系统的局部感受野特疏连接的特性,大幅减少参数数量,提高性,能够自动学习图像的空间层次特征计算效率,同时具有平移不变性,能够识别物体而不受位置影响主要应用领域在计算机视觉领域表现卓越,广泛应用于图像分类、物体检测、图像分割、人脸识别等CNN任务,也逐渐扩展到语音识别、自然语言处理等非视觉领域卷积神经网络是一类专门设计用于处理具有网格结构数据(如图像)的深度神经网络自年1998等人提出以来,经历了长足发展,特别是年在竞赛中的LeCun LeNet-5CNN2012AlexNet ImageNet突破性表现,标志着深度学习在计算机视觉领域的崛起的基本结构CNN卷积层使用卷积核提取特征,捕获局部模式池化层降低特征维度,提高位置不变性全连接层整合特征,执行高级推理卷积神经网络通常由三种基本层次交替堆叠构成卷积层是网络的核心,通过滑动窗口方式对输入应用卷积操作,每个卷积核可视为一个特征检测器,学习识别特定的视觉模式典型包含多个卷积层,前面的层检测简单特征(如边缘、角点),后面的层则组合这些特征识别更复杂的模式CNN卷积层详解3×316卷积核尺寸卷积核数量常用大小包括3×
3、5×
5、7×7决定输出特征图数量21步长Stride填充Padding控制卷积核移动步长边缘补零保持尺寸卷积层是CNN的核心组件,其工作原理是使用卷积核(也称为滤波器或权重矩阵)在输入数据上滑动,计算卷积核与输入数据局部区域的点积,生成特征图每个卷积核负责检测特定的特征模式,如垂直线、水平线或特定纹理网络通过反向传播自动学习这些卷积核的权重值,使其能够提取对任务有意义的特征池化层详解最大池化平均池化Max PoolingAverage Pooling取局部区域最大值计算局部区域平均值特点特点•保留显著特征•保留背景信息•对纹理和边缘敏感•平滑特征表示•提高位置不变性•减少噪声影响•在实践中更为常用•常用于网络末端池化层是中用于减少特征图空间尺寸的下采样操作,通常紧跟在卷积层之后池化的主要目的是降低计算复杂度、控制过拟合、提高特征CNN的位置不变性最常见的池化窗口大小为,步长为,这将特征图在每个维度上缩小一半,总体面积减少2×2275%经典架构CNN LeNet-5Conv16个5×5卷积核,步长1输出特征图28×28×6Pool12×2平均池化,步长2输出特征图14×14×6Conv216个5×5卷积核输出特征图10×10×16Pool2+FC2×2池化后接全连接层最终输出10分类LeNet-5是由Yann LeCun等人在1998年提出的早期卷积神经网络,最初设计用于手写数字识别(MNIST数据集)尽管结构相对简单,LeNet-5包含了现代CNN的基本元素卷积层、池化层(当时称为下采样层)和全连接层,奠定了深度学习在计算机视觉领域的基础经典架构CNN AlexNet革命性突破12012年ImageNet竞赛冠军,错误率比第二名低
10.8%,标志深度学习时代的开始创新架构28层网络(5个卷积层+3个全连接层),6000万参数,首次在GPU上大规模训练技术创新3首次使用ReLU激活函数、Dropout正则化、重叠池化,并采用数据增强技术历史意义4证明了深度学习在大规模视觉识别任务上的有效性,彻底改变了计算机视觉研究方向AlexNet由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年设计,网络结构包括5个卷积层和3个全连接层其第一个卷积层使用11×11大小的卷积核,步长为4,这一大尺寸设计旨在快速降低高分辨率输入图像的尺寸;后续卷积层使用更小的卷积核(5×5和3×3)捕获更精细的特征全连接层包含4096个隐藏单元,大量参数使网络具有强大的表达能力经典架构CNN VGGNet架构特点主要变体•极度规整的网络结构VGG1613个卷积层+3个全连接层•统一使用3×3卷积核个卷积层个全连接层VGG1916+3最大池化•2×2参数规模•通道数量按层次翻倍•16-19层深度VGG16约
1.38亿参数约亿参数VGG
191.44超过参数集中在全连接层90%由牛津大学于年提出,在年竞赛中获得亚军,以其简洁统一的设计理念著称的核心思想是用多VGGNet VisualGeometry Group20142014ImageNet VGG个小卷积核堆叠替代大卷积核,例如两个卷积层的感受野等同于一个卷积层,但参数更少且非线性能力更强网络通过个卷积块构建,每块包含3×35×55个卷积层,每块末尾的池化层将特征图尺寸减半,而通道数则由递增至2-464512经典架构CNN ResNet深度学习困境理论上网络越深越好,但实际上深层网络性能反而下降,主要受梯度消失/爆炸和退化问题影响残差学习核心创新在于残差块设计y=Fx+x,不直接学习映射Fx,而是学习残差Fx=Hx-x跨层连接恒等映射跨层连接使梯度能够不受阻碍地反向传播,有效缓解梯度消失和退化问题革命性成果突破性构建了152层深度网络,同时保持较低复杂度,赢得2015年ImageNet竞赛冠军ResNet(残差网络)由微软研究院何恺明等人于2015年提出,是解决深层神经网络训练难题的突破性架构ResNet通过残差学习框架,使得构建和训练超过100层的深度网络成为可能残差块的核心思想是引入捷径连接(shortcut connection),允许梯度直接流过,缓解了深层网络训练中的梯度消失问题在图像识别中的应用CNN卷积神经网络已成为计算机视觉领域的基础技术,在各类图像识别任务中展现出色性能图像分类是最基本的应用,如挑战赛中将错误率从年的降ImageNet CNN201126%至年的,超越人类水平在物体检测方面,系列、、等框架能够同时定位和识别图像中的多个物体,广泛应用于自动驾驶、安防监控等场景
20172.25%R-CNN YOLOSSD循环神经网络()简介RNN序列处理记忆机制专门设计用于处理序列数据通过隐状态保持信息灵活结构参数共享支持变长输入输出序列各时间步使用相同权重循环神经网络是一类专门处理序列数据的神经网络,与传统前馈网络不同,引入了循环连接,使网络具有记忆能力,能够利用之前的信息影响当前决策RNNRNN的基本思想是在每个时间步,网络不仅接收当前输入,还接收上一时间步的隐状态,这种设计使得能够捕获序列中的长期依赖关系RNN的基本结构RNN单对单One-to-One标准前馈网络,无序列处理一对多One-to-Many单一输入,序列输出,如图像生成文字描述多对一Many-to-One序列输入,单一输出,如情感分析、序列分类多对多Many-to-Many序列到序列映射,如机器翻译、语音识别循环神经网络具有灵活多样的结构形式,可以根据输入输出的序列特性进行分类在一对多结构中,网络接收单个输入并生成序列输出,典型应用如图像标注,网络接收一张图像并生成描述文字多对一结构则正好相反,它处理输入序列并产生单一输出,常见于情感分析、文本分类等任务,网络读取整个文本序列后做出最终判断长短期记忆网络()LSTM门控机制记忆单元LSTM引入三个门控单元输入门、遗忘门和输LSTM的核心是细胞状态cell state,作为信息出门,分别控制新信息的写入、旧信息的保留高速公路贯穿整个序列通过精心设计的门控和当前状态的输出每个门都是一个sigmoid神机制,细胞状态可以保持信息流动几百个时间经网络层,输出0-1之间的值,决定信息流动的步,有效解决了长期依赖问题,使网络能够记程度住序列早期的重要信息优势特点相比标准RNN,LSTM能够有效缓解梯度消失问题,捕获更长距离的依赖关系;结构设计合理,训练稳定性好;模块化设计灵活,易于创建变体;在各类序列建模任务中表现卓越,尤其适合需要长期记忆的应用场景长短期记忆网络LSTM是由Hochreiter和Schmidhuber于1997年提出的特殊RNN变体,旨在解决标准RNN难以学习长期依赖关系的问题LSTM的核心创新在于引入了精细的门控机制和记忆单元遗忘门决定丢弃多少先前状态信息;输入门控制新信息注入的程度;输出门决定将内部状态的多少传递到外部门控循环单元()GRU简化架构与对比LSTMGRU将LSTM的三个门简化为两个更新门和重置门•参数更少,计算效率更高•训练速度更快,所需数据更少更新门控制前一状态信息保留程度性能通常与相当•LSTM重置门决定忽略多少先前信息•在短序列任务中尤为有效合并了记忆单元和隐藏状态•对小数据集更友好门控循环单元是由等人在年提出的简化版本,旨在保持的性能优势同时降低计算复杂度通过两个门控机制管理GRU Cho2014LSTM LSTMGRU信息流更新门决定保留多少先前状态;重置门控制如何结合新输入与先前状态然后计算z_t=σW_z·[h_{t-1},x_t]r_t=σW_r·[h_{t-1},x_t]候选隐藏状态,最终通过更新门融合先前状态与候选状态h~_t=tanhW·[r_t*h_{t-1},x_t]h_t=1-z_t*h_{t-1}+z_t*h~_t在自然语言处理中的应用RNN机器翻译使用编码器-解码器架构,将源语言句子编码为向量表示,再由解码器生成目标语言翻译谷歌翻译等系统的早期版本广泛采用LSTM/GRU实现序列到序列的转换对话系统循环神经网络能够理解对话历史上下文,生成连贯响应从基础聊天机器人到智能客服,RNN帮助系统维持对话一致性,理解用户意图和情感文本生成RNN可以按字符或词级别生成连贯文本,捕捉语言的统计规律应用于自动写作、内容摘要、诗歌创作等领域,早期GPT模型的基础也源于RNN架构情感分析通过学习词序和上下文关系,RNN能准确捕捉文本情感,广泛应用于社交媒体监测、产品评论分析、市场调研等商业场景循环神经网络凭借处理序列数据的能力,在自然语言处理领域发挥着重要作用在语言建模方面,RNN通过预测句子中下一个词的概率分布,捕捉了词序和语法规则,为机器翻译、语音识别等任务提供基础支持命名实体识别和词性标注等序列标注任务也广泛采用双向LSTM等架构,实现高精度标注自编码器编码器将输入压缩为低维表示潜在空间2数据的压缩表示,捕获核心特征解码器从潜在表示重建原始输入自编码器是一类无监督学习神经网络,旨在学习数据的高效编码其工作原理是通过训练网络重建自身的输入,在此过程中学习数据的内部结构典型的自编码器由两部分组成编码器将输入映射到潜在表示(通常维度远小于输入),解码器则尝试从重建原始输入训练目标是最小化重建误差,即x zz x输入与重建输出之间的差异变分自编码器()VAE生成模型视角潜在空间建模是一种结合了神经网络和概率图模型的生与普通自编码器不同,不直接输出潜在向VAE VAE成模型,不仅学习数据压缩,更学习数据的量z,而是输出分布参数(均值μ和方差σ),概率分布,能够生成全新样本从而将每个输入映射到潜在空间的概率分布而非单点重参数化技巧为实现随机采样的同时保持反向传播能力,使用重参数化技巧,其中是从标准VAE z=μ+σ·εε正态分布采样的噪声这种设计使得梯度能够通过随机节点流动变分自编码器由和于年提出,是将变分推断与深度学习相结合的创新模型Kingma Welling2013VAE的训练目标包含两部分重建损失(衡量输入与重建输出的差异)和散度损失(确保潜在分布接近KL标准正态分布)这一设计使具有独特优势潜在空间连续且平滑,相邻点解码后产生相似样VAE本;通过采样潜在空间可生成新样本;潜在变量具有解释性,能够进行属性插值和操控生成对抗网络()简介GAN随机输入生成器判别器对抗训练从简单分布中采样潜在向量z将潜在向量转换为假样本Gz区分真实样本和生成样本双方不断改进,形成博弈平衡生成对抗网络是由Ian Goodfellow等人在2014年提出的革命性生成模型框架,被Yann LeCun称为过去十年机器学习中最有趣的想法GAN的核心思想是建立一个生成器G和判别器D之间的对抗博弈生成器尝试创造逼真的样本以欺骗判别器,而判别器则努力区分真实样本和生成样本通过这种对抗训练,生成器逐渐学会产生越来越逼真的样本的基本结构和原理GAN生成器设计判别器设计•输入随机噪声向量z(通常从正态分布采样)•输入真实样本x或生成样本Gz•架构深度神经网络,对图像通常使用转置卷积层•架构卷积网络图像或其他分类网络•激活中间层常用ReLU/LeakyReLU,输出层通常用Tanh•输出单一概率值,表示输入为真实样本的概率•目标最小化log1-DGz或等效地最大化logDGz•激活中间层常用LeakyReLU,输出层用Sigmoid•目标最大化logDx+log1-DGz的训练过程是一种特殊的博弈均衡寻找过程理论上,当模型达到纳什均衡时,生成器能够完美复制数据分布,判别器则无法区GAN分真假样本(输出概率恒为)实际训练中,通常先训练判别器几步,再训练生成器一步,这种交替优化方式有助于平衡双方能
0.5力为稳定训练,经常采用的技巧包括批归一化、标签平滑化、噪声注入、特征匹配等的应用案例GAN生成对抗网络在各领域展现出惊人的应用潜力在图像生成方面,能够生成高度逼真的人脸图像,其质量已达到以假乱真的程度;则可生成多样化、高StyleGANBigGAN分辨率的自然图像图像翻译是另一重要应用,如实现有监督的图像转换(草图到照片、轮廓到实物);则不需配对数据,能够在不同风格间转换(如照pix2pix CycleGAN片与梵高画作风格互换)深度强化学习简介状态观察动作决策智能体感知环境状态基于策略选择行动策略更新奖励反馈优化决策以最大化长期回报环境返回即时奖励深度强化学习DRL结合了深度学习的表示能力和强化学习的决策框架,是人工智能研究的前沿领域在传统强化学习中,智能体通过与环境交互,在没有明确监督信号的情况下学习最优策略;而深度强化学习则使用深度神经网络来近似值函数或策略函数,处理高维状态空间DRL的核心挑战包括探索-利用权衡、延迟奖励、样本效率和稳定性问题和Q-learning DQNQ值函数Qs,a表示在状态s执行动作a的长期价值深度神经网络用CNN等网络近似Q函数,处理高维输入经验回放存储并随机采样过去经验,打破数据相关性目标网络固定目标Q网络,提高训练稳定性Q-learning是一种经典的无模型强化学习算法,通过迭代更新行为值函数Q函数来学习最优策略传统Q-learning使用表格存储每个状态-动作对的值,通过贝尔曼方程更新Qs,a←Qs,a+α[r+γ·max_aQs,a-Qs,a]然而,当状态空间非常大或连续时,表格方法变得不可行DQNDeep Q-Network正是为解决这一问题而生,它使用深度神经网络近似Q函数,实现了从原始像素到控制决策的端到端学习策略梯度方法核心原理主要算法与值函数方法不同,策略梯度直接优化参数化策略π_θa|s,无需计•REINFORCE基础策略梯度算法,方差大算中间的值Q•Actor-Critic结合策略和值函数,降低方差梯度方向∇∇•A3C异步多线程训练,提高并行效率ascent_θJθ≈E[_θlogπ_θa|s·Qs,a]•TRPO通过约束更新步长提高稳定性目标找到使预期累积奖励最大化的策略参数θ•PPO裁剪目标函数,简化TRPO同时保持性能策略梯度方法是深度强化学习中的另一大类算法,与基于值函数的方法相比具有几个显著优势能够学习随机策略,这在部分可观察环境中至关重要;自然处理连续动作空间,无需离散化;在某些情况下收敛性质更好基本策略梯度定理表明,策略的梯度正比于动作概率的对数梯度与动作值的乘积的期望,这为各种算法提供了理论基础深度学习框架简介TensorFlow高层API计算图部署能力Keras提供简洁接口,快速构建模TF
1.x使用静态计算图,预编译提高TensorFlow Lite针对移动设备优型;Estimator支持生产级机器学效率;TF
2.x默认采用动态图,支持化;TensorFlow.js支持浏览器运习;TensorFlow Hub提供预训练模即时执行,更加灵活行;TF Serving简化模型部署型开发工具TensorBoard可视化训练过程;模型优化工具支持量化和剪枝;TFProfiler分析性能瓶颈TensorFlow是由Google Brain团队开发的开源深度学习框架,于2015年首次发布并迅速成为业界领先的机器学习平台之一其名称源自其核心数据结构——张量Tensor,以及张量在计算图上的流动FlowTensorFlow
2.0的发布标志着框架向更加简洁、直观的方向演进,采用Keras作为官方高级API,支持即时执行模式,显著提高了开发效率深度学习框架简介PyTorchPython优先设计理念以Python编程习惯为中心,提供直观、灵活的API,学习曲线平缓,深受研究人员喜爱动态计算图原生支持动态计算图,允许在运行时改变网络结构,方便调试与实验,特别适合研究创新丰富生态TorchVision、TorchText和TorchAudio提供领域专用工具;PyTorch Lightning和fastai等高层框架简化开发生产部署TorchServe简化模型服务;TorchScript实现模型优化与跨语言部署;ONNX支持跨框架互操作PyTorch是由Facebook AI研究团队开发的开源深度学习框架,于2017年发布,以其灵活性和直观性迅速获得学术界的青睐PyTorch的核心设计理念是动态计算图(define-by-run),这意味着计算图在运行时定义,而非事先定义后执行,使得网络结构可以根据条件动态变化,调试也更为直观,类似于普通Python代码的调试方式神经网络训练技巧学习率调整固定学习率自适应方法最简单的策略,全程使用相同学习率基于梯度历史自动调整学习率优点实现简单主要算法缺点难以平衡收敛速度和精度•AdaGrad累积平方梯度学习率衰减•RMSProp使用移动平均•Adam结合动量和RMSProp随时间/步数逐渐降低学习率•AdamW修正权重衰减实现常见策略学习率预热•阶梯衰减初始使用较小学习率,然后逐渐增加•指数衰减有助于稳定早期训练阶段•余弦衰减学习率是神经网络训练中最关键的超参数之一,它决定了每次参数更新的步长过大的学习率会导致训练不稳定甚至发散,而过小的学习率则会使收敛速度过慢,甚至陷入局部最小值合理的学习率调整策略能够显著提高训练效率和模型性能在实践中,常采用先大后小的策略训练初期使用较大学习率快速接近最优解区域,后期使用较小学习率进行精细调整神经网络训练技巧权重初始化随机初始化Xavier/Glorot初始化最简单的方法是从均匀或正态分布中随机采样权专为Sigmoid/Tanh激活函数设计,权重从均值为重值然而,简单随机初始化在深层网络中容易
0、方差为2/n_in+n_out的分布采样,其中导致梯度消失或爆炸问题,特别是当所有权重取n_in和n_out分别是该层的输入和输出神经元数值范围相同时量这种方法保持了前向传播和反向传播过程中方差的一致性He初始化针对ReLU激活函数优化,权重从均值为
0、方差为2/n_in的分布采样He初始化考虑到ReLU会将约一半的激活置为零,因此通过增大初始权重来补偿,在现代深度网络中广泛应用正确的权重初始化对神经网络训练至关重要,它直接影响网络的收敛速度和最终性能好的初始化策略应当打破对称性(使不同神经元学习不同特征),并保持适当的激活值和梯度分布,防止信号在前向或反向传播过程中消失或爆炸对于特定网络结构,还存在专门的初始化方法,如正交初始化(保持输入空间的正交性)和LSUV(Layer-Sequential Unit-Variance)迁移学习预训练在大规模数据集上训练源模型知识迁移将学到的特征表示转移到目标任务微调3调整模型参数以适应新任务需求迁移学习是一种机器学习方法,它利用在一个任务(源任务)上获取的知识来提高另一个相关任务(目标任务)的学习效率在深度学习领域,迁移学习通常指利用在大规模数据集(如)上预训练的模型作为起点,通过微调来适应特定任务这种方法特别适用于目标任务数据有限的情况,可以显著减少训ImageNet练时间、降低计算资源需求,并改善模型性能学习few-shot少样本学习问题元学习方法从极少量标记样本中学习新类别学会如何学习的策略优化调整度量学习快速适应新任务的参数优化学习样本间相似度的度量Few-shot学习(少样本学习)旨在解决深度学习中的数据效率问题,使模型能够从极少量的标记样本(通常每类只有1-5个样本)中学习识别新类别传统深度学习模型在数据稀缺的情况下容易过拟合,而Few-shot学习通过特殊的训练策略和模型设计克服这一限制Few-shot学习任务通常表述为N-way K-shot问题,即从N个新类别中学习,每类只有K个标记样本神经网络可解释性黑盒问题深度神经网络通常被视为黑盒,其内部决策过程难以理解,这在医疗诊断、金融风控、自动驾驶等高风险领域引发信任危机和监管挑战可视化技术卷积网络可通过特征可视化、类激活映射CAM等方法显示网络关注的图像区域;注意力机制可视化则揭示文本或多模态模型中的关键元素归因方法梯度基方法如Grad-CAM、扰动基方法如LIME和反卷积网络等技术能够分析输入特征对预测结果的贡献度,提供决策解释可解释性设计从根本上设计具有内在可解释性的模型,如注意力模型、基于概念的模型和自解释神经网络,在保持性能的同时提供决策理由神经网络可解释性已成为人工智能研究的重要课题,它不仅关系到模型的可信度,也直接影响到AI系统在关键领域的部署与监管不同于传统机器学习方法(如决策树)的内在透明性,深度神经网络由于其复杂的非线性变换和庞大的参数规模,决策过程难以直接理解局部解释技术旨在解释单个预测,如通过显著性图Saliency Maps标识关键输入区域;全局解释则尝试理解模型的整体行为,如通过概念激活向量分析网络学习的高级概念神经网络在计算机视觉中的应用物体检测图像分割人脸识别从图像中同时定位和识别多个物体,关键算法包括像素级别的分类,分为语义分割(为每个像素分配类通过深度特征提取实现身份验证和识别,DeepFace、系列、、等广泛应用于自动驾驶(识别)和实例分割(区分同类不同物体)、等系统已达到接近人类的精度除安防应用RCNN YOLOSSD FCNU-FaceNet别行人、车辆、交通标志)、安防监控、零售分析等领Net、Mask R-CNN等模型在医学影像分析、自动驾驶外,还广泛用于移动设备解锁、支付验证、智能相册组域场景理解中发挥重要作用织等场景神经网络,特别是卷积神经网络已彻底革新了计算机视觉领域在图像分类任务中,从到,再到最新的,模型在等基准CNN AlexNetResNet VisionTransformer ImageNet测试上的表现持续突破,许多任务已超越人类水平内容生成是另一个蓬勃发展的应用领域,以和扩散模型为代表的技术能够生成高度逼真的图像,实现风格迁移、超GAN分辨率重建、图像修复等功能神经网络在语音识别中的应用音频特征提取声学模型语言模型解码搜索将原始音频信号转换为梅尔频谱图等表CNN/RNN/Transformer映射声学特征到基于上下文预测词序列概率整合声学和语言模型,生成最优转录文示音素本神经网络在语音识别ASR领域引发了革命性变革,将错误率降低了30%-50%,使语音助手和实时转录等应用成为可能传统的基于隐马尔科夫模型HMM和高斯混合模型GMM的方法已被深度神经网络大幅超越深度学习时代的语音识别系统通常采用分层架构首先使用特征提取器将原始音频转换为频谱表示;然后使用声学模型(如深度CNN、LSTM或Transformer)将声学特征映射为音素或字符概率;最后结合语言模型和解码算法生成最终文本神经网络在推荐系统中的应用深度协同过滤特征交互建模使用神经网络学习用户和商品的隐含表示,捕捉复深度学习能有效建模复杂特征交互,如Wide杂的非线性交互与传统矩阵分解相比,神经协同Deep模型结合线性模型的记忆能力和深度网络的泛过滤能够建模更丰富的协同信号,提高推荐准确化能力;DeepFM自动学习低阶和高阶特征交互;性,如NCFNeural CollaborativeFiltering模型DCN通过显式交叉网络捕捉特定特征组合序列推荐基于RNN/Transformer的模型能有效捕捉用户行为序列中的时序模式和长期兴趣GRU4Rec将RNN应用于会话推荐;SASRec利用自注意力机制建模长距离依赖;BERT4Rec则采用双向编码器架构预测序列中的行为神经网络已成为现代推荐系统的核心技术,它解决了传统方法在处理大规模稀疏数据和复杂特征交互时的局限性深度学习推荐模型的显著优势在于端到端特征学习能力,无需人工特征工程即可从原始特征中自动学习有效表示多模态推荐系统能够整合文本、图像、视频等异构数据源,通过专门的神经网络提取各模态特征,然后融合为统一表示,这在电商、内容平台等场景尤为重要神经网络的未来发展趋势课程总结与展望未来探索参与前沿研究,开发创新应用实践应用将理论知识转化为实际项目工具掌握熟练使用深度学习框架和库原理理解掌握神经网络基本原理和算法本课程系统介绍了神经网络的基本原理和前沿技术,从生物启发的人工神经元模型,到复杂的深度学习架构,再到各领域的实际应用我们学习了前向传播与反向传播算法、各类激活函数、多样化的网络结构(MLP、CNN、RNN等)、正则化技术以及优化方法通过理论讲解与案例分析相结合,建立了对神经网络工作机制的深入理解,掌握了应对过拟合、梯度消失等常见问题的技巧。
个人认证
优秀文档
获得点赞 0