还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习原理这门课程将系统地介绍深度学习的基本原理、核心技术和前沿应用我们将从神经网络的基础概念出发,逐步深入到复杂的深度学习架构,并探讨其在计算机视觉、自然语言处理等领域的应用通过本课程,您将掌握深度学习的理论基础和实践技能,能够设计、训练和优化深度学习模型,并解决实际问题无论您是初学者还是希望深入了解这一领域的专业人士,本课程都将为您提供全面的知识体系课程概述课程目标学习内容12使学生全面理解深度学习的核课程涵盖神经网络基础、卷积心概念和工作原理,掌握不同神经网络、循环神经网络、注类型的神经网络模型设计与实意力机制、生成对抗网络、强现方法,能够应用深度学习技化学习等核心内容,并介绍深术解决实际问题,并具备持续度学习在计算机视觉、自然语学习和跟进最新研究成果的能言处理等领域的具体应用和最力新进展先修知识3学习本课程前,建议具备基础的线性代数、微积分、概率统计知识,以及基本的编程能力和机器学习基础知识这些基础将有助于更好地理解深度学习中的数学原理和算法实现第一章深度学习简介概述定位本章将介绍深度学习的基本概念、历史发展和应用领域,帮助学生建立对深度学习的整体认识和框架理解,为后续深入学习奠定基础重要性深度学习已成为人工智能领域的核心技术,推动了计算机视觉、自然语言处理、语音识别等多个领域的革命性进步,了解其基本原理和应用范围对于入门学习至关重要学习目标通过本章学习,学生将能够清晰定义深度学习,了解其与传统机器学习的区别和联系,认识深度学习的发展历程及主要应用场景,为后续各类神经网络模型的学习打下基础什么是深度学习?定义与机器学习的关系深度学习是机器学习的一个分支,深度学习是机器学习的子集,而它使用多层神经网络进行特征提机器学习是人工智能的一个重要取和转换,从而学习数据的层次分支传统机器学习通常需要人化表示深度指的是神经网络工设计特征,而深度学习能自动中隐藏层的数量,一般认为至少从原始数据中学习特征,减少了有两层隐藏层的神经网络才称为对特征工程的依赖,提高了系统深度神经网络的自适应能力深度学习的特点深度学习的主要特点包括强大的特征学习能力、端到端的学习方式、大数据驱动、计算资源密集、模型解释性较低等它在处理非结构化数据(如图像、文本、语音)时表现尤为出色深度学习的发展历史神经网络理论基础11943-19581943年,McCulloch和Pitts提出了第一个数学神经元模型;1958年,Rosenblatt发明了感知机,这是第一个能学习的神经网络模型,标志着神经网络研究的开始低谷与复兴21969-19861969年,Minsky和Papert指出单层感知机的局限性,导致神经网络研究陷入低谷;1986年,Rumelhart等人提出反向传播算法,解决了多层神经网络的训练问题,神经网络研究开始复兴深度学习突破32006-20122006年,Hinton提出深度信念网络,开启了深度学习时代;2012年,AlexNet在ImageNet竞赛中取得突破性成绩,证明了深度学习在计算机视觉中的强大能力,引发了深度学习的研究热潮至今蓬勃发展42013这一时期见证了LSTM、GRU等循环神经网络的广泛应用,Transformer、BERT、GPT等基于注意力机制的模型相继问世,深度学习在各个领域取得了巨大成功并不断突破深度学习的应用领域计算机视觉自然语言处理语音识别深度学习在图像分类、目标检测、深度学习彻底改变了自然语言处深度学习使语音识别准确率大幅图像分割、人脸识别等计算机视理领域,从词嵌入到BERT、GPT提升,现代语音助手如Siri、觉任务中取得了突破性进展例等大型语言模型,实现了机器翻Alexa等都采用深度神经网络作如,基于CNN的模型在译、情感分析、文本摘要、问答为核心技术除语音识别外,语ImageNet竞赛中已超过人类水系统等多种应用这些技术已在音合成、声纹识别、音乐生成等平,目前广泛应用于自动驾驶、智能客服、文档处理、内容生成领域也获得了显著进步医学影像诊断和安防监控等领域等场景得到广泛应用其他领域深度学习还在游戏AI(如AlphaGo)、推荐系统、异常检测、药物发现、基因组学分析等众多领域展现出强大潜力,不断拓展应用边界,创造新的价值和可能性第二章神经网络基础网络结构神经元模型学习神经网络的层次结构和连接方式2理解人工神经元的基本结构和工作原理1激活函数掌握常见激活函数的特性和应用35反向传播前向传播理解神经网络的学习机制和参数更新方法4了解神经网络信息传递的基本计算过程本章作为深度学习的理论基础,将介绍神经网络的基本组成单元、结构设计和工作原理我们将从最基本的人工神经元模型出发,讲解神经网络的前向计算和反向传播学习算法,这些是理解所有深度学习模型的关键基础通过本章学习,学生将掌握构建和训练简单神经网络的理论知识和技能,为后续学习更复杂的深度学习架构打下坚实基础生物神经元与人工神经元生物神经元结构人工神经元模型生物神经元主要由细胞体、树突、轴突和突触组成树突接收来人工神经元(感知机)是对生物神经元的简化数学模型它接收自其他神经元的信号,细胞体处理这些信号,当累积的信号超过多个输入信号,每个输入都有一个相应的权重表示其重要性神阈值时,神经元被激活并通过轴突向下游神经元传递信号这种经元计算所有加权输入的总和,再通过激活函数确定输出信号的接收-处理-传递的信息处理方式启发了人工神经元的设计强度这一简单结构是构建复杂神经网络的基本单元人工神经元的数学表达式为,其中是输入,y=f∑wi*xi+b xi是权重,是偏置,是激活函数wi bf激活函数函数函数与Sigmoid ReLUTanh Leaky ReLU函数将输入映射到区间,表是目前最函数将输入映射到区间,是零Sigmoid0,1ReLURectified LinearUnit Tanh-1,1达式为fx=1/1+e^-x它在早期神经流行的激活函数,表达式为fx=中心化的,但仍存在梯度消失问题网络中应用广泛,但存在梯度消失问题,且max0,x它计算简单、训练快速,有效LeakyReLU是ReLU的变种,表达式为输出不是零中心化的,这会影响训练效率缓解了梯度消失问题,但可能导致神经元fx=maxαx,x,其中α是一个小常数,现在主要用于二分类问题的输出层或门控机死亡现象(即某些神经元永远不会被激它允许负值输入产生非零梯度,从而缓解神制中活)经元死亡问题前向传播输入层接收数据1原始数据经过预处理后输入网络隐藏层计算2每个神经元计算加权和并应用激活函数层间信息传递3每层的输出作为下一层的输入输出层生成结果4网络产生最终预测结果前向传播是神经网络进行预测的计算过程在这个过程中,数据从输入层开始,依次通过每个隐藏层,最终到达输出层每一层的每个神经元都会接收上一层所有神经元的输出,计算加权和并应用激活函数,然后将结果传递给下一层以一个简单的三层网络为例假设输入x通过权重矩阵W1连接到隐藏层,隐藏层应用激活函数f后,通过权重矩阵W2连接到输出层整个计算过程可表示为y=W2·fW1·x+b1+b2,其中b1和b2分别是隐藏层和输出层的偏置项损失函数损失函数类型应用场景数学表达式特点均方误差MSE回归问题MSE=对异常值敏感1/n∑y-ŷ²交叉熵CE分类问题CE=-∑y·logŷ适用于概率输出Hinge LossSVM,二分类L=max0,1-促进间隔最大化y·ŷHuber Loss回归,异常检测分段函数结合MSE和MAE优点损失函数是衡量模型预测值与真实值之间差距的度量标准,用于指导模型的训练过程选择合适的损失函数对于模型性能至关重要,不同任务类型通常需要不同的损失函数均方误差适用于回归问题,直观反映预测偏差的平方和;交叉熵则广泛应用于分类问题,特别适合与Softmax函数配合使用在实际应用中,还可以根据具体需求设计自定义损失函数或组合多个损失函数反向传播计算损失将前向传播的输出与真实标签比较,计算损失函数值,衡量模型预测的准确程度这一步确定了需要优化的目标计算梯度应用链式法则,从输出层开始,逐层向后计算每个参数对损失函数的偏导数(梯度)这一步确定了参数更新的方向参数更新根据计算得到的梯度和学习率,更新神经网络中的权重和偏置参数这一步实际改进模型性能,使预测更接近真实值重复迭代重复上述步骤多次,直到损失函数收敛或达到预设的迭代次数,完成模型训练这一过程通常需要多轮数据遍历反向传播是神经网络学习的核心算法,通过链式法则高效计算梯度,解决了多层神经网络的训练问题该算法的关键在于梯度的逐层传递,每一层参数的梯度依赖于后一层的梯度计算结果,形成了一种从后向前的计算链优化算法梯度下降法标准梯度下降法在每次更新前计算整个训练集的梯度,保证了梯度方向的准确性,但计算成本高,速度慢,且容易陷入局部最优它的更新规则为θ=θ-η∇Jθ,其中η是学习率,∇Jθ是损失函数关于参数θ的梯度随机梯度下降随机梯度下降SGD每次仅使用一个训练样本更新参数,计算速度快,引入了随机性有助于跳出局部最优,但梯度方向波动大,收敛过程不稳定在大数据集上,SGD通常比标准梯度下降更为高效小批量梯度下降小批量梯度下降结合了前两种方法的优点,每次使用一小批mini-batch样本计算梯度这种方法既减少了计算量,提高了训练速度,又保持了一定的梯度准确性,是当前深度学习中最常用的优化方法高级优化器现代深度学习还使用许多改进的优化算法,如动量法Momentum、AdaGrad、RMSProp和Adam等这些算法通过自适应学习率、加入动量项等方式,进一步提高了优化效率和模型性能第三章深度神经网络高级架构设计深度网络架构与优化技巧1常见问题处理2过拟合、梯度消失等问题解决高级正则化方法3Dropout、批量归一化等技术多层感知机4深度前馈神经网络的基础结构本章将深入探讨深度神经网络的核心概念和构建方法我们从最基本的多层感知机开始,逐步讲解深度学习中的经典问题如过拟合、梯度消失/爆炸,以及解决这些问题的正则化方法和优化技术通过本章学习,学生将掌握深度神经网络的设计原则和调优方法,能够构建有效的深度模型并应对训练过程中的各种挑战这些知识是理解和应用更复杂神经网络架构的基础多层感知机多层感知机是最基本的深度前馈神经网络,由输入层、一个或多个隐藏层和输出层组成的每一层都由多个全连接神经元构MLP MLP成,相邻层之间的神经元全部两两连接,但同层神经元之间没有连接在中,信息只能从输入层向输出层单向传播每个隐藏层通过非线性激活函数(如、等)对输入进行变换,这种层叠MLP ReLUSigmoid的非线性变换使网络能够学习复杂的特征表示理论上,具有足够隐藏单元的两层可以近似任何连续函数,但在实践中,更深的网络MLP往往能更高效地学习复杂模式过拟合与欠拟合欠拟合过拟合影响欠拟合指模型过于简单,无法捕捉数据中的过拟合指模型过于复杂,不仅学习了数据中过拟合和欠拟合严重影响模型的泛化能力模式,导致在训练集和测试集上都表现不佳的一般模式,还记住了训练数据中的噪声理想情况下,我们希望模型能够在训练数据欠拟合的主要原因包括模型复杂度不足和随机波动过拟合的模型在训练集上表现上表现良好,并且这种性能能够泛化到未见(如层数太少、神经元数量不够)、特征表极佳,但在测试集上表现不佳主要原因包过的数据上找到模型复杂度的甜蜜点是达能力有限、训练不充分等解决欠拟合的括模型过于复杂、训练数据不足、训练时机器学习中的核心挑战,需要通过交叉验证方法是增加模型复杂度或提供更有信息量的间过长等等技术来评估和调整特征正则化方法正则化1L1L1正则化(Lasso)通过在损失函数中添加权重绝对值之和的惩罚项来实现其数学表达为L=L₀+λ∑|w|,其中L₀是原始损失,λ是正则化强度L1正则化倾向于产生稀疏的权重矩阵,使部分权重变为零,起到了特征选择的作用,有助于简化模型并减少过拟合正则化2L2L2正则化(Ridge)在损失函数中添加权重平方和的惩罚项L=L₀+λ∑w²这种方法对大权重值施加较大惩罚,促使所有权重更加平滑且接近零,但通常不会精确为零L2正则化是深度学习中最常用的正则化方法之一,也称为权重衰减3DropoutDropout是一种特殊的正则化技术,在训练过程中随机丢弃一部分神经元(即将其输出置为0)每个小批量训练时,网络会形成不同的子网络,相当于集成了多个模型在测试时,所有神经元都参与计算,但输出需要按照保留率缩放Dropout有效减少了神经元之间的共适应性,提高了模型的泛化能力早停法4早停Early Stopping通过监控验证集上的性能,在模型开始过拟合前停止训练这是一种简单有效的正则化方法,不需要修改模型或损失函数在实践中,通常结合耐心参数使用,即当验证性能连续多轮未改善时才停止训练,以避免因随机波动导致过早停止批量归一化原理优势实现批量归一化Batch Normalization的批量归一化带来了多方面的优势首先,批量归一化通常插入在全连接层或卷积层核心思想是在网络的每一层输入上执行标它缓解了内部协变量偏移问题,使深层之后、激活函数之前在训练阶段,使用准化操作,使数据分布保持均值为
0、方网络的训练更加稳定;其次,它允许使用当前批次的统计量;而在测试阶段,使用差为1的状态具体来说,对每个小批量更高的学习率,加速训练收敛;此外,它训练过程中累积的统计量(通常是移动平数据,首先计算均值和方差,然后进行标具有轻微的正则化效果,因为每个小批量均值)各大深度学习框架都提供了准化,最后通过可学习的缩放和平移参数的统计量引入了一些噪声;最后,它减轻BatchNorm的内置实现,使其应用变得进行变换,恢复数据的表达能力了对初始化的敏感性,使深度网络更容易简单训练除了标准的外,还有BatchNorm其数学表达式为y=γ*x-μ/σ+β,LayerNorm、InstanceNorm等变体,其中和是批量的均值和标准差,和是适用于不同的场景和网络类型μσγβ可学习的参数第四章卷积神经网络计算机视觉革命特征学习原理12卷积神经网络在计算机视与传统的特征工程不同,能CNN CNN觉领域引发了革命性变化,从图够自动学习层次化的视觉特征像分类到目标检测、图像分割等浅层卷积层学习简单的边缘和纹任务都取得了突破性进展本章理特征,深层卷积层则学习更复将详细讲解CNN的基本原理、核杂的形状和物体部件特征这种心组件和经典架构,帮助学生掌自动特征提取能力是CNN成功的握这一强大工具的应用方法关键因素架构演进3从最早的到、,再到、等现LeNet-5AlexNet VGGNetResNet Inception代架构,的设计不断创新和优化本章将梳理的发展历程,分析不CNN CNN同架构的设计思想和优缺点,帮助学生理解深度学习模型设计的演进规律卷积操作定义步幅填充卷积操作是的核心,它是一种特殊的步幅控制卷积核在输入上滑动的步填充是在输入周围添加额外像CNN stridepadding线性运算在计算机视觉中,卷积通常指的长默认步幅为1,表示卷积核每次移动一素(通常为零)的技术,主要用于控制输出是离散卷积,即卷积核滤波器在输入上滑个像素;较大的步幅(如或)会导致输特征图的大小有效填充不添加23valid动,在每个位置计算卷积核与输入局部区域出特征图尺寸减小,相当于进行了下采样额外像素,输出尺寸小于输入;相同的点积和通过学习不同的卷积核,CNN步幅是控制特征图大小和计算量的重要参数,same填充添加足够像素使输出与输入能够检测不同类型的特征,如边缘、纹理和合理设置可以提高模型效率尺寸相同填充也有助于保留边界信息,减形状等少信息损失卷积层结构特征图卷积层由多个卷积核组成,每个卷积核学特征图Feature Map是卷积层的输出,习检测特定的特征模式完整的卷积层包表示输入数据中特定特征的空间分布特括卷积操作、偏置项添加和激活函数应用征图的数量等于卷积核的数量,尺寸取决三个步骤单个卷积层通常包含多个卷积于输入大小、卷积核大小、步幅和填充方12核,每个核产生一个特征图,共同组成该式深层网络中的特征图通常表示更高级、层的输出更抽象的特征感受野参数共享感受野指神经网络中每个神经元能看到参数共享是卷积层的重要特性,即同一个的输入区域大小较深层的神经元具有卷积核在整个输入上共享参数这显著减43更大的感受野,能够整合更多上下文信息少了模型参数数量,提高了训练效率和泛理解感受野对于设计有效的CNN架构非化能力参数共享基于图像具有空间平稳常重要,尤其是在需要捕捉大范围上下文性的假设,即相同的特征可能出现在图像信息的任务中的任何位置池化层作用池化层有多重作用首先,它通过降采样减小特征图尺寸,降低计算复杂度;其次,它提供了一定程度的平移不变性,使模型对输入的微小位移更加鲁棒;此外,池化层还有轻微的正则化效果,通过降低特征的精确空平均池化间位置的重要性,减少过拟合风险平均池化计算每个池化窗口内像素的平均值与最大池化相比,平均池化保留了更多背景最大池化近年来,一些研究表明池化层可以被步幅卷信息,但可能会模糊显著特征在某些任务积替代,或在某些架构中完全省略,但在大中,如全局特征提取,平均池化表现更好最大池化是最常用的池化方式,它保留每个多数设计中,池化层仍然是重要组件CNN特别是在网络末端,全局平均池化常GAP池化窗口内的最大值例如,在的最大2×2用于替代全连接层,减少参数数量池化中,将输入分成的不重叠区域,并2×2对每个区域取最大值作为输出最大池化有效保留了显著特征,如边缘和角点,丢弃了不重要的细节经典架构CNN1LeNet-51998由Yann LeCun设计,是最早的成功CNN架构之一包含两个卷积层和三个全连接层,用于手写数字识别LeNet-5首次展示了卷积网络在视觉任务上的潜力,奠定了CNN的基础结构虽然结构简单,但包含了CNN的核心元素卷积层、池化层和全连接层2AlexNet2012由Krizhevsky等人提出,在2012年ImageNet竞赛中取得突破性胜利,标志着深度学习革命的开始AlexNet包含5个卷积层和3个全连接层,引入了ReLU激活函数、Dropout正则化和数据增强等关键技术它比LeNet更深、更宽,首次证明了深度CNN在大规模视觉任务上的强大能力3VGGNet2014由牛津大学VGG组提出,以简洁统一的架构著称VGG使用小尺寸卷积核3×3和深层结构16-19层,证明了网络深度对性能的重要性其简洁设计和出色性能使其成为特征提取的流行基础网络虽然参数量大,但VGG的架构思想影响了后续众多网络设计现代架构CNNResNet InceptionDenseNet残差网络通过引入残差连接解决了网络的创新在于密集连接网络将每层与其之前的ResNet InceptionGoogLeNet DenseNet深度网络的退化问题残差块的核心思想是学Inception模块,它并行使用不同尺寸的卷积所有层相连,实现了特征的最大化重用在习残差映射,而不是直接学习核、、和池化操作,捕捉不同尺中,每一层不仅接收上一层的输出,Fx=Hx-x1×13×35×5DenseNet目标映射Hx这种设计使信息和梯度能够直度的特征通过1×1卷积减少计算量,还直接接收所有前面层的特征图这种密集连接流过多层网络,有效训练超深网络50-152Inception实现了高效且宽深的网络接促进了特征传播和重用,减轻了梯度消失问层甚至更深极大推动了深度学习的系列经历了多次迭代改进,题,并大幅减少了参数数量在图ResNet Inceptionv1-v4DenseNet发展,其残差连接思想已成为现代网络设计的展示了更宽而非仅更深的网络设计思路像分类等任务上取得了卓越性能,同时具有更标准元素高的参数效率第五章循环神经网络序列数据处理循环神经网络专为处理序列数据而设计,能捕捉数据中的时间依RNN赖关系本章将介绍的基本原理、结构变体和训练方法,重点讲RNN解如何应用解决自然语言处理、时间序列预测等序列相关任务RNN传统局限RNN标准虽然设计用于处理序列数据,但在实践中面临梯度消失爆炸RNN/等问题,难以学习长期依赖关系我们将分析这些问题的原因,并介绍、等改进结构如何有效解决这些问题LSTM GRU先进架构RNN现代架构如和通过引入门控机制,能够有选择地记忆RNN LSTMGRU和遗忘信息,显著提高了处理长序列的能力我们将详细讲解这些先进结构的设计原理、数学表达和实际应用,并探讨双向等更复杂的RNN变体基本结构RNN循环连接时间展开循环神经网络的核心特征是具有循环连RNN通常通过时间展开的方式理解和接,即神经元不仅接收当前输入,还接实现,即将循环结构展开为多个时间步收上一时刻的隐藏状态这种循环连接的前馈网络每个时间步使用相同的权使RNN形成了记忆,能够保留之前输重矩阵,但处理不同时刻的输入和隐藏入的信息基本RNN单元的数学表达为状态时间展开后,可以应用类似于标h_t=tanhW_hh·h_{t-1}+准神经网络的前向传播和反向传播算法W_xh·x_t+b_h,其中h_t是当前隐进行训练,称为沿时间反向传播藏状态,h_{t-1}是上一时刻隐藏状态,BPTTx_t是当前输入状态传递RNN通过状态传递机制在不同时间步之间传递信息隐藏状态h_t包含了当前输入和所有历史输入的信息,理想情况下能够捕捉序列的长期依赖关系然而,由于梯度消失问题,基本RNN在实践中往往只能有效记忆短期依赖,难以捕捉长距离关系,这也是后续改进模型如LSTM和GRU的主要动机长短期记忆网络()LSTM结构门控机制优势LSTM由Hochreiter和Schmidhuber遗忘门决定丢弃多少上一状态的信息,输LSTM的主要优势在于能有效处理长期依于1997年提出,专门设计用于解决传统入门决定更新多少新信息到细胞状态,输赖问题它可以学习保留长距离上下文信RNN的长期依赖问题LSTM单元包含三出门控制基于当前细胞状态输出多少信息息,忽略不相关信息,从而在语言建模、个门控机制(输入门、遗忘门和输出门)每个门都是一个包含sigmoid激活函数的机器翻译、语音识别等任务中表现出色和一个记忆单元(细胞状态)这些组件全连接层,输出0到1之间的值,乘以相应协同工作,控制信息的流动、存储和输出的信息流进行控制与传统相比,不易受梯度消失RNN LSTM问题影响,训练更稳定,能处理更长序列LSTM的核心在于细胞状态C_t,它像一LSTM的数学表达较为复杂,涉及多个参它成为各种序列建模任务的标准解决方案,条高速公路,信息可以几乎不变地流过多数矩阵和向量运算,但核心思想是通过门随后的GRU是对LSTM的简化变体个时间步,减轻了梯度消失问题控机制控制信息流动门控循环单元()GRU结构与的比较12LSTM门控循环单元GRU由Cho等人于2014年提GRU与LSTM的主要区别在于GRU有两个出,是LSTM的简化变体GRU只有两个门门而不是三个;GRU没有单独的细胞状态;更新门和重置门,没有单独的细胞状态更GRU的参数更少,计算更快在许多任务中,新门控制之前隐藏状态的保留程度,类似于GRU的性能与LSTM相当,有时甚至更好,LSTM的遗忘门和输入门的组合;重置门决定特别是在数据集较小或计算资源有限的情况过去状态对当前候选状态的影响程度下选择GRU还是LSTM通常取决于具体任务和GRU的隐藏状态直接作为输出,数学表达比数据集GRU计算效率更高,而LSTM可能LSTM简单h_t=1-z_t⊙h_{t-1}+在处理非常长的序列时有优势在实践中,z_t⊙\tilde{h}_t,其中z_t是更新门,两者都应该尝试\tilde{h}_t是候选状态应用场景3GRU适用于各种序列建模任务,如语言建模、机器翻译、情感分析等由于其计算效率高,特别适合资源受限或实时应用场景在某些短到中等长度序列的任务中,GRU可能是首选;而对于非常长或复杂的序列关系,可能需要LSTM的额外表达能力GRU也常用于混合架构中,如与CNN结合处理视频序列,或与注意力机制结合增强性能双向RNN双向RNNBidirectional RNN通过同时处理序列的正向和反向信息,捕捉更全面的上下文它包含两个独立的RNN层一个按正常顺序处理序列(前向RNN),另一个按相反顺序处理序列(后向RNN)在每个时间步,最终输出通常是两个RNN输出的组合(如拼接或求和)双向RNN特别适用于需要考虑完整上下文的任务,如序列标注(词性标注、命名实体识别)、文本分类和机器翻译等例如,在判断一个词的词性时,后面的词提供的信息可能与前面的词同样重要双向LSTMBiLSTM是实践中最常用的双向RNN变体,它结合了LSTM处理长期依赖的能力和双向处理的全面性,在多种NLP任务中取得了优异成绩第六章注意力机制与Transformer201710x变革之年训练效率Transformer模型在2017年发表,彻底改变了自然语言处理领域与RNN相比,Transformer支持并行计算,训练速度提高约10倍175B95%参数规模准确率突破基于Transformer的GPT-3拥有1750亿参数,展示了模型扩展潜力Transformer基础上发展的模型在多项NLP任务中准确率超过95%本章将介绍注意力机制和Transformer架构,这是近年来自然语言处理领域最重要的技术突破我们将从基本的注意力机制概念出发,详细讲解Self-Attention的工作原理,然后深入探讨Transformer的编码器-解码器结构及其创新点Transformer通过完全抛弃RNN和CNN结构,仅使用注意力机制和前馈网络,实现了序列处理的突破它解决了RNN的顺序计算瓶颈,支持大规模并行训练,为BERT、GPT等强大的预训练模型奠定了基础,开创了NLP的预训练时代注意力机制概念类型注意力机制受人类视觉注意力启发,允许模型在基本注意力类型包括加性注意力Additive处理信息时关注最相关的部分在早期应用中,Attention,使用前馈网络计算注意力分数;注意力主要用于序列到序列模型(如机器翻译),点积注意力Dot-Product Attention,使用帮助模型在生成每个输出时,动态关注输入序列点积计算相似度,计算效率更高;缩放点积注意的不同部分,而不是仅依赖固定的上下文向量力Scaled Dot-Product Attention,在点积基础上添加缩放因子,稳定梯度注意力的核心思想是计算查询query与键key之间的相似度,然后基于这些相似度对值此外,根据使用场景,注意力还可分为编码器value进行加权求和,生成注意力输出-解码器注意力、自注意力Self-Attention、多头注意力Multi-Head Attention等优势注意力机制的主要优势包括能够处理变长输入,无需固定长度的表示;提供输入与输出的软对齐,便于解释模型行为;允许直接建立长距离依赖,缓解RNN中的信息衰减问题;支持并行计算,提高训练效率注意力还为模型提供了一定程度的可解释性,通过注意力权重可以直观看到模型在做决策时关注的输入部分Self-Attention原理自注意力Self-Attention是注意力机制的一种特殊形式,它允许序列内的每个位置关注同一序列中的所有位置,从而捕捉序列内部的关系在自注意力中,查询Q、键K和值V都来自同一序列,分别通过不同的线性变换矩阵投影得到与RNN不同,自注意力直接建立序列中任意两个位置之间的联系,不受距离限制,能更有效地捕捉长距离依赖计算过程自注意力的计算分为四个步骤1线性投影通过权重矩阵WQ、WK、WV将输入X转换为查询Q、键K和值V;2相似度计算计算Q与K的点积,并除以缩放因子√d_k;3Softmax归一化对相似度应用Softmax函数,获得注意力权重;4加权求和用注意力权重对V进行加权求和,得到输出数学表达为AttentionQ,K,V=softmaxQK^T/√d_kV多头注意力多头注意力Multi-Head Attention通过并行运行多个不同的自注意力头,丰富了模型的表示能力每个头有自己独立的参数,关注输入的不同方面多头注意力的计算过程是1将输入分别投影为h组不同的Q、K、V;2对每组独立应用自注意力;3拼接所有头的输出;4通过线性层进行最终投影多头注意力允许模型同时关注不同位置和不同表示子空间,显著提高了表现力,是Transformer的核心组件架构Transformer编码器解码器结构位置编码前馈网络-Transformer采用编码器-解码器架构,两部分都由由于自注意力本身不包含位置信息,Transformer使每个编码器和解码器层都包含一个前馈神经网络多层堆叠组成编码器将输入序列映射为连续表示,用位置编码Positional Encoding注入序列中标记FFN,它独立应用于每个位置FFN由两个线性变解码器基于这些表示和之前生成的输出预测下一个标的位置信息标准Transformer采用正弦和余弦函数换组成,中间有ReLU激活函数FFNx=max0,记标准Transformer包含6层编码器和6层解码器的固定模式PEpos,2i=xW_1+b_1W_2+b_2第一个线性层通常扩展维度sinpos/10000^2i/d_model,PEpos,2i+1=通常扩大4倍,第二个线性层恢复原始维度cospos/10000^2i/d_model每个编码器层包含两个子层多头自注意力和前馈网络;每个解码器层包含三个子层掩码多头自注意力、这种编码方式使模型能够感知标记顺序,同时具有固FFN引入非线性和参数共享,增强了模型的表示能力编码器-解码器注意力和前馈网络每个子层都使用残定频率模式,使模型能潜在地外推到训练中未见过的由于它独立应用于每个位置,保持了Transformer的差连接和层归一化序列长度并行计算优势与BERT GPT预训练模型微调应用和的强大之处在于其预训练微调在各种理解任务中表现卓越,如情BERTBidirectional EncoderBERT GPT-BERT NLPRepresentationsfrom Transformers范式它们首先在大规模无标签文本上进行感分析、问答系统、命名实体识别等它的和GPTGenerative Pre-trained预训练,学习通用语言表示;然后在特定任变体如RoBERTa、ALBERT、DeBERTa等Transformer是两种基于Transformer的务上进行微调,适应下游应用进一步提升了性能预训练语言模型,代表了两种不同的预训练微调过程添加特定任务的输出层,并使用有GPT系列GPT-
2、GPT-
3、GPT-4则在文范式标签数据进行训练由于预训练已学习了丰本生成、对话系统、内容创作等方面展示了BERT基于Transformer的编码器,使用掩富的语言知识,微调通常只需少量标注数据惊人能力GPT-3凭借1750亿参数,展示了码语言模型MLM和下一句预测NSP任务和训练步骤大规模语言模型的涌现能力进行双向预训练它能同时利用左右上下文的微调方式多样,如分类、匹配、序列这些预训练模型已成为现代的基础设施,BERT NLP信息,适合理解类任务标注等;GPT主要通过提示prompt进行微推动了自然语言处理技术的广泛应用GPT基于Transformer的解码器,使用自回调或零样本/少样本学习归语言模型进行单向从左到右预训练它擅长生成连贯的文本,适合生成类任务第七章生成对抗网络生成对抗网络是一类创新的深度学习架构,由等人于年提出,引发了生成模型研究的革命本章将系统介GAN IanGoodfellow2014绍的基本原理、训练方法、主要变体及其应用领域GAN与传统生成模型不同,采用博弈论思想,通过生成器和判别器的对抗训练,不断提升生成数据的质量已成功应用于图像生成、GAN GAN图像转换、超分辨率、艺术创作等多个领域,生成的内容在逼真度和多样性方面取得了前所未有的成就尽管存在训练不稳定等挑战,仍是当前最活跃的研究方向之一GAN基本原理GAN生成器判别器对抗训练生成器Generator的目标是创建逼真的假数据以欺骗判别器Discriminator的目标是区分真实数据和生成GAN的核心是生成器和判别器之间的对抗训练过程这判别器它接收随机噪声(通常是从高斯分布采样的向器创建的假数据它接收数据样本(可能来自真实数据两个网络形成一个零和博弈生成器试图最大化判别器量)作为输入,通过深度神经网络将其转换为目标域中集或生成器),输出该样本来自真实数据的概率判别犯错的概率,而判别器则试图最小化错误率理论上,的数据样本(如图像)生成器不直接接触真实数据,器本质上是一个二分类器,通过监督学习训练,以真实当达到纳什均衡时,生成器将生成与真实数据分布一致而是通过判别器的反馈来学习数据分布数据为正例,生成数据为负例的样本,判别器将无法区分真假,始终输出
0.5从数学角度看,生成器定义了一个从噪声空间Z到数据空判别器定义了一个映射D:X→[0,1],估计样本来自真实间X的映射G:Z→X,旨在捕捉真实数据分布Pdatax数据而非生成数据的概率这种对抗训练机制使GAN能够生成高度逼真的样本,是其区别于其他生成模型的关键特征的训练过程GAN目标函数梯度更新收敛问题标准的训练目标是在判别器和生成器训练通常采用交替更新策略首先固定的训练普遍存在不稳定和收敛困难的问GAN D GAN GAN之间求解一个极小极大博弈生成器,更新判别器若干步;然后固定判题常见问题包括模式崩溃G minimaxG Dmode别器,更新生成器这个过程使用梯度下,即生成器只产生有限几种样本;game min_G max_D VD,G=DGcollapseE_{x~pdatax}[log Dx]+降(或其变体如Adam优化器)进行参数更判别器过强导致生成器梯度消失;振荡不收E_{z~pzz}[log1-DGz]新敛等这个目标函数的第一部分鼓励判别器正确识判别器的更新方向是增大VD,G,通过增加针对这些问题,研究者提出了多种改进方法别真实样本,第二部分鼓励判别器正确识别对真实样本的识别率和降低对生成样本的误改进损失函数(如WGAN采用Wasserstein生成样本,而生成器则希望最小化整个目标判率;生成器的更新方向是减小VD,G,通距离);正则化技术(如梯度惩罚);架构函数过生成更能欺骗判别器的样本改进(如渐进式增长);训练技巧(如批次归一化、谱归一化)等在实践中,由于在早期训练log1-DGz阶段梯度较小,生成器通常使用一个等效的训练过程中平衡两个网络的更新至关重要,尽管如此,GAN的训练仍然是一门艺术,目标函数max_G E_{z~pzz}[log否则可能导致一方完全主导,破坏对抗平衡需要经验和耐心来调整参数和超参数DGz]的变体GAN1DCGAN2015深度卷积GANDCGAN引入了卷积结构,是第一个稳定训练的GAN架构之一它使用了转置卷积、批归一化和LeakyReLU激活函数,摈弃了全连接层,建立了GAN架构设计的基本准则DCGAN极大提高了生成图像的质量和训练稳定性,成为后续多种GAN的基础2WGAN2017Wasserstein GANWGAN通过使用Wasserstein距离(也称Earth Movers距离)代替JS散度作为分布度量,解决了原始GAN训练不稳定和模式崩溃问题WGAN移除了判别器中的sigmoid激活,判别器(此时称为评论家)输出实数而非概率,并对权重进行裁剪以满足Lipschitz约束其变体WGAN-GP使用梯度惩罚替代权重裁剪,进一步提高了性能3CycleGAN2017CycleGAN解决了无配对数据的图像到图像转换问题它使用两个生成器和两个判别器,引入了循环一致性损失cycle consistencyloss,确保转换保持原始图像的内容CycleGAN能够在没有直接配对样本的情况下学习域间转换,如照片转绘画风格、季节变换、动物种类转换等,展示了GAN在创意应用方面的巨大潜力4StyleGAN2019StyleGAN通过引入自适应实例归一化AdaIN和渐进式增长策略,实现了对生成图像风格的精细控制它将潜在空间映射到样式空间,并在不同分辨率级别注入噪声,能够生成极具真实感的高质量图像,尤其是人脸StyleGAN系列StyleGAN
2、StyleGAN3持续改进,是当前最先进的图像生成模型之一的应用GAN图像生成风格迁移超分辨率GAN最初和最成功的应用是高质量图像GAN在风格迁移领域表现出色,能将一GAN在图像超分辨率SISR任务中取得生成从简单的手写数字到高清人脸、风种风格的特征应用到另一种内容上例如,了突破性进展SRGAN等模型能够将低景和艺术图像,GAN展示了惊人的生成CycleGAN和Pix2Pix等模型可以将照片分辨率图像重建为高分辨率版本,恢复细能力现代GAN如StyleGAN和转换为莫奈或梵高风格的绘画、将素描转节和纹理,提升视觉质量与传统方法相BigGAN能够生成分辨率高达为逼真照片、改变季节效果(如夏天转冬比,GAN生成的高分辨率图像更加逼真1024×1024的逼真图像,甚至专业人士天)等这些技术广泛应用于艺术创作、自然,避免了过度平滑的问题这一技术也难以区分真假此外,条件GAN允许设计和娱乐产业,为创意工作者提供了强广泛应用于视频流媒体增强、老照片修复、控制生成内容的特定属性,如人物性别、大工具医学影像处理等领域年龄或情绪数据增强与补全GAN能够生成多样化的合成数据,用于训练其他机器学习模型,特别是在数据稀缺或获取成本高的领域例如,在医学影像分析中,GAN可以生成罕见病例的合成样本;在自动驾驶中,可以生成各种极端场景的模拟数据GAN还能用于图像修复inpainting,填补图像中的缺失部分,或在视频中移除不需要的物体第八章强化学习基础决策制定环境感知根据策略选择下一步动作2智能体观察环境状态1执行动作与环境交互改变状态35策略优化获取反馈调整行为最大化长期收益4接收奖励并更新认知强化学习是机器学习的一个重要分支,研究智能体如何在环境中采取行动以最大化累积奖励与监督学习和无监督学习不同,强化学习通过试错与环境交互来学习最优策略,不依赖于预先标注的数据本章将介绍强化学习的基本框架和核心概念,包括马尔可夫决策过程、值函数、策略、Q学习等我们还将探讨深度强化学习,特别是深度Q网络DQN,它结合了深度学习和强化学习的优势,在复杂任务中取得了突破性成果通过本章学习,学生将理解强化学习的基本原理和算法,为应用强化学习解决实际问题奠定基础强化学习框架智能体环境奖励智能体是强化学习系统的决策者环境是智能体存在和交奖励是环境对智能体动作的反Agent EnvironmentReward和学习者它通过感知环境的状态,根据互的外部系统它接收智能体的动作,并馈信号,是一个标量值,指示动作的即时当前策略选择并执行动作,然后接收反馈返回新的状态和奖励环境可以是确定性好坏奖励信号是强化学习的核心,定(奖励和新状态),并据此更新自己的知的(相同状态和动作总是导致相同结果)义了问题的目标智能体的目标是最大化识和策略智能体的目标是通过学习找到或随机性的(结果有一定概率分布)环累积奖励(通常是折扣累积奖励)一个最优策略,使长期累积奖励最大化境可以是完全可观察的(智能体能看到所有状态信息)或部分可观察的奖励函数的设计至关重要,它必须准确反智能体通常包含三个核心组件策略映我们希望智能体实现的目标不恰当的policy,决定在给定状态下选择什么动在强化学习研究中,环境通常被建模为马奖励函数可能导致意外行为,这就是所谓作;值函数,评估状态尔可夫决策过程,这提供了一个数的奖励黑客问题value functionMDPreward hacking或动作的价值;模型model,对环境的学框架来描述智能体-环境交互的动态过在实践中,奖励可能很稀疏(如游戏中只内部表示(某些方法不需要模型)程有获胜或失败时才有奖励),这给学习带来挑战马尔可夫决策过程状态动作12状态State表示环境在特定时刻的配置或情动作Action是智能体可以执行的操作动况状态空间S是所有可能状态的集合,可以作空间A是所有可能动作的集合,同样可以是是离散的或连续的在完全可观察环境中,状离散的(如有限选择)或连续的(如控制系统态包含智能体做出最优决策所需的所有信息中的力或速度)在每个状态s,可能只有部马尔可夫性质要求给定当前状态,未来状态分动作As是可行的智能体的策略π定义了与过去状态无关,即当前状态捕捉了预测未来在给定状态下选择动作的规则,可以是确定性所需的所有历史信息的πs=a或随机性的πa|s=Pa|s在一些复杂问题中,状态可能是高维的,如在游戏中可能包括屏幕像素或游戏内部变量状动作的选择涉及探索与利用的权衡探索新动态表示的选择对算法性能有重大影响作可能发现更好的策略,而利用已知好动作可以获得可靠奖励转移概率3转移概率Ps|s,a描述了在状态s下执行动作a后,环境转移到状态s的概率这些概率定义了环境的动态特性在确定性环境中,Ps|s,a要么是1(确定转移到s)要么是0;在随机环境中,可能有多个可能的下一状态,每个都有一定概率转移概率与奖励函数Rs,a,s一起,完全定义了一个MDP的特性在实际应用中,这些概率和奖励通常是未知的,智能体需要通过交互来学习或估计它们Q-learning价值函数贝尔曼方程Q-learning的核心是学习动作-值函数Qs,a,贝尔曼方程是强化学习的基本方程,描述了值函它表示在状态s下选择动作a,然后遵循最优策略数的递归关系对于Q函数,贝尔曼最优方程为的期望累积奖励状态值函数Vs表示从状态s Q*s,a=Rs,a+γ·max_a Q*s,a,其中开始,遵循特定策略的期望累积奖励两者关系Rs,a是即时奖励,γ是折扣因子0≤γ≤1,s是为Vs=max_a Qs,a,最优策略是在每个执行动作a后的下一状态状态选择Q值最高的动作π*s=argmax_aQ-learning算法基于贝尔曼方程进行迭代更新Qs,aQs,a←Qs,a+α·[R+γ·max_a Qs,aQ函数捕捉了动作的长期价值,而不仅是即时-Qs,a],其中α是学习率这一更新规则不需奖励,这使智能体能够进行前瞻性决策要知道环境模型,是无模型model-free的探索与利用Q-learning面临的一个关键挑战是探索与利用的平衡纯粹的贪婪策略(总是选择当前Q值最高的动作)可能陷入次优解;而过度探索(随机选择动作)则浪费了已学到的知识常用的平衡方法包括ε-贪婪策略,以ε概率随机探索,以1-ε概率选择最优动作;Softmax策略,按Q值的相对大小分配选择概率;UCBUpper ConfidenceBound,考虑动作的不确定性一般而言,训练初期倾向于探索,随着学习进展逐渐增加利用比例深度网络()Q DQN结构经验回放目标网络深度Q网络DQN将深度神经网络与Q-learning结合,经验回放Experience Replay是DQN的关键创新目标网络Target Network是DQN的另一个关键创用神经网络近似Q函数典型DQN包含卷积层(处理之一它将智能体的经验状态、动作、奖励、下一状新,用于解决Q-learning中的不稳定性DQN维护图像状态输入)和全连接层,输出每个可能动作的Q值态存储在回放缓冲区中,训练时随机采样批次进行学两个网络主网络(用于选择动作和更新)和目标网与传统表格式Q-learning不同,DQN能够处理高维习这种机制打破了样本间的时序相关性,提高了学络(用于计算目标Q值)目标网络参数定期从主网络状态空间(如游戏屏幕像素)和泛化到未见过的状态习效率和稳定性,并允许多次利用稀有但重要的经验复制,而不是每步更新,这减少了目标的变动,稳定了训练过程DQN的训练目标是最小化预测Q值与目标Q值(使用优先级经验回放Prioritized ExperienceReplay双重DQNDouble DQN进一步改进了这一机制,使贝尔曼方程计算)之间的均方误差这一过程本质上是一种改进,根据样本的TD误差大小分配采样概率,用主网络选择动作,目标网络评估该动作的Q值,减轻是监督学习,使用的是通过智能体与环境交互收集的使学习更关注意外或困难的经验,进一步提高效了Q值高估问题其他DQN变体还包括Dueling经验率DQN(分离状态值和优势函数)和Rainbow(结合多种改进)第九章深度学习在计算机视觉中的应用高级视觉任务视频分析、3D重建、多模态融合1实例识别与追踪2人脸识别、物体追踪、姿态估计场景理解与分割3语义分割、目标检测、场景分类基础图像分类4特征提取、模式识别、图像分类计算机视觉是深度学习最成功的应用领域之一,深度学习模型已在各种视觉任务中超越了传统方法的性能本章将全面介绍深度学习在计算机视觉中的主要应用,包括图像分类、目标检测、语义分割和人脸识别等核心任务我们将分析这些任务的特点和挑战,探讨解决这些任务的经典和前沿深度学习架构,并讨论评估模型性能的指标和方法通过本章学习,学生将了解如何将深度学习技术应用于实际视觉任务,掌握不同视觉任务的特点和解决方案,为进一步探索和创新奠定基础图像分类数据集评估指标常用模型图像分类是计算机视觉的基础任务,深度评估分类模型性能的常用指标包括准确深度学习图像分类模型已经历多代演进学习研究中常用的数据集包括率,正确分类样本占总样本比早期模型如和奠定了MNIST AccuracyLeNet AlexNet(手写数字,类,万张图像),是入例;精确率和召回率在图像分类中的地位;中期模型如107Precision CNN门级数据集;(自然图像,,针对二分类问题的精细指标;和探索了网络深度CIFAR-10/100Recall VGGNetGoogLeNet类,万张小图像),适合算法原分数,精确率和召回率的调和平均;混和宽度的影响;通过残差连接解10/1006F1ResNet型开发;ImageNet(自然图像,1000淆矩阵,展示各类别间的错误分布;Top-决了深层网络训练问题;后续的类,超过万张高分辨率图像),是大准确率,预测的前个类别中包含正确类、等进一步优化100k kDenseNet EfficientNet规模视觉识别的标准基准别的比例,适用于多类别问题了网络结构和计算效率此外还有专门领域的数据集,如医学图像对于不平衡数据集,还需考虑类别加权的近年来,Vision TransformerViT将分类的(皮肤病变)和指标或曲线下面积等不同应用场架构引入计算机视觉,挑战ISIC CheXpertAUCTransformer(胸部X光片)等好的数据集应具备规景可能强调不同的评估指标了CNN的主导地位混合模型如模大、多样性、标注准确等特点ConvNeXt结合了CNN和Transformer的优势迁移学习和预训练模型的应用大大提高了分类性能和训练效率目标检测一阶段检测器二阶段检测器性能比较一阶段检测器如YOLOYou OnlyLook Once和二阶段检测器如R-CNN系列R-CNN,Fast R-CNN,在性能评估上,目标检测常用的指标是mAPmeanSSDSingle ShotDetector直接预测边界框和类别,Faster R-CNN首先生成候选区域Region AveragePrecision,通常在不同不经过显式的候选区域提取步骤这类方法将目标检测Proposals,然后对这些区域进行分类和边界框回归IoUIntersection overUnion阈值下计算视为回归问题,在单一网络通过一次前向传播完成所有这种方法通常比一阶段检测器精度更高,但速度较慢COCO数据集的标准评估使用多个IoU阈值预测,因此速度快,适合实时应用
0.5:
0.05:
0.95的平均mAP此外,FPSFramesPer Second是衡量检测速度的重要指标YOLO将图像分割为网格,每个网格单元预测固定数量Faster R-CNN引入了区域提议网络RPN,与检测的边界框和类别概率随着YOLO系列的发展网络共享特征提取层,显著提高了效率Mask R-一般而言,二阶段检测器在精度上有优势,mAP更高;YOLOv2-v7,检测精度不断提高,同时保持了高效CNN在Faster R-CNN基础上增加了实例分割分支,一阶段检测器在速度上有优势,FPS更高近年来两类率SSD使用多尺度特征图和不同比例的默认框,提同时输出边界框和像素级掩码二阶段检测器适合对精方法的差距在缩小,如YOLOv4/v5达到了很高的精度,高了对不同尺寸物体的检测能力度要求高的应用,如医学图像分析和精细物体识别而Cascade R-CNN等改进型二阶段检测器也提高了速度选择模型时需根据应用场景在精度和速度间做权衡语义分割语义分割是计算机视觉中的高级任务,目标是将图像中的每个像素分配到一个语义类别,实现像素级的场景理解与图像分类相比,语义分割需要更精细的空间信息;与目标检测相比,它关注像素级而非实例级别的识别,不区分同类别的不同物体实例深度学习在语义分割中的主要技术路线包括全卷积网络FCN,首次提出端到端像素预测的CNN架构;U-Net,采用编码器-解码器结构,通过跳跃连接保留空间细节,特别适合医学图像;DeepLab系列,利用空洞卷积dilated/atrous convolution扩大感受野并保持分辨率,结合CRF后处理提高边界准确性;PSPNet和DeepLabv3+等,引入金字塔池化和多尺度特征融合,提高对不同尺度物体的分割能力人脸识别度量学习度量学习是人脸识别的核心,目标是学习一个特征空间,使同一人的不同图像特征接近,不同人的特征远离典型方法包括基于Softmax的分类训练,后提取倒数第二层特征;TripletLoss,同时优化锚点-正例对和锚点-负例对的距离;ArcFace特征提取和CosFace等基于角度/余弦的损失函数,在超球面上优化特征人脸识别的第一步是从人脸图像提取判别性特征早期方法使2分布用手工特征如SIFT和LBP,现代系统几乎都采用深度CNN提这些方法的共同目标是增大类间距离,减小类内方差,提高特取特征典型的网络结构包括基础CNN主干如ResNet,后征的判别能力接特殊的损失函数如Triplet Loss、Center Loss训练预处理步骤如人脸检测、对齐和归一化对性能至关重要1应用场景人脸识别技术已广泛应用于多个领域安全领域,如门禁系统、深度特征捕捉了人脸的高级抽象表示,通常是128-512维的向监控摄像头身份识别;金融服务,如刷脸支付、账户验证;智量,包含足够信息用于精确识别,同时保持适当泛化能力3能设备解锁;公共场所人群分析;照片管理软件的人物标注等随着技术发展,人脸识别还结合了活体检测、年龄/性别估计、表情识别等功能尽管人脸识别技术非常成熟,但仍面临隐私保护、算法偏见等伦理和法律挑战,这些问题需要技术和政策层面的共同关注第十章深度学习在自然语言处理中的应用多模态学习预训练语言模型结合文本与其他模态如图像、音频、视序列建模预训练语言模型代表了NLP的最新范式频的多模态学习是当前NLP的前沿方向文本表示语言本质上是序列数据,有效建模序列这些模型如BERT、GPT、XLNet首CLIP等模型能够理解图像和文本的联合自然语言处理的基础是将文本转换为计信息是NLP的核心RNN及其变体先在大规模无标注文本上预训练,学习表示,VQA系统可以回答关于图像的问算机可处理的数值表示从早期的词袋LSTM/GRU曾是序列建模的标准方法,通用语言知识;然后在特定任务上微调,题,多模态大语言模型能够处理和生成模型和TF-IDF,到现代的分布式词表能够捕捉文本中的上下文和长期依赖适应下游应用这种预训练-微调范多种形式的内容这一方向拓展了NLP示和上下文嵌入,文本表示方法不断演而Transformer架构通过自注意力机制式极大降低了对标注数据的需求,提高的边界,向更接近人类理解的通用智能进词嵌入如Word2Vec和GloVe捕捉实现了序列的并行处理,解决了RNN的了各种NLP任务的性能,推动了自然语迈进了词汇的语义关系,而BERT等模型的计算瓶颈,并在各种NLP任务中取得了言处理的快速发展上下文嵌入则考虑了词在特定上下文中突破性成果的含义词嵌入1Word2Vec2013Word2Vec由Google的Mikolov等人提出,是最具影响力的词嵌入方法之一它基于分布式假设,即相似上下文中出现的词有相似含义Word2Vec有两种训练模型CBOW连续词袋,预测给定上下文中间的词;Skip-gram,给定一个词预测其上下文Word2Vec学习的嵌入捕捉了丰富的语义关系,如king-man+woman≈queen,并在各种NLP任务中显著提升了性能它将词表示为低维稠密向量通常300维,相比独热编码更有效率且信息更丰富2GloVe2014GloVeGlobal Vectors由Stanford团队提出,结合了全局矩阵分解和局部上下文窗口方法的优点它通过共现矩阵建模词与词之间的统计关系,优化目标函数使词向量的点积近似于词的共现概率的对数与Word2Vec相比,GloVe更有效地利用了全局统计信息,训练也更快在许多评估基准上,GloVe的性能与Word2Vec相当或更好GloVe预训练向量广泛用于各种NLP任务,尤其在训练数据有限的情况下3FastText2016FastText由Facebook AI研究院开发,是Word2Vec的扩展,它考虑了词的内部结构,将每个词表示为字符n-gram的集合例如,apple可能被表示为ap、app、ppl、ple、le等n-gram的组合这种子词级别的表示使FastText能够处理词表外OOV的词,并更好地表示形态丰富的语言如芬兰语、土耳其语FastText在拼写错误和罕见词的处理上也更鲁棒,同时保持了在标准评估上的竞争性能它特别适合词汇量大且形态复杂的语言处理任务文本分类预训练模型微调CNN for NLP RNNforNLP卷积神经网络虽然最初设计用于图像处理,循环神经网络是处理序列数据的自然选择,预训练语言模型的兴起彻底改变了文本分类但也被成功应用于文本分类在NLP中,在文本分类中广泛应用典型架构是将词嵌领域BERT等模型在大规模语料上预训练后,CNN通常应用于词嵌入矩阵,其中每行表示入序列输入LSTM或GRU层,然后使用最后只需添加一个分类头并在特定任务上微调,一个词向量1D卷积核在这个矩阵上滑动,时刻的隐藏状态或通过注意力机制加权所有就能达到或超过专门设计的分类模型的性能捕捉n-gram特征,然后通过池化层提取最状态作为文本表示,最后通过全连接层分类这种方法的优势在于预训练捕捉了丰富的显著特征,最后通过全连接层进行分类语言知识;通用架构适用于多种任务;微调只需少量标注数据在文本分类中的优势包括能够捕捉局能够捕捉长距离依赖和上下文信息,这CNN RNN部语义模式;参数共享降低复杂度;并行计对许多文本分类任务至关重要双向微调方法包括在[CLS]标记上加全连接层;算高效Kim2014的词嵌入+CNN模型RNNBiLSTM通过同时考虑前向和后向上池化所有标记表示;添加特定任务层如注意在多个文本分类基准上取得了当时最先进的下文,进一步提升了性能RNN在情感分析、力层RoBERTa、ALBERT、DeBERTa结果CNN特别适合于短文本分类、情感分意图识别、文档分类等任务中表现优异,尤等BERT变种以及XLNet、ELECTRA等不同析和主题识别等任务其是当序列顺序重要且文本较长时预训练模型,进一步提升了文本分类性能在大多数现代系统中,预训练模型微调NLP已成为文本分类的首选方法机器翻译模型注意力机制Seq2Seq序列到序列Sequence-to-Sequence,Seq2Seq注意力机制解决了传统Seq2Seq的信息瓶颈问题在模型是神经机器翻译NMT的基础架构它由编码器翻译过程中,解码器在生成每个目标词时,不仅使用和解码器组成编码器处理源语言句子,将其转换为上下文向量,还能关注源句子的不同部分这允许固定长度的上下文向量;解码器基于这个上下文向量模型动态关注相关源词,特别有助于处理长句子生成目标语言翻译早期的Seq2Seq模型使用LSTM/GRU作为编码器和Bahdanau等人2015提出的加性注意力和Luong解码器例如,谷歌在2016年采用的等人2015提出的乘性注意力是早期常用的注意力机GNMTGoogle NeuralMachine Translation使制这些机制计算源句子中每个位置的权重,然后对用多层双向LSTM编码器和单向LSTM解码器,显著编码器状态进行加权求和,生成上下文向量注意力提高了翻译质量然而,这种架构存在两个主要问题机制不仅提高了翻译质量,还提供了词对齐可视化,信息瓶颈所有信息都压缩在一个固定向量中和长序增强了模型可解释性列处理困难应用TransformerTransformer架构Vaswani等,2017彻底改变了机器翻译领域它完全基于注意力机制,抛弃了RNN结构,实现了更高的并行度和更好的长距离依赖建模在WMT翻译比赛中,Transformer迅速成为最佳系统的标准架构现代NMT系统如谷歌翻译、DeepL等都采用了Transformer架构Transformer的变体和扩展也被广泛研究,如更深的编码器/解码器、更有效的注意力计算、更好的位置编码等大规模预训练的多语言模型如mBART和mT5进一步推动了机器翻译性能,特别是在低资源语言对上问答系统抽取式生成式知识图谱集成QA QA抽取式问答系统从给定文档中提取文本片段作为答案生成式问答系统直接生成答案文本,而不局限于从源知识图谱增强的问答系统结合了结构化知识和自然语这类系统通常采用两步骤方法首先确定包含答案的文档中抽取片段这些系统通常基于Seq2Seq或言处理技术这类系统将问题转换为知识图谱查询文档或段落(检索阶段),然后从中精确定位答案片Transformer解码器架构,能够处理需要综合、推(如SPARQL),或利用图谱实体和关系增强文本段(阅读理解阶段)SQuAD数据集是抽取式QA理和重新表述的复杂问题生成式QA特别适合解释表示知识图谱提供了额外的事实基础和推理能力,的标准基准性问答、定义解释和多文档总结类问题特别有助于回答关于实体关系的问题现代抽取式QA系统多基于BERT等预训练模型,通近年来,GPT-3/4等大语言模型展示了强大的零样WebQuestions和KGQA等数据集专注于基于知识过添加起始/结束位置预测头进行微调这些系统学本和少样本问答能力,能够利用预训练阶段获取的广图谱的问答先进系统通常采用混合方法,结合知识习识别问题和上下文的关系,定位最可能包含答案的泛知识回答开放性问题这些模型结合检索增强生成图谱推理和神经网络,如通过图神经网络对知识图谱文本跨度在开放域QA中,还需要结合高效检索系RAG技术,可以提供既准确又具有及时性的答案进行编码,或使用Transformer模型联合处理文本统如BM25或密集检索器和图谱信息多模态QA多模态问答系统能处理基于图像、视频或音频的问题视觉问答VQA是典型例子,系统需要理解图像内容并回答相关问题这类系统通常使用双流架构,分别编码视觉和文本信息,然后通过多模态融合机制结合两种表示近期研究如CLIP和DALL-E展示了视觉-语言预训练的强大能力,推动了多模态QA的发展这一领域面临的挑战包括跨模态对齐、视觉常识推理和多步骤理解,是当前AI研究的活跃前沿第十一章深度学习模型部署与优化从研究到实用实际应用要求12深度学习模型从研究环境到生产部署在实际应用中,深度学习模型不仅需面临诸多挑战本章将讨论模型压缩、要高精度,还需满足速度、内存使用、硬件加速、分布式训练等关键技术,能耗和成本等多方面约束移动设备帮助学生理解如何将理论模型转化为对模型大小和计算效率有严格要求;高效可用的实际系统我们将分析性云服务需要高吞吐量和可扩展性;边能与资源消耗的权衡,以及针对不同缘设备则需要在有限资源下高效运行部署环境的优化策略了解这些需求对设计适合特定场景的解决方案至关重要优化技术进展3近年来,模型优化领域取得了显著进展,从早期的简单剪枝和量化,到现在的知识蒸馏、神经架构搜索NAS和硬件感知优化这些技术让我们能够在保持模型性能的同时,显著减少计算和存储需求,使深度学习在更广泛的场景中变得可行模型压缩剪枝剪枝技术通过移除神经网络中不重要的连接或神经元,减少模型大小和计算量基于权重大小的剪枝移除绝对值小的权重;基于激活的剪枝移除输出接近零的神经元;基于重要性的剪枝使用特定指标(如信息量或梯度)评估每个元素的重要性结构化剪枝移除整个滤波器或通道,便于硬件加速,但通常精度损失较大;非结构化剪枝保留更多精度,但需要特殊硬件支持稀疏计算量化量化将模型参数和计算从高精度浮点数(如FP32)转换为低精度表示(如INT
8、INT4或二值网络)量化感知训练QAT在训练期间模拟量化效果,然后进行微调,通常比训练后量化PTQ精度更高极低位1-2位量化如二值神经网络BNN和三值神经网络TNN能实现极致压缩,但精度损失较大研究表明,许多网络在8位整数量化后几乎不损失精度,而存储需求和计算量可减少75%知识蒸馏知识蒸馏由Hinton等人提出,通过教师-学生框架将大型复杂模型教师的知识转移到小型简单模型学生中蒸馏过程中,学生模型不仅学习硬标签ground truth,还学习教师模型的软输出软标签,获取类别间的相似性关系温度参数T控制软标签的平滑度,通常较高的T能更好地传递知识蒸馏还可应用于中间层特征特征蒸馏,或使用集成模型作为教师集成蒸馏,进一步提升效果硬件加速加速边缘计算设备GPU TPU图形处理单元GPU是深度学习最主流的加速硬件,张量处理单元TPU是谷歌设计的AI专用集成电路边缘计算设备将AI推理能力带到数据源附近,减少延其大规模并行架构非常适合矩阵运算现代AI专用ASIC,针对TensorFlow操作高度优化TPU采用迟、带宽使用和隐私风险移动SoC如骁龙、麒麟系GPU如NVIDIA A100和H100具有数千个CUDA核脉动阵列架构,拥有矩阵乘法单元MXU和向量处理列集成了NPU/AI加速器;专用边缘AI芯片如Intel心和专门的Tensor Core,能高效执行混合精度计算单元VPU,在某些工作负载上性能超过同代GPU,Movidius、Google EdgeTPU和NVIDIA JetsonGPU加速库如cuDNN和cuBLAS优化了常见深度学能耗比更高TPU从第一代的8位INT到最新的针对低功耗场景优化;FPGA提供可重编程硬件加速能习操作,各大框架TensorFlow,PyTorch都提供Tensor ASIC架构,性能提升了30+倍力,平衡性能和灵活性GPU支持TPU支持多芯片互连TPU Pod,专为大规模分布式移动优化框架如TensorFlow Lite、ONNXGPU内存带宽和容量是主要瓶颈,模型并行和梯度累训练设计谷歌云TPU服务广泛用于研究和生产环境,Runtime和PyTorch Mobile简化了边缘部署流程,积等技术可缓解这些限制GPU集群训练大型模型已特别是大型Transformer模型训练TPU的主要限制支持量化和特定硬件优化边缘AI应用从智能手机成为标准配置,单个H100GPU在某些工作负载上可是编程灵活性低于GPU,主要支持TensorFlow/JAX AR/VR、智能家居设备、自动驾驶到工业物联网不断达50-100倍CPU速度扩展,成为AI落地的重要阵地分布式训练数据并行模型并行参数服务器数据并行是最常用的分布式训练方法,将训练模型并行将神经网络模型分割到多个设备上,参数服务器架构将全局模型参数存储在专用服数据分割到多个计算节点,每个节点拥有完整每个设备仅计算模型的一部分这种方法主要务器集群中,而工作节点负责计算梯度工作模型副本每个节点使用不同数据批次计算梯用于特大模型(如GPT-3)无法装入单个设节点从参数服务器拉取最新参数,计算梯度后度,然后通过集合通信如AllReduce聚合备内存的情况模型可以水平切分(不同层分推送回服务器进行更新这种架构的优势在于梯度并更新模型这种方法实现简单,适用于配到不同设备)或垂直切分(同一层的不同部灵活性和可扩展性,支持异步更新和容错,特大多数深度学习模型,扩展性良好分分配到不同设备)别适合大规模工业应用数据并行的主要挑战是通信开销,特别是在大模型并行的主要挑战是设备间频繁的激活值传现代参数服务器系统如BytePS和DLRM针对型集群中为减轻这一问题,开发了多种优化输和严格的计算依赖性,导致设备利用率较低深度学习工作负载进行了优化为提高性能,技术梯度压缩和稀疏化减少传输数据量;梯流水线并行Pipeline Parallelism通过微采用了多种技术服务器分片减轻热点问题;度累积减少通信频率;重叠通信与计算提高效批次micro-batch调度和计算-通信重叠,本地缓存减少通信;带宽感知调度优化通信模率;环形和树形AllReduce等拓扑优化算法提高了设备利用率张量并行Tensor式;弹性一致性模型平衡一致性和效率虽然改进通信模式同步保证训练等价性但将单个操作(如矩阵乘法)分在某些场景中被方法取代,参数SGD ParallelismAllReduce有较高同步开销,而异步SGD减少等待时间割到多个设备,减少通信开销Megatron-服务器在超大规模推荐系统和稀疏模型训练中但可能影响收敛性LM等框架结合不同并行策略,实现了数千亿仍具优势参数模型的高效训练深度学习框架TensorFlow PyTorchMXNetTensorFlow是由Google开发的开源深度学习框架,PyTorch由Facebook MetaAI研究团队开发,MXNet是一个轻量级、灵活的深度学习框架,由以静态计算图设计起家,近年转向即时执行模式以动态计算图和Python优先的设计理念迅速获得研Apache基金会支持,亚马逊AWS采用为首选框架Eager Execution增强灵活性TensorFlow生态究社区青睐其核心特性包括命令式编程风格、易于它结合了命令式和符号式编程模型,支持混合前端系统全面,包括TensorFlow ExtendedTFX用于调试、灵活的自定义扩展和原生支持动态网络结构,Gluon,既保留动态网络的灵活性,又能享受静态图生产级ML流水线;TensorFlow Lite用于移动和嵌非常适合快速原型开发和研究探索近年PyTorch推的优化优势MXNet的独特优势在于优异的多GPU入式设备;TensorFlow.js支持浏览器端运行;出了TorchScript、JIT编译和C++前端等功能,增和分布式训练扩展性,以及对多种编程语言的原生支TensorFlow Serving简化模型部署强了生产部署能力持TensorFlow的优势在于生产部署支持、跨平台兼容PyTorch的优势在于直观的Python集成、强大的调MXNet提供了丰富的预训练模型库Gluon Model性和完善的可视化工具TensorBoard它在企业试能力和活跃的研究社区它已成为学术研究和竞赛Zoo和高级API,简化了模型开发虽然使用者基级应用和移动部署方面尤为强大,同时通过Keras高的主导框架,几乎所有最新研究都提供PyTorch实现数小于TensorFlow和PyTorch,但在金融服务、云级API提供简洁的开发体验缺点是API变化较频繁,生态系统包括torchvision、torchaudio和计算等特定行业有坚实用户群其轻量设计使其在资学习曲线相对陡峭torchtext等领域库,以及Detectron
2、fairseq源受限环境中表现出色,如移动和嵌入式设备等研究工具包随着PyTorch Mobile和TorchServe的发展,其在产业应用中的份额也在增长总结与展望新兴应用领域医疗诊断、创意内容生成、自动驾驶1技术发展方向2自监督学习、多模态模型、模型缩放与高效推理核心研究挑战3可靠性、可解释性、隐私保护、节能环保基础理论框架4数学原理、神经网络架构、训练优化方法本课程系统介绍了深度学习的核心原理和关键技术,从神经网络基础到CNN、RNN、Transformer等先进架构,再到各种应用领域和工程实践深度学习已成为人工智能的核心驱动力,持续推动计算机视觉、自然语言处理等领域取得突破性进展展望未来,深度学习仍面临诸多挑战,包括提高模型效率、减少数据依赖、增强可解释性和可靠性自监督学习、神经架构搜索、多模态学习等方向正在迅速发展作为学习者,建议掌握扎实的数学基础、深入理解经典论文、动手实践项目,并保持对前沿进展的关注深度学习领域机遇与挑战并存,我们期待您在这一激动人心的领域中做出自己的贡献。
个人认证
优秀文档
获得点赞 0