还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习课件笔记深度学习是人工智能领域的核心技术,已成为推动人工智能革命的关键力量本课程笔记从基础概念到高级应用,全面梳理了深度学习的理论体系和实践经验,适合计算机专业人士与人工智能爱好者系统学习通过本课程,你将逐步掌握深度学习的数学基础、各类神经网络架构、优化算法以及前沿应用,建立完整的知识框架,为实际工作和研究打下坚实基础课程目标掌握深度学习基础理论建立坚实的数学基础,理解神经网络的工作原理和基本组成部分,掌握训练与优化的核心概念理解各类神经网络架构与应用学习卷积神经网络、循环神经网络、生成对抗网络等不同架构,理解它们的特点和适用场景学习业界前沿技术与实践经验了解最新的研究进展和工业应用,掌握实用的训练技巧和部署方法,提高实践能力提供全面的深度学习知识体系构建从基础到前沿的完整知识体系,帮助学习者形成系统性认识,为进一步研究和应用奠定基础深度学习概述人工智能研究使机器模拟人类智能的科学机器学习让计算机从数据中学习的方法深度学习基于深层神经网络的机器学习方法深度学习作为机器学习的一个分支,经历了从理论到实践的漫长发展历程年,在竞赛中的突破性表现,标志着深度2012AlexNet ImageNet学习时代的正式开启此后,深度学习技术迅速发展,在计算机视觉、自然语言处理、语音识别等多个领域取得了革命性进展如今,深度学习已广泛应用于医疗诊断、自动驾驶、金融分析、智能制造等众多行业,推动着人工智能技术的快速落地与产业变革随着算法、数据和算力的持续进步,深度学习技术仍在不断突破边界,创造新的可能性神经网络基础知识生物神经元到人工神经元人工神经网络的历史演变前馈神经网络结构人工神经元模拟了生物神经元的基本结人工神经网络的概念最早可追溯到前馈神经网络是最基本的神经网络类型,构和功能生物神经元通过树突接收信年,和提出了第信息只向前传播,没有循环网络由输1943McCulloch Pitts号,由细胞体处理,然后通过轴突传递一个数学模型之后经历了感知机模型、入层、隐藏层和输出层组成,每层包含给其他神经元类似地,人工神经元接反向传播算法的提出、神经网络第一次多个神经元,不同层的神经元通过权重收多个输入,进行加权求和和非线性变低谷和复兴等阶段,最终发展成为今天连接,形成了能够学习复杂函数映射的换,然后输出结果深度学习的基础计算模型前馈神经网络详解输入层接收原始数据特征隐藏层处理数据,提取抽象特征输出层产生最终预测结果前馈神经网络是一种基础神经网络结构,其中数据流只向前传播,不存在循环或反馈连接其核心是全连接层,在全连接层中,当前层的每个神经元都与下一层的所有神经元相连,形成密集的连接结构这种连接通过权重矩阵来表示,每个连接都有一个可学习的权重参数在神经网络中,参数与超参数有明显区别参数是网络通过训练学习到的数值,如权重和偏置;而超参数是人为设定的控制网络结构和训练过程的参数,如学习率、批量大小、隐藏层数量等合理选择超参数对网络性能至关重要,通常需要通过实验进行调优激活函数函数Sigmoid函数将输入映射到区间,曾广泛应用于早期神经网络然而,其存在严重的梯度消失问题,当输入值较大或较小时,梯度接近于零,导致训练困难此外,Sigmoid0,1的输出不是零中心化的,会导致梯度更新的方向不一致Sigmoid函数Tanh函数可视为的改进版,输出范围为,是零中心化的这使得每层的输入均值接近零,有利于梯度的传播但仍然存在梯度饱和问题,在输入绝对Tanh Sigmoid-1,1Tanh值较大时梯度也会接近零函数ReLU修正线性单元是深度学习革命的重要推动者,定义为计算简单,不存在梯度饱和问题,并具有生物神经元的稀疏激活特性然而,它存在死ReLUfx=max0,x ReLU亡问题,即神经元可能永久性失活ReLU常见激活函数比较激活函数优点缺点适用场景平滑可导,输出梯度消失,输出二分类问题的输Sigmoid有明确概率解释非零中心化出层零中心化,梯度仍存在梯度饱和中的门控机Tanh RNN比大问题制Sigmoid计算高效,缓解神经元死亡问题深层的隐藏ReLU CNN梯度消失层解决神经元死亡负半轴斜率需手需避免神经元死Leaky ReLU问题动设置亡的场景负值平滑过渡,计算复杂度增加需要强抗噪能力ELU抗噪性好的网络近年来,激活函数的研究仍在不断深入,出现了、等新型激活函数,试图在各Swish Mish种性能指标上取得平衡选择合适的激活函数对模型性能有显著影响,应根据具体任务特点和网络结构进行选择损失函数均方误差交叉熵损失MSE回归问题的标准损失函数,计算预测值与真分类问题的首选损失函数,衡量两个概率分实值差的平方和布的差异Hinge Loss自定义损失函数支持向量机使用的损失函数,促进最大间隔根据特定任务需求设计的专用损失函数分类损失函数是深度学习优化的核心,它定义了模型预测值与真实值之间的差距均方误差适用于回归问题,其数学表达为所有样本预测值与真MSE实值差的平方和的平均值交叉熵损失则是分类问题的标准选择,能更有效地处理概率分布之间的差异设计自定义损失函数时,需要考虑可微性、凸性和与任务目标的一致性良好的损失函数应当能够精确反映业务需求,同时保持数学上的良好性质,便于优化在实际应用中,也常见将多个损失函数组合使用,以平衡不同的优化目标反向传播算法前向传播计算网络各层的输出,直到最终预测结果计算损失使用损失函数评估预测结果与目标之间的差距反向传播误差利用链式法则计算每个参数对损失的贡献参数更新根据梯度和学习率调整网络参数反向传播算法是训练深度神经网络的基础,它通过链式法则高效计算每个参数对损失函数的梯度在前向传播阶段,网络接收输入并逐层计算,直到产生最终输出;然后计算预测值与真实值之间的损失在反向传播阶段,算法首先计算损失函数对输出层的梯度,然后逐层向后传递误差信号,计算每一层参数的梯度这个过程利用了链式法则,使得复杂的梯度计算可以分解为简单步骤的组合最后,根据计算得到的梯度和预设的学习率,更新网络中的权重和偏置参数,使网络向着减小损失的方向演化优化算法随机梯度下降SGD最基本的优化算法,每次使用小批量数据估计梯度简单直接,但收敛速度较慢,且容SGD易陷入局部最小值在实践中,通常需要精心调整学习率以获得良好效果动量法Momentum在基础上增加动量项,考虑历史梯度信息像是给优化过程增加了惯性,SGD Momentum可以加速收敛并帮助跳出局部最小值特别适合处理高曲率、小但一致的梯度场景RMSprop自适应学习率方法,根据参数历史梯度平方的移动平均值调整学习率可以为不RMSprop同参数自动设置不同的学习率,对梯度较大的参数使用较小的学习率,反之亦然Adam结合了和的优点,同时利用梯度的一阶矩估计和二阶矩估计Momentum RMSprop具有计算效率高、参数解释直观、适用范围广等优点,是当前最流行的优化算法之一Adam神经网络训练技巧权重初始化Batch Normalization合理的权重初始化对训练至关重要,通过标准化每层的输入分布,减少内部协变Xavier和初始化是两种常用方法,分别适用于使量偏移可以加速训练、提高泛化能力,He BN用和的网络正确的并允许使用更大的学习率,是现代深度网络Sigmoid/Tanh ReLU初始化可以防止梯度消失和爆炸的标准组件早停法正则化Dropout监控验证集性能,在过拟合开始前停止训练训练时随机关闭一部分神经元,防止网络对早停法是一种简单而有效的正则化方法,避特定神经元过度依赖是一种有效Dropout免了模型在训练集上过度拟合的问题的正则化技术,可以显著减少过拟合,相当于训练了多个不同网络的集成深度学习数据处理数据清洗处理缺失值、异常值和重复数据,确保数据质量数据清洗是模型训练的第一步,直接影响后续所有环节的效果数据预处理进行归一化、标准化和特征编码,使数据适合模型输入不同的预处理方法适用于不同类型的数据和模型数据增强通过变换生成新样本,扩充训练集常见的数据增强技术包括旋转、缩放、裁剪、颜色变换等处理不平衡数据采用重采样、生成合成样本或调整损失权重等策略不平衡数据集处理对分类任务尤为重要高质量的数据处理流程对深度学习模型的性能至关重要在实际应用中,数据往往占据了工作的80%以上,而模型设计和训练只占通过系统化的数据处理步骤,可以显著提升模型的学习效率和泛20%化能力卷积神经网络基础卷积操作的数学原理感受野与特征提取的基本组成部分CNN卷积是一种特殊的线性操作,通过感受野指神经元能够看到的输入卷积神经网络主要由卷积层、池化滑动窗口将输入与卷积核进行点积区域范围随着网络深度增加,感层和全连接层组成卷积层负责特运算卷积操作可以有效捕捉局部受野逐渐扩大,使深层网络能够捕征提取,池化层降低维度并提供局空间模式,是图像处理的基础操作捉更全局的特征理解感受野对设部不变性,全连接层整合特征完成计有效的网络架构至关重要最终任务卷积层详解卷积类型标准卷积深度可分离卷积分组卷积最基本的卷积操作,卷积核同时作用于输将标准卷积分解为深度卷积和点卷积两步将输入通道分成多个组,每组独立进行卷入的所有通道标准卷积提供了强大的特深度卷积在每个输入通道上独立应用卷积,积操作分组卷积可以减少参数量和计算征提取能力,但计算量较大,是的基然后用点卷积×卷积合并通道信息复杂度,同时增加模型的表达能力它首CNN11础构建块在每个位置,卷积核与输入的这种分解大大减少了计算量和参数数量,次在中使用,后来成为AlexNet ResNeXt局部区域进行点积运算,生成输出特征图同时保持了良好的表现力,是轻量级网络等高效网络的核心技术极端情况下,每的一个像素值的关键组件组只有一个通道,就变成了深度卷积高级卷积技术空洞卷积可变形卷积在卷积核中插入空洞,扩大感受野而不增加参数空洞卷积(也称为扩张卷积允许卷积核形状动态调整,适应输入内容可变形卷积突破了标准卷积的网格或卷积)通过在卷积核元素之间插入零,增加了感受野,同时保持参数采样限制,通过学习额外的偏移量,使卷积操作能够根据输入内容动态调整感Atrous量不变这使得网络能够捕获更大范围的上下文信息,对语义分割等任务特别受野的形状这使网络具有更强的几何变换适应能力,特别适合处理形状多变有效的目标卷积将二维卷积扩展到三维空间,卷积核在宽度、高度和深度三个维度上滑动这种卷积特别适合处理视频数据或医学体积图像,能够捕捉时空特征或三维结构3D特征然而,卷积的计算成本显著高于卷积,对硬件要求也更高3D2D池化层最大池化平均池化全局池化取窗口内最大值,保留最计算窗口内均值,综合考对整个特征图进行池化,显著特征最大池化强调虑所有特征平均池化对生成固定长度表示全局最突出的特征,对纹理和所有特征一视同仁,能更池化将整个特征图池化为边缘等高频信息敏感,在好地保留背景信息,对噪单个值,常用于网络最后实践中应用最广泛声有一定平滑作用阶段,可以替代全连接层减少参数量无池化设计现代架构通过步长卷积替代池化,保留更多信息近年研究表明,池化可能丢失重要信息,一些网络如通过步长卷积All-CNN实现降采样池化层在中扮演着降低维度、提取主要特征和增强位置不变性的重要角色池化操作通过在局部区域内执CNN行特定的聚合函数(如最大值或平均值),减少特征图的空间尺寸,同时保留重要信息这不仅降低了计算复杂度,还帮助网络对输入的微小位移具有一定的鲁棒性经典架构CNN LeNet卷积层1个×卷积核,提取基本特征655池化层1×平均池化,降低分辨率22卷积层2个×卷积核,提取复合特征1655池化层2×平均池化,进一步降维22全连接层神经元,完成分类120→84→10由在年提出,是第一个成功应用于实际问题的卷积神经网络它最初设计用于手写数字识别,成为邮政编码识别系统的核心技术尽管今天看来结构简单,LeNet-5Yann LeCun1998但包含了现代的基本要素卷积层、池化层和全连接层的组合LeNet CNN的历史意义不可低估,它证明了卷积神经网络在视觉任务上的潜力,为后来的深度学习革命奠定了基础然而,由于当时计算资源和数据集的限制,在参数量和网络深度上LeNet LeNet相对较小,难以处理复杂的视觉任务,这也是它的主要局限性经典架构CNN AlexNet8网络层数个卷积层和个全连接层5360M参数数量远超的复杂度LeNet
16.4%错误率Top-5竞赛大幅领先ImageNet15x性能提升相比传统方法提升显著由、和在年提出,是深度学习革命的标志性工作它在竞赛中以超过的AlexNet AlexKrizhevsky IlyaSutskever GeoffreyHinton2012ImageNet10%优势击败传统计算机视觉方法,证明了深度学习的强大潜力的成功归功于几个关键创新使用激活函数代替传统的,极大地加速了AlexNet ReLUSigmoid训练过程;引入技术有效缓解了过拟合问题;采用数据增强方法扩充训练集,提高了模型泛化能力Dropout还首次使用加速训练,使深层网络的训练变得可行网络采用了两路并行结构设计,主要是为了当时的硬件限制尽管按今天的标准看AlexNet GPU结构相对简单,但它的出现彻底改变了计算机视觉领域的研究方向,掀起了深度学习热潮AlexNet经典架构CNN VGGNet特点一简洁统一的设计全部使用×卷积核和×池化3322特点二更深的网络结构包含层,包含层VGG1616VGG1919特点三小卷积核堆叠设计用多个×卷积替代大卷积核33由牛津大学在年提出,以其简洁优雅的设计理念著称网络最大的贡献是证明了网络深度对性能的关键影VGGNet VisualGeometry Group2014VGG响,同时推广了使用小卷积核堆叠代替大卷积核的设计思想这种设计既减少了参数量,又增加了非线性变换,提高了模型的表达能力网络结构清晰,易于理解和实现,按照通道数量逐渐增加、空间尺寸逐渐减小的原则设计然而,的参数量巨大(约),计算成本高,VGG VGG138M存储需求大,这是其主要缺点尽管如此,由于其简洁的结构和强大的特征提取能力,至今仍被广泛用作特征提取的骨干网络,特别是在风格迁移、VGG图像生成等任务中经典架构CNN GoogLeNet模块×卷积降维Inception11并行使用不同尺寸的卷积核,捕在×和×卷积前使用×335511捉多尺度特征模块卷积减少通道数,显著降低计算Inception是的核心创新,通量这种瓶颈设计是计算效率GoogLeNet过并行路径处理同一输入,能够的关键,使得在有限计算资源下同时提取不同尺度的特征模式,构建更深的网络成为可能大大增强了网络的表达能力辅助分类器在中间层添加辅助损失,缓解梯度消失并提供正则化辅助分类器在训练时发挥作用,向深层传递额外的梯度信号,帮助训练更深的网络(也称为)由团队在年提出,获得了GoogLeNet Inceptionv1Google2014图像分类竞赛冠军相比,在保持高精度的同时ILSVRC2014VGG GoogLeNet大幅减少了参数量(约)和计算量,体现了高效网络设计的思想7M系列演进InceptionInceptionV1首创模块和×卷积降维Inception11InceptionV2/V3引入和卷积分解技术Batch NormalizationInceptionV4更统一的架构设计,性能进一步提升Inception-ResNet结合残差连接,兼具两种架构优点系列的演进展示了深度学习网络设计的精细化过程和引入了Inception InceptionV2V3Batch技术,极大地稳定了训练过程;同时采用了卷积分解策略,将×卷积替换为连续的×和Normalization nn1n×卷积,在保持感受野的同时减少参数量进一步统一和优化了网络架构,提高了性能和可n1InceptionV4伸缩性将残差连接的思想引入结构,创造了一种混合架构,兼具的多尺度特Inception-ResNet InceptionInception征提取能力和的优化特性这种结合使得极深网络的训练变得更加稳定,同时保持了计算效率ResNet系列的发展体现了深度学习网络设计的核心思路在精度、速度和模型大小之间寻找最佳平衡点Inception深度残差网络ResNet变体ResNet的成功引发了一系列创新变体的出现,每种变体都对原始架构进行了特定改进引入了分组卷积和基数概念,通过并行的同构路径增强模型的表ResNet ResNeXt达能力,同时保持参数量不变基数()被证明是比宽度和深度更有效的维度,能够在相同参数量下带来更好的性能cardinality提出了更激进的连接方式密集连接,每一层都与之前所有层直接相连这种设计强化了特征重用,减轻了梯度消失问题,显著减少了参数量DenseNet——则将注意力机制与残差学习结合,通过分割注意力()模块处理不同特征组,增强了模型对多尺度特征的建模能力这些变体展示了残差ResNeSt Split-Attention学习框架的强大适应性,以及在此基础上持续创新的可能性轻量级网络MobileNet深度可分离卷积原理改进MobileNetV2的核心创新是广泛使用深度可分离卷积,将标准卷积分解引入了倒置残差结构(),MobileNet MobileNetV2Inverted ResidualBlock为深度卷积()和逐点卷积()两步深度卷这种设计先扩展通道维度,再进行深度可分离卷积,最后压缩回窄通Depthwise Pointwise积对每个输入通道独立应用单一卷积核,逐点卷积则使用×卷积道与传统残差块相反,它在窄通道之间建立捷径连接,而在宽通道11整合通道信息这种分解显著减少了计算复杂度和参数量,使网络适中进行非线性变换此外,还在某些激活函数之前移除了非线性V2合在资源受限设备上运行层,防止低维特征信息丢失这些改进使在保持高效MobileNetV2的同时,显著提升了性能轻量级网络ShuffleNet通道随机重组机制的最大创新是引入通道随机重组()操作在分ShuffleNet ChannelShuffle组卷积中,信息只在组内流动,限制了特征的融合通道重组打破了这一限制,通过将通道混洗,使来自不同组的信息能够交流,大大增强了模型的表达能力,同时不增加计算成本分组卷积优化深度利用分组卷积减少计算量与标准卷积相比,组的分组ShuffleNet g卷积可将计算复杂度降低约倍将分组卷积与通道重组结合,g ShuffleNet在保持跨组信息交流的同时,充分利用分组卷积的计算效率设计原则ShuffleNetV2基于直接优化计算速度而非理论复杂度的原则设计它ShuffleNetV2提出了四个实用设计准则保持通道数平衡、减少分组卷积、减少网络碎片化、减少元素级操作这些原则使在实际硬件上运ShuffleNetV2行更快,更好地适应移动设备注意力机制通道注意力空间注意力模块SE学习不同特征通道的重要性权重,关注特征图的空间位置,突出关键压缩空间维度,通过全连接层学习强调关键特征通道通道注意力机区域空间注意力生成空间权重图,通道间依赖模块(SE Squeeze-制如模块,通过自适应地调整特强调特征图中的重要区域,忽略无)通过全局平均池SE and-Excitation征通道的权重,使网络能够专注于关区域,有助于模型聚焦于目标对化压缩空间信息,然后通过简单的最相关的特征通道,显著提升性能象全连接网络学习通道权重,是一种轻量而有效的注意力机制模块CBAM结合通道和空间注意力,顺序应用两种机制(卷积块注意力CBAM模块)将通道注意力和空间注意力串联使用,综合两种注意力的优势,进一步提升性能注意力机制受人类视觉系统启发,允许模型自适应地关注输入的重要部分在视觉任务中,注意力机制帮助网络模拟人类的选择性注意能力,突出关键信息,抑制无关信息,从而提高特征表示的质量和模型性能注意力模块通常可以无缝集成到现有架构中,带来显著的精度提升,几乎不增加计算负担高级视觉网络EfficientNet提出了复合缩放方法,同时平衡调整网络的宽度、深度和分辨率三个维度,找到最优缩放系EfficientNet数这种方法打破了传统单一维度缩放的局限,使模型在相同计算预算下获得最佳性能系EfficientNet列从到,在参数量大幅减少的情况下,超越了许多大型模型的性能B0B7NFNet归一化自由网络()摆脱了对批量归一化()的Normalization-Free NetworkBatch Normalization依赖,使用自适应梯度裁剪等技术实现稳定训练解决了在大批量训练中的限制,允许使用更NFNet BN大的学习率和更激进的数据增强,在上达到了先进性能ImageNetConvNeXt通过现代化改进纯卷积网络,使其达到与竞争的性能采用了更大ConvNeXt TransformerConvNeXt的卷积核、更简化的网络架构、更严格的层规范化等设计,证明了卷积网络在适当现代化后仍然具有强大的竞争力Vision TransformerViT将自然语言处理中的架构直接应用于图像处理它将图像分割成固定大小的块,将这些ViT Transformer块作为序列处理,完全依赖自注意力机制而非卷积在大规模预训练数据条件下表现优异,开启了视ViT觉的新时代Transformer循环神经网络基础序列数据处理挑战传统前馈网络难以处理变长序列数据,无法捕捉时序依赖关系自然语言、语音、时间序列等数据本质上是序列性的,处理这类数据需要特殊的网络架构基本原理RNN循环神经网络引入隐藏状态,将前一时刻的信息传递到当前时刻的核心是一个循环单元,它在处理序列时重复使用相同的权重,大大减少了参数量RNN展开的循环神经网络理解的一种方式是将其展开成等价的前馈网络展开后的在每个时间步使用相同的权重矩阵,相当于极深的权重共享网络RNN RNN梯度问题在长序列训练中面临梯度消失和爆炸问题由于重复乘以相同的权重矩阵,梯度会指数级增长或衰减,导致难以捕捉长期依赖关系RNN高级架构RNN长短期记忆网络门控循环单元LSTM GRU是解决传统梯度问题的经典架构,引入了三种门控机制输入门、遗忘门和输出门核心创是的简化版本,只有重置门和更新门两种门控机制将的细胞状态和隐藏状态LSTM RNNGRU LSTMGRU LSTM新是细胞状态(),一条贯穿整个序列的信息高速公路,允许信息几乎不变地流动这种设合并,减少了参数量和计算复杂度尽管结构更简单,在许多任务上的表现与相当,特别是cell stateGRU LSTM计使能够学习长期依赖关系,有效缓解了梯度消失问题在数据量有限的情况下,有时甚至表现更好LSTM双向从两个方向处理序列,同时考虑过去和未来的信息这种设计特别适合需要上下文信息的任务,如语音识别和自然语言理解深度则通过堆叠多个循环层,增强模型的表达能力为了解决深度RNN RNNRNN训练困难的问题,研究者引入了层间残差连接,允许信息和梯度在层之间直接传递序列到序列模型编码器上下文向量1处理输入序列,将其压缩为上下文向量编码输入序列的语义信息注意力机制解码器允许解码器动态关注输入的不同部分3基于上下文向量生成输出序列序列到序列()模型是处理序列转换任务的强大框架,广泛应用于机器翻译、文本摘要、语音识别等领域其核心是编码器解码器架构编码器将输入序Seq2Seq-列压缩为固定长度的上下文向量,解码器则基于该向量生成输出序列标准模型面临的主要挑战是信息瓶颈问题所有输入信息必须压缩到固定维度的向量中注意力机制通过允许解码器直接访问编码器的所有隐藏状态,Seq2Seq——解决了这一问题在生成每个输出时,注意力机制计算编码器各状态的权重,使解码器能够动态地关注输入的相关部分是一种常用的解码策略,Beam Search通过在每步保留多个最可能的候选序列,提高了生成结果的质量自然语言处理基础架构Transformer自注意力机制的核心创新是自注意力机制,它允许模型直接建模序列中任意位置之间的依赖关系不同于的顺序处理,自注意力计算每个位置与所有位置的关联度,然Transformer RNN后根据这些关联度对值进行加权求和,生成上下文感知的表示这种设计使模型能够并行处理整个序列,极大地提高了训练效率多头注意力多头注意力进一步增强了模型的表示能力,它将输入投影到多个子空间,并行计算多个注意力函数,再将结果合并这允许模型同时关注不同的表示子空间和不同的位置,捕捉更丰富的特征信息例如,一些注意力头可能关注语法结构,而其他头则关注语义关系架构Transformer完整的由编码器和解码器堆叠组成编码器处理输入序列,每层包含自注意力和前馈网络解码器生成输出序列,每层包含自注意力、编码器解码器注意力和Transformer-前馈网络位置编码用于注入位置信息,弥补自注意力机制无法感知序列顺序的缺陷这种设计使成为处理序列转换任务的强大模型Transformer预训练语言模型模型系列BERT GPT((BERT BidirectionalEncoder GPTGenerative Pre-trained)系列采用自回归预训练Representations fromTransformer)是一种双向预训练语方式,通过预测下一个词来学习语言模Transformers言模型,通过掩码语言建模和下一句预型与的掩码方法不同,是BERT GPT测任务进行预训练的主要创新单向的,只考虑左侧上下文系列BERT GPT在于双向上下文表示,使模型能够同时从到不断扩大规模,展GPT-1GPT-4考虑左右上下文信息预训练后,示了大型语言模型的惊人能力,特别是可以通过微调适应各种下游任务在少样本学习和遵循指令方面BERT微调与下游任务预训练微调范式成为的标准方法预训练阶段在海量无标注文本上学习通用语言表-NLP示,微调阶段则根据特定任务调整模型参数这种方法大大降低了对标注数据的需求,显著提高了各种任务的性能,包括文本分类、命名实体识别、问答系统等NLP大型语言模型()的发展已成为领域的主要趋势模型规模从数百万参数增长到数千亿LLM NLP参数,展示了规模即能力的特性大模型不仅性能更强,还表现出了令人惊讶的涌现能力(),能够执行预训练中未明确学习的任务然而,大模型也带来了环境影emergent abilities响、数据隐私和偏见等伦理挑战,这些问题正日益受到研究界的关注生成对抗网络GAN基本原理训练难点与解决方案GAN生成对抗网络()由在年提出,是训练面临诸多挑战,包括训练不稳定、模式崩溃(生成器GAN IanGoodfellow2014GAN一种创新的生成模型框架包含两个相互竞争的神经网络只产生有限种类的样本)和梯度消失等问题为解决这些问题,GAN生成器()试图创建看起来真实的数据;判别器研究者提出了多种改进方法引入新的距离Generator WassersteinGAN()则努力区分真实数据和生成的假数据这种度量;通过规范化判别器权重提高稳Discriminator SpectralNormalization对抗训练机制驱使生成器不断改进,最终能够生成高质量的样本定性;渐进式增长策略从低分辨率开始,逐步增加网络复杂度评估性能是一个复杂问题,因为传统的似然度量不适用常用的评估指标包括()评估生成图像的多样性GAN InceptionScore IS和质量;()测量真实和生成图像分布之间的距离;和分别衡量生成样本的质量和Fréchet InceptionDistance FIDPrecision Recall多样性此外,人工评估仍然是判断生成结果视觉质量的重要手段变体与应用GAN家族在短短几年内迅速扩展,各种变体针对不同应用场景进行了优化()首次将卷积神经网络GAN DCGANDeep ConvolutionalGAN成功应用于,提供了稳定的训练框架和高质量的图像生成能力则突破了传统需要成对数据的限制,通过循环一致GAN CycleGANGAN性损失实现了无监督的图像到图像转换,能够在没有直接对应关系的数据集之间进行风格迁移引入了自适应实例归一化()层和渐进式生长策略,实现了前所未有的高分辨率、高质量图像生成,特别是在人脸生成StyleGAN AdaIN方面取得了惊人的真实感文本到图像生成是近年来的热门研究方向,模型如、能够根据文本描述生成相应的DALL-E StableDiffusion图像,展示了多模态生成的强大潜力的应用已经扩展到医学图像合成、超分辨率重建、视频生成等众多领域GAN自编码器编码器将输入压缩为低维潜在表示潜在空间2数据的紧凑、抽象表示解码器从潜在表示重建原始输入自编码器是一类无监督学习模型,其核心思想是学习输入数据的压缩表示,然后从这个表示重建原始输入自编码器由编码器和解码器两部分组成编码器将输入转换为低维潜在表示(也称为瓶颈层或编码),解码器则尝试从这个编码重建原始输入通过最小化重建误差,自编码器被迫学习数据的最显著特征去噪自编码器()是一种重要变体,它通过给输入添加噪声,然后学习重建无噪声版本,增强了模型的鲁棒性和泛化能力变分自编码器()DAE VAE则将自编码器与概率模型结合,学习潜在空间的概率分布,而不仅是单点表示通过添加散度正则化项,确保潜在变量遵循指定的先验分布(通VAE KL常是标准正态分布),这使得能够生成新样本,成为一种强大的生成模型VAE深度强化学习强化学习基本概念价值函数与策略函数强化学习是通过与环境交互来学习最优策略的机器学习方法在强化学习框架价值函数估计从特定状态开始,遵循当前策略能获得的预期累积奖励它有两中,智能体根据当前状态采取行动,环境返回新状态和奖励信号智能体的目种主要形式状态价值函数只考虑状态,而动作价值函数同时考虑状Vs Qs,a标是学习一个策略,最大化累积奖励强化学习的核心挑战在于探索与利用的态和动作策略函数则直接将状态映射到动作概率分布,指导智能体如何行动平衡,以及奖励稀疏和延迟的问题基于价值的方法和基于策略的方法是强化学习的两大主要范式深度网络策略梯度方法Q DQN将深度学习与学习相结合,使用神经网络近似函数的关键创新策略梯度方法直接优化策略函数,而不依赖价值函数它们计算策略梯度,并DQN QQ DQN包括经验回放(存储和重用过去的经验)和目标网络(稳定训练过程)这些沿着梯度方向更新策略参数代表算法包括、(优势演员REINFORCE A2C-技术使能够从原始像素输入学习,在游戏等复杂环境中取得突破性评论家)和(近端策略优化)这类方法适合连续动作空间和随机策略,DQN AtariPPO成果已在机器人控制、游戏和自然语言处理等领域取得成功计算机视觉应用图像分类识别图像中的主要对象类别目标检测定位并识别图像中的多个对象图像分割3像素级别的图像理解与划分姿态估计识别人体或物体的姿势和位置重建3D从图像恢复结构信息2D3D深度学习在计算机视觉领域催生了众多实用应用图像分类是最基本的任务,现代模型在等数据集上的准确率已经超过人类水平目标检测则更进一步,不仅识别对象类别,还需定位它CNN ImageNet们在图像中的位置主流的目标检测架构分为两类基于区域的方法(如)先提出候选区域再分类;单阶段检测器(如和)则直接预测边界框和类别,追求实时性能Faster R-CNN YOLOSSD图像分割分为语义分割(每个像素分配一个类别)和实例分割(区分同类别的不同对象)代表模型包括、和,广泛应用于医学图像分析、自动驾驶等领域姿态估计和U-Net DeepLabMask R-CNN重建则是更高级的视觉任务,分别关注物体的姿势信息和三维结构,为增强现实、机器人视觉等应用提供基础深度学习的进步使这些复杂任务在实际场景中变得可行3D自然语言处理应用文本分类与情感分析命名实体识别机器翻译与对话系统文本分类是将文本分配到预定义类别的任务,命名实体识别()是识别文本中的命名神经机器翻译()使用编码器解码器NER NMT-包括主题分类、垃圾邮件检测等情感分析是实体(如人名、地点、组织等)并将其分类的架构将文本从一种语言翻译成另一种语言其特例,专注于识别文本中表达的情感极性任务是许多应用的基础组件,在的出现显著提升了翻译质量,NER NLPTransformer(积极、消极或中性)深度学习模型如信息提取、问答系统和知识图谱构建中起着关翻译等系统已达到接近人类的水平Google极大提高了这些任务的准确率,使企业键作用现代系统结合了预训练语言模对话系统则更进一步,不仅需要理解用户输入,BERT NER能够从社交媒体、评论和调查中获取有价值的型和序列标注技术,如条件随机场(),还需生成自然、连贯的回复,构建智能助手和CRF客户情感洞察以达到高精度客服机器人等应用多模态学习图像描述生成自动为图像生成描述性文本这类模型通常结合提取图像特征和生成文本,广CNN RNN/Transformer泛应用于辅助视障人士、内容索引和搜索等场景视觉问答VQA基于图像回答自然语言问题需要同时理解视觉内容和语言查询,然后生成准确答案,是测试综合VQA AI理解能力的基准任务跨模态检索在一种模态中搜索另一种模态的内容例如,使用文本查询找到相关图像,或使用图像查找相关文本,需要将不同模态的内容映射到共享语义空间4音频视觉融合-结合音频和视觉信息进行综合理解应用包括唇语识别、音视频同步、声源定位等,在视频分析和人机交互中发挥重要作用多模态学习旨在利用来自多种感知渠道(如视觉、语言、音频)的信息,构建更全面的理解系统这一领域的核心挑战是如何有效融合不同模态的信息,解决模态间的异构性和对齐问题研究者提出了多种融合策略,如早期融合(在特征提取前组合原始数据)、中期融合(结合中间特征表示)和晚期融合(整合各模态的决策结果)近年来,多模态预训练模型如、和展示了强大的跨模态理解和生成能力,能够处理更复杂的任CLIP DALL-E Flamingo务,如开放域图像理解和文本引导的图像生成这些进展正推动多模态向更通用、更类人的智能方向发展,为创建能AI够全面感知和理解世界的系统铺平道路自监督学习10x数据效率提升相比传统监督学习所需标注数据更少90%预训练任务准确率在某些自监督任务上的高性能表现100M+无标注数据规模可利用的海量无标注数据5%标注数据占比使用少量标注数据即可达到高精度自监督学习是近年来深度学习最重要的发展方向之一,它利用数据本身的结构创建监督信号,无需人工标注这种方法的核心思想是设计预训练任务,模型通过解决这些任务学习有用的特征表示,然后将这些表示迁移到下游任务预训练与微调范式已成为现代深度学习的标准流程,特别是在数据有限的领域对比学习是自监督学习的重要方法,其核心是学习将语义相似的样本映射到相近的特征空间,同时将不同样本推远代表算法包括、和,SimCLR MoCoBYOL它们在计算机视觉任务上取得了接近监督学习的性能掩码自编码器是另一类关键方法,包括视觉领域的(掩码自编码器)和语言领域的,它们MAE BERT通过预测被掩盖的内容来学习有意义的表示自监督学习正快速发展,正在缩小与人类学习方式的差距模型压缩与加速知识蒸馏技术知识蒸馏将大型教师模型的知识转移到小型学生模型中核心思想是学生模型不仅学习真实标签,还学习教师模型的软标签(概率分布),从而继承教师的泛化能力这种方法能在保持相当精度的同时,显著减小模型体积,适合移动设备部署网络剪枝方法网络剪枝通过移除网络中不重要的连接或神经元来减小模型规模剪枝方法包括结构化剪枝(移除整个卷积核或通道)和非结构化剪枝(移除单个权重)有效的剪枝策略可以减少的参数,同时保持原始性能的以上50-90%90%量化技术量化将模型参数从高精度(如位浮点数)转换为低精度表示(如位整数或更低)这不328仅减少了存储需求,还加速了推理计算,特别是在支持低精度运算的硬件上量化感知训练可以进一步减少精度损失,使模型适应量化环境低秩分解低秩分解将大型权重矩阵近似为小型矩阵的乘积,利用权重中的冗余性例如,一个大型卷积层可以分解为深度卷积和逐点卷积的组合,类似的设计理念这种方法特别适MobileNet合压缩全连接层和大型卷积层神经架构搜索NAS自动模型设计搜索策略与效率优化神经架构搜索()旨在自动设计最优神经网络架构,减少人工设计的试错成本系统探索预定义的架构空间,搜索策略决定了如何探索架构空间,主要方法包括强化学习、进化算法和梯度优化强化学习使用控制器网络根据性能NAS NAS寻找在目标任务上性能最佳的架构虽然早期研究需要巨大的计算资源,但近年来的优化使其变得更加高效和实用,反馈生成架构;进化算法通过突变和交叉操作演化架构族群;基于梯度的方法则将离散搜索转化为连续优化问题为提NAS已经能够生成超越人工设计模型的架构高效率,研究者提出了权重共享、代理任务和渐进式搜索等技术,将搜索时间从数千天降至单个天GPU GPU图神经网络图数据表示图卷积网络节点、边和特征构成图结构数据通过邻域聚合更新节点表示2应用场景图注意力网络社交网络、分子结构、推荐系统自适应加权邻居节点的重要性图神经网络()是专门处理图结构数据的深度学习模型,能够捕捉实体间的复杂关系与规则结构数据(如图像、文本)不同,图数据的不规则性使传统深度学习方GNN法难以直接应用通过消息传递机制,使每个节点能够汇聚来自邻居的信息,从而学习包含结构信息的节点表示GNN图卷积网络()是最基础的,通过拉普拉斯矩阵的谱分解定义图上的卷积操作图注意力网络()进一步引入注意力机制,允许节点对不同邻居赋予不同权GCN GNNGAT重,提高了模型的表达能力和可解释性已在多个领域取得成功应用,包括社交网络分析(检测社区结构、预测链接)、生物信息学(药物发现、蛋白质结构预测)、GNN推荐系统(用户物品交互建模)和计算机视觉(场景图分析)等随着研究进展,正朝着处理动态图、大规模图和异构图的方向发展-GNN深度学习可解释性特征可视化特征可视化是理解神经网络内部工作机制的重要工具通过可视化卷积网络的特征图和滤波器,研究者可以直观地看到网络在各层次学习的特征模式浅层通常捕捉边缘和纹理,而深层则识别更复杂的形状和目标部分优化输入图像以最大化特定神经元的激活,也可以生成该神经元所寻找的视觉模式归因方法归因方法解释模型预测与输入特征的关系,回答模型为什么做出这个预测的问题等技术可以生成热力图,突显图像中对决策最重要的区域和等Grad-CAM LIMESHAP模型不可知方法通过局部线性近似或博弈论思想,评估各个特征的贡献度这些方法在医疗诊断等高风险应用中尤为重要,帮助专家验证模型决策的合理性对抗样本分析对抗样本是经过微小修改的输入,能够欺骗深度学习模型做出错误预测研究这些样本不仅有助于理解模型的弱点和决策边界,还能揭示模型依赖的特征与人类认知的差异例如,研究表明可能过度依赖纹理而非形状信息,这与人类视觉系统形成对比对抗样本研究推动了更鲁棒模型的发展,也提供了模型可解释性的独特视角CNN深度学习框架框架主要特点适用场景优势劣势动态计算图,设计研究,原型开发,灵活性高,调试简单部署相对复杂PyTorch pythonicNLP静态和动态图,企业级支持生产部署,移动应用生态系统完善,部署便捷变化频繁TensorFlow API高层,用户友好快速实验,教学易学易用,代码简洁灵活性有限Keras API函数式,编译高性能计算,研究自动微分,编译生态系统较新JAX APIXLA JIT分布式训练优化大规模模型训练高性能分布式计算社区相对较小OneFlow选择合适的深度学习框架对于项目成功至关重要以其动态计算图和直观的风格设计在研究界广受欢迎,特别适合快速实验和原型开发则在工业界占据强势地位,PyTorch PythonTensorFlow提供了从训练到部署的完整解决方案,包括、和等工具,支持各种平台的模型部署TensorFlow ServingTensorFlow LiteTensorFlow.js高效的深度学习训练需要充分利用硬件资源并优化工作流程数据加载通常是性能瓶颈,使用多进程数据加载器和适当的数据预取可以显著提高训练速度分布式训练技术如数据并行、模型并行和管道并行使得训练超大模型成为可能混合精度训练(如使用代替)可以减少内存占用并加速计算,而不显著影响模型精度选择适合问题的批量大小、学习率调度策略和优化FP16FP32器对训练效率也至关重要深度学习伦理与安全隐私保护与安全风险深度学习模型可能无意中泄露训练数据中的敏感信息模型反演攻击能够从模型输出中推断训练数据特征,甚至重建原始样本联邦学习等技术通过在数据源本地训练模型并只共享模型更新而非原始数据,提供了隐私保护解决方案差分隐私通过向训练过程添加精心设计的噪声,为个体数据提供理论保障公平性与偏见问题深度学习模型可能从训练数据中继承或放大社会偏见,导致对特定群体的不公平结果例如,招聘算法可能对特定性别或种族产生歧视,面部识别系统在不同人口群体上表现不一致解决方案包括多样化训练数据、去偏训练方法、公平性约束和后处理技术算法公平性是一个多维度概念,需要与领域专家和利益相关者密切合作评估对抗攻击与防御对抗攻击向输入添加人类难以察觉的扰动,导致模型错误分类这些攻击揭示了深度学习系统的脆弱性,对安全关键应用构成威胁防御策略包括对抗训练(将对抗样本纳入训练过程)、输入净化(去除潜在扰动)和检测机制(识别可能的对抗样本)构建真正鲁棒的模型仍然是一个活跃的研究领域负责任的开发AI负责任的开发需要全面的伦理框架和治理机制这包括建立多样化的研发团队,进行算法影响评估,采用AI AI透明的开发实践,建立问责机制,以及持续监控已部署系统的表现在高风险应用中,保持人在环路()的设计至关重要,确保系统辅助而非完全取代人类决策human-in-the-loop AI前沿研究方向自动机器学习自动化模型设计和优化全流程小样本学习利用少量样本快速适应新任务神经网络架构革新探索全新的网络设计范式大模型与规模化研究规模带来的涌现能力自动机器学习()致力于自动化机器学习流程的各个环节,从数据准备到特征工程、模型选择和超参数优AutoML化近年来,工具已能生成超越人工设计的解决方案,大大降低了应用的技术门槛小样本学习和元学AutoML AI习探索如何使系统像人类一样,能够从少量示例中快速学习这些方法通常涉及学习一种学习策略本身,使模型AI具备泛化到新任务的能力神经网络架构设计正经历范式转变,从手工设计向数据驱动和原则指导的方向发展自注意力机制和混合架构(如结合和的优点)是当前热点同时,大型模型和规模化计算引发了人工智能领域的革命,、CNN TransformerGPT等大型语言模型展示了随着规模增长出现的惊人涌现能力这些大模型需要新的训练和推理技术,如混合专PaLM家系统()、高效注意力算法、分布式训练框架等,推动了基础设施的快速发展MoE AI总结与学习资源深度学习是一个快速发展的领域,掌握它需要系统的学习路径建议从基础数学知识(线性代数、概率统计、微积分)入手,再学习机器学习基础概念,然后深入研究神经网络和深度学习特定领域在实践中,先从经典案例入手,逐步尝试复现论文结果,最后进行原创研究或应用开发推荐学习资源包括经典教材如《深度学习》(等著)、《动手学深度学习》(李沐等著);重要论文如、、Goodfellow AlexNetResNet等奠基性工作;顶级会议如、、、的最新进展;以及开源项目如、、Transformer NeurIPSICML ICLRCVPR PyTorchTensorFlow Hugging等深度学习社区资源丰富,包括各大实验室的博客、技术论坛、在线课程和视频教程持续学习和实践是掌握这一快速演进领域的关Face AI键。
个人认证
优秀文档
获得点赞 0