还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习与数据科学欢迎来到《深度学习与数据科学》课程,这门课程将带您深入探索人工智能革命的核心技术我们精心提炼了页经典教材的精华内容,为您呈现前639沿技术与实际应用案例的完美结合本课程融合了年最新研究进展,旨在为您提供全面而深入的深度学习知2025识体系无论您是初学者还是有一定基础的学习者,都能在这里找到适合自己的学习路径,掌握这一改变世界的技术课程概述学习目标掌握深度学习基本原理与算法,能够独立设计和实现深度学习模型,解决实际问题培养数据分析思维,提升人工智能应用能力重要性深度学习已成为数据科学的核心技术,推动了计算机视觉、自然语言处理、推荐系统等领域的革命性进步,掌握这一技术将极大提升您的职业竞争力学习路径从基础理论到高级模型,循序渐进地学习深度学习各个方面的知识,结合编程实践和项目案例,确保理论与实践相结合先修要求建议具备基础的线性代数、概率统计知识,熟悉编程语言,有机器学Python习基础更佳,但不是必须我们会在课程中适当回顾相关知识点第一部分深度学习基础现代发展早期发展近年来,从、到架构,深度学习技CNN RNNTransformer从世纪年代的感知机模型到年代的反向传播算法,术日新月异,推动了大型语言模型、生成式等技术的飞速205080AI深度学习经历了漫长的初期探索阶段,奠定了理论基础发展关键突破研究热点年提出深度信念网络,解决了深层网络训练自监督学习、多模态融合、强化学习、神经架构搜索等领域2006Hinton困难的问题;年在比赛中的胜利正成为当前研究热点,不断拓展深度学习的应用边界2012AlexNet ImageNet标志着深度学习革命的开始什么是深度学习?深度学习定义与传统方法区别成功因素深度学习是机器学习的一个子集,它使传统机器学习依赖人工设计的特征,而深度学习之所以现在如此成功,主要得用多层神经网络自动从数据中学习表示深度学习能自动学习特征;传统方法在益于大规模数据集的可用性、计算能力和特征,无需人工特征工程这些多层数据量增大时性能提升有限,而深度学的指数级增长(特别是的普及)、GPU结构能够逐层提取越来越抽象的特征,习模型通常随数据量增加而持续提升性算法创新(如有效的初始化和正则化方实现端到端的学习能法),以及开源框架生态系统的蓬勃发展特征表示自动学习人工设计•vs模型容量高容量有限容量•vs数据依赖需大量数据适应小数•vs据生物神经网络启发生物神经元结构人脑约有亿个神经元,每个神经元有树突、细胞体和轴突组成树突接收信号,细胞体处理信860号,轴突传递信号给其他神经元这种信息处理模式启发了人工神经网络的设计信号传递机制生物神经元通过突触进行化学信号传递,信号强度取决于突触连接强度当输入信号累积超过阈值时,神经元被激活并向下一级传递信号,这一过程被抽象为人工神经元中的激活函数从生物到数学模型人工神经网络将生物神经元简化为数学模型输入信号经加权求和,通过激活函数产生输出虽然这种简化模型远不及真实大脑复杂,但保留了关键的信号整合与激活特性仿生计算发展从年和提出的形式神经元模型,到现代深度神经网络,仿生计算经历了七十1943McCulloch Pitts余年的发展虽然当前模型仍基于简化假设,但其计算能力已经能够实现许多令人惊叹的功能人工神经元模型感知机模型神经网络的基本计算单元加权求和输入与权重的线性组合加上偏置激活函数引入非线性变换,增强表达能力人工神经元是神经网络的基本构建单元,它接收多个输入信号,每个输入信号都有相应的权重神经元首先计算这些加权输入的总和,再加上一个偏置值,然后将结果传递给激活函数来产生最终输出数学表达式为,其中是输入,是权重,是偏置,是激活函数这个简单模型的强大之处在于,当成千上y=f∑w_i*x_i+b x_i w_i b f万个这样的神经元组合在一起时,网络可以学习极其复杂的函数和模式神经网络基础结构输入层接收原始数据,每个节点对应一个特征隐藏层处理信息,提取特征,一个或多个层输出层产生最终预测结果,节点数对应任务需求前馈神经网络是最基本的神经网络架构,信息只从输入层向输出层单向流动,中间没有循环连接全连接层(也称密集层)是最常见的层类型,其中当前层的每个神经元都与上一层的所有神经元相连一个包含层的神经网络可以表示为一系列函数复合网络的参数包括每层的权重矩阵和偏置向量,参数L fx=f^Lf^{L-1}...f^1x总数随着层数和每层神经元数的增加而快速增长,这也是为什么深度学习模型通常需要大量数据来训练的原因激活函数详解激活函数在神经网络中引入非线性变换,是神经网络能够学习复杂模式的关键早期常用的函数输出范围为,但存在梯Sigmoid0,1度消失问题;函数输出范围为,中心化特性使其在某些应用中优于Tanh-1,1Sigmoid是当前最流行的激活函数,计算简单且有效缓解梯度消失,但存在死亡问题为解决这一问题,出现ReLUfx=max0,xReLU了多种变体,如、、等激活函数的选择应考虑网络深度、任务类型和计算效率等因素,没有放之四海而皆Leaky ReLUELU SELU准的最佳选择深度前馈网络⁶3+10+网络层数参数规模深度网络通常包含三层以上,现代架构可达数典型深度网络包含数百万参数,大模型甚至达百层数十亿10²+每层神经元隐藏层通常包含数十到数千个神经元多层感知机是最基本的深度前馈网络,由多个全连接层组成深度网络的层与层之间通过MLP激活函数连接,形成复杂的非线性映射网络的深度(层数)和宽度(每层神经元数量)决定了模型的容量和表达能力增加网络深度可以使网络学习更加抽象和复杂的特征,而增加宽度则提高了网络在每一层提取特征的能力然而,网络变得过深或过宽也会带来过拟合风险和训练难度增加的问题在实践中,需要根据任务复杂度和可用数据量来权衡网络的深度与宽度损失函数设计任务类型常用损失函数数学表达式适用场景回归均方误差预测连续值MSE∑y-ŷ²/n分类交叉熵损失多类别分类-∑y·logŷ二分类二元交叉熵正负类预测-y·logŷ+1-y·log1-ŷ多标签类别不平衡Focal Loss-1-ŷᵞ·y·logŷ损失函数是衡量模型预测与真实标签之间差距的指标,也是神经网络优化的目标对于回归问题,均方误差是最常用的损失函数,它计算预测值与真实值差的平方和;MSE对于分类问题,交叉熵损失能更好地捕捉概率分布间的差异在实际应用中,我们常常在损失函数中添加正则化项来防止过拟合,如正则化(促进稀疏性)和正则化(权重衰减)对于特殊任务,可能需要设计自定义损失函数,L1L2如对抗损失、对比损失等损失函数的选择和设计对模型性能有着直接影响第二部分神经网络训练前向传播数据准备通过网络计算预测输出收集、清洗和预处理训练数据损失计算评估预测与真实值的差异评估优化反向传播调整超参数和模型结构计算梯度并更新参数神经网络训练是一个迭代优化过程,目标是找到最小化损失函数的参数集这个过程包括数据准备、前向传播计算预测、计算损失、反向传播更新参数,以及模型评估与调整等环节训练过程中涉及多个关键技术,包括参数初始化策略、优化算法选择、学习率调度、正则化方法和超参数调整一个成功的训练过程需要精心设计这些组件,并对训练动态进行持续监控和调整随着模型复杂度增加,训练稳定性和效率成为亟需解决的挑战前向传播算法输入数据将原始特征输入网络层级计算每层依次进行线性变换和激活生成预测输出层产生最终预测结果前向传播是神经网络信息处理的基本过程,数据从输入层开始,依次通过各个隐藏层,最终到达输出层产生预测结果每个神经元接收上一层的加权输入,应用激活函数后,将结果传递给下一层从计算角度看,前向传播可以高效地表示为矩阵运算对于每一层,我们有l z^l=,,其中是权重矩阵,是偏置向量,是激活函数,W^l·a^{l-1}+b^l a^l=fz^l Wbfa是激活值这种向量化实现大大提高了计算效率,特别是在使用加速时时间复杂度GPU通常为,其中表示第层的神经元数量Osumn_l·n_{l-1}n_l l反向传播算法详解梯度下降算法家族批量梯度下降随机梯度下降小批量梯度下降BGD SGD使用整个训练集计算梯度,更新一次参每次仅使用一个样本计算梯度并更新参折中方案,每次使用一小批mini-数优点是梯度估计准确,收敛稳定;数优点是计算快速,能够跳出局部最样本计算梯度通常大小batch batch缺点是计算成本高,内存消耗大,且容小值,适合在线学习;缺点是梯度估计为、、等结合了的稳3264128BGD易陷入局部最小值噪声大,收敛路径震荡,可能永远不会定性和的效率,是深度学习中最常SGD真正收敛到最优点用的优化方法适用于小型数据集,或需要精确梯度的场景在大型数据集和冗余数据上表现较好几乎适用于所有深度学习场景,是实践中的标准选择学习率是梯度下降算法的关键超参数,决定参数更新的步长学习率过大可能导致算法发散,过小则收敛缓慢学习率调度策略包括固定学习率、学习率衰减、周期性学习率、热重启等,可根据训练过程动态调整学习率,加速收敛并提高模型性能高级优化算法动量法Momentum引入物理学中动量概念,累积历史梯度,加速收敛并有助于跳出局部最小值更新公式∇,典型动量系数取,v_t=γv_{t-1}+ηJθθ_t=θ_{t-1}-v_tγ
0.9使参数更新方向更加稳定与AdaGrad RMSProp根据参数历史梯度平方和自适应调整学习率,但可能过早停止学习AdaGrad改进了这一点,使用指数移动平均替代累积和RMSProp v_t=βv_{t-1}+∇,,避免学习率过快衰减1-βJθ²η_t=η/√v_t+ε优化器Adam结合动量和自适应学习率,计算一阶矩估计动量和二阶矩估计,RMSProp并进行偏差修正是目前最流行的优化器,适用于大多数深度学习应用场景,特别是在计算机视觉和自然语言处理任务中表现优异优化器的选择应考虑问题特性、数据规模和计算资源动量在某些情况下泛化性能SGD+优于自适应方法;收敛速度快但可能过拟合;对于稀疏梯度问题,和其Adam AdaGrad变体通常更有效在实践中,可以尝试不同优化器并通过交叉验证选择最佳方案过拟合与正则化正则化正则化L1L2在损失函数中添加参数绝对值之和的惩罚项,又称权重衰减,在损失函数中添加参数平方促进模型稀疏性,自动进行特征选择正和的惩罚项,抑制大权重,鼓励权重均匀分L1则化倾向于产生许多恰好为零的参数,适合布正则化是最常用的正则化方法,适合L2需要解释性的模型大多数深度学习模型早停法技术Dropout监控验证集性能,当性能不再改善时停止训训练过程中随机丢弃一部分神经元,强制练这是一种简单有效的正则化方法,不需网络学习冗余表示可视为集成多个不同架43要修改模型或损失函数,被广泛应用于各类构的瘦网络,有效减少过拟合典型丢弃深度学习模型训练中率为
0.2-
0.5过拟合是机器学习中的常见问题,表现为模型在训练数据上表现优异但在新数据上表现不佳造成过拟合的主要原因包括模型过于复杂、训练数据量不足、数据噪声过大等正则化技术旨在控制模型复杂度,提高泛化能力批量归一化1归一化过程对每一层的输入进行标准化,使其均值为,方差为具体操作包括计算批次统计量、标准01化、缩放和平移,其中和是可学习参数y=γ·x-μ_B/σ_B+βγβ训练阶段使用当前批次的统计量进行归一化,同时计算滑动平均值,用于推理阶段每个批次的均值和方差各不相同,为网络引入了一定的随机性,具有轻微的正则化效果推理阶段使用训练过程中累积的统计量(整个数据集的均值和方差)进行归一化,确保推理结果的确定性由于不依赖批次统计量,推理可以逐样本进行4核心优势缓解内部协变量偏移问题,允许使用更高学习率,减少对参数初始化的敏感性,加速网络收敛层已成为大多数现代深度神经网络架构的标准组件BN批量归一化由和在年提出,是解决Batch NormalizationSergey IoffeChristian Szegedy2015深度网络训练难题的重要突破除了加速收敛外,还提供了一定的正则化效果,有时可以减少对BN等其他正则化技术的需求在实践中,通常放在线性层和激活函数之间Dropout BN第三部分卷积神经网络卷积神经网络概述CNN卷积神经网络是专为处理具有网格结构的数据(如图像)设计的神经网络它利用卷积操作自动提取空间特征,大大减少了参数数量,提高了计算效率和泛化能力的核心组件CNN卷积层提取局部特征•池化层降低维度,提高鲁棒性•全连接层整合特征,执行分类•批量归一化稳定训练•的典型应用CNN图像分类与识别•目标检测与定位•图像分割•人脸识别•医学图像分析•的发展趋势CNN从早期的到现代的、,架构不断创新目前研究热点包括轻量化设计、神经架构搜索、自注LeNet-5ResNet EfficientNetCNN意力机制与的结合等领域CNN卷积神经网络彻底改变了计算机视觉领域,实现了人类水平的图像理解能力它在医疗诊断、自动驾驶、安防监控等众多领域有着广泛应用,是深度学习最成功的应用之一卷积层详解池化层与下采样最大池化平均池化特殊池化技术在指定窗口内选择最大值作为输出这计算窗口内所有值的平均值作为输出空间金字塔池化在不同尺度上进行SPP种操作保留了最显著的特征,对噪声和这种操作提供了输入的更平滑表示,保池化,生成固定长度的特征向量,解决小扰动具有较强的鲁棒性最大池化倾留了背景信息,在需要整体特征的任务了输入尺寸可变的问题全局平均池化向于捕获纹理和边缘等显著特征,在分中更有优势对整个特征图取平均值,大幅减GAP类任务中表现优异少参数量,有助于防止过拟合数学表达y_{i,j}=averagex_{m,n}数学表达y_{i,j}=maxx_{m,n}for forall m,n inwindow_{i,j}all m,n inwindow_{i,j}池化层在卷积神经网络中扮演着关键角色,它通过降低特征图分辨率,减少了后续层的计算量和参数数量此外,池化操作引入了平移不变性,使模型对输入图像的小变形更加鲁棒然而,近年来一些研究表明,在某些情况下,可以通过增大卷积步长或使用更复杂的卷积操作来替代池化,获得更好的性能经典架构CNNLeNet-51998由提出,用于手写数字识别包含两个卷积层和三个全连接层,奠定了的基Yann LeCunCNN本结构尽管简单,但包含了现代的所有核心组件CNN2AlexNet2012由团队开发,在竞赛中以显著优势获胜,标志深度学习革命的开始包含Hinton ImageNet5个卷积层和个全连接层,首次大规模使用激活函数、和训练3ReLU DropoutGPU3VGG2014牛津大学团队提出,以简洁优雅的设计理念著称使用小尺寸卷积核堆叠代替大卷VGG3x3积核,深度达层虽然参数量大,但结构规整,至今仍被广泛使用16-194GoogLeNet2014引入创新的模块,并行使用不同尺寸的卷积核捕获多尺度特征通过卷积减少通Inception1x1道数,大幅降低计算复杂度整体设计强调高效率,是后续高效的先驱CNN这些经典架构代表了深度学习在计算机视觉领域的重要里程碑,每一代架构都带来了新的设计理念和性CNN能突破从的简单结构到的复杂模块设计,架构在探索更深、更高效的网络方向上不LeNet GoogLeNetCNN断创新残差网络与跳跃连接残差网络由微软研究院的何恺明团队在年提出,通过引入跳跃连接解决了深度网络的梯度消失爆炸问ResNet2015skip connection/题,首次成功训练了超过层的深度网络残差学习的核心思想是学习残差映射,而不是直接学习目标映射,这100Fx=Hx-x Hx使得优化过程更加容易基于的创新,出现了多种变体引入了分组卷积,提高了模型容量;减少深度但增加宽度,提高训练效率;ResNet ResNeXtWideResNet进一步增强了特征重用,每层都与之前所有层直接相连跳跃连接的思想也被广泛应用于其他网络架构中,如中的编码DenseNet U-Net器解码器连接,成为现代深度网络设计的标准实践-目标检测网络系列R-CNN从到再到,逐步改进的两阶段检测器R-CNN FastR-CNN FasterR-CNN FasterR-CNN引入区域提议网络,实现端到端训练,成为检测领域的里程碑进一步RPN MaskR-CNN扩展为实例分割系列YOLO将目标检测视为单一回归问题,直接预测边界框和类别从到、、YOLOv1YOLOv5YOLOR等,不断优化速度与精度的平衡以实时性能著称,广泛应用于边缘设备YOLOv7与SSD RetinaNet使用多尺度特征图直接预测不同尺寸的目标引入解决正负样本不SSD RetinaNetFocal Loss平衡问题,显著提升了单阶段检测器的精度,缩小与两阶段检测器的性能差距评估指标目标检测常用评估指标包括精确率、召回率、分数、平均精度和各Precision RecallF1AP阈值下的数据集的成为标准评价指标IOU mAPCOCO mAP[
0.5:
0.95]目标检测是计算机视觉的核心任务之一,要求模型同时解决是什么和在哪里两个问题现代目标检测算法主要分为两类两阶段检测器(先提议再分类)和单阶段检测器(直接回归)随着技术发展,两类方法的界限逐渐模糊,各自借鉴对方的优势,形成了更高效、更准确的混合架构图像分割技术380+主要分割类型模型SOTA mIoU语义分割、实例分割和全景分割在数据集上超过的交并比Cityscapes80%50+帧率FPS实时分割模型可达帧秒以上50/图像分割是比分类和检测更精细的视觉任务,要求像素级的精准预测语义分割将每个像素分配到特定类别,但不区分同类实例;实例分割不仅识别类别,还区分同类不同个体;全景分割则结合两者优势,同时处理可数物体和背景区域全卷积网络是语义分割的开创性工作,它将分类网络中的全连接层替换为卷积层,实现端FCN到端的像素预测以其独特的形编码器解码器结构和跳跃连接设计,在医学图像分割U-Net U-领域取得巨大成功系列引入空洞卷积和模块捕获多尺度信息,显著提升分割精DeepLab ASPP度在评估方面,交并比和平均交并比是最常用的指标IoU mIoU第四部分循环神经网络序列数据特点序列数据如文本、语音和时间序列具有时序依赖性,数据点之间存在先后关系,传统前馈网络难以有效处理这种依赖关系循环神经网络通过记忆机制捕获序列中的长期依赖基本架构RNN循环神经网络引入循环连接,允许信息在时间步之间传递这种设计使网络能够维持内部状态,记忆先前输入的信息,从而更好地理解和预测序列数据高级变体RNN为解决基本的长期依赖问题,研究者开发了和等变体,它们通过门控机制控RNN LSTM GRU制信息流动,能够学习长距离依赖关系,显著提升序列建模能力广泛应用在自然语言处理、语音识别、机器翻译、文本生成、音乐创作、时间序列预测等众多领RNN域有着广泛应用,是处理序列数据的强大工具循环神经网络彻底改变了序列数据处理方式,使机器能够理解语言、分析时间序列和生成连贯内容它为大量依赖序列理解的应用奠定了基础,虽然近年来被架构在某些任务上超越,但Transformer及其变体在特定应用场景中仍具有不可替代的价值RNN循环神经网络基础长短期记忆网络LSTM长期记忆通过细胞状态保存长期信息门控机制控制信息流入、存储和输出单元LSTM包含遗忘门、输入门和输出门长短期记忆网络由和于年提出,设计目标是解决传统难以学习长期依赖关系的问题的核心创LSTM HochreiterSchmidhuber1997RNN LSTM新是引入细胞状态作为信息高速公路,并使用三种门控机制精确控制信息流动遗忘门决定丢弃哪些信息,输入门决定更新哪些信息,cell state输出门决定输出哪些信息的计算过程可以表示为,,,̃LSTM f_t=σW_f·[h_{t-1},x_t]+b_f i_t=σW_i·[h_{t-1},x_t]+b_i o_t=σW_o·[h_{t-1},x_t]+b_o C_t=,̃,这种精心设计的门控机制使能够在长序列中选择性tanhW_C·[h_{t-1},x_t]+b_C C_t=f_t*C_{t-1}+i_t*C_t h_t=o_t*tanhC_t LSTM地记住重要信息,同时忘记不相关信息,有效解决了梯度消失问题门控循环单元GRU结构与比较选择指南GRU LSTM门控循环单元由等人在相比参数更少,计算更高效,选择还是应基于具体任务和GRU Cho2014GRU LSTM GRU LSTM年提出,是的简化版本合训练速度更快在多数任务上,与资源约束如果计算资源有限或数据集LSTMGRUGRU并了的遗忘门和输入门为更新门,性能相当,但在特定任务如语音处较小,是更好的选择;如果序列特LSTM LSTMGRU并引入重置门控制历史信息的影响程度理中,可能表现更佳对短别长或任务复杂度高,可能表现更LSTMGRU LSTM不维护单独的细胞状态,直接更新序列建模效果好,而在处理较长序佳实践中建议两者都尝试,通过交叉GRU LSTM隐状态列时可能更有优势验证选择更优方案数学表达式参数量少约z_t=σW_z·[h_{t-•GRU25%,,1},x_t]r_t=σW_r·[h_{t-1},x_t]训练速度快约•GRU20%̃,h_t=tanhW·[r_t*h_{t-1},x_t]内存占用低约•GRU15%̃h_t=1-z_t*h_{t-1}+z_t*h_t的简化设计使其在许多序列建模任务中成为流行选择,特别是在资源受限的环境中它保留了的大部分优势,同时减少了GRULSTM计算复杂度,代表了神经网络设计中平衡复杂性和效率的成功案例序列到序列模型编码器解码器框架-序列到序列模型采用编码器解码器架构,编码器将输入序列压缩为上下文向量,解码器基于此向量生成输出序列这种设计允许输入和输出序列长度不同,非常适合机器翻译等任务Seq2Seq-机器翻译应用模型首先在机器翻译领域取得突破,等公司的神经机器翻译系统基于此架构编码器处理源语言句子,解码器生成目标语言翻译,通常采用束搜索等技术提高翻译质量Seq2Seq Google注意力机制基础模型的信息瓶颈是固定大小的上下文向量注意力机制允许解码器关注输入序列的不同部分,显著提升长序列处理能力注意力权重可视化还提供了模型决策过程的解释性Seq2Seq除了注意力机制外,双向也是提升性能的重要技术它同时从前向后和从后向前处理序列,捕获更完整的上下文信息序列到序列模型广泛应用于机器翻译、文本摘要、对话系统、语音识别等领域,虽然近年来在许多任务上被架构RNN Seq2Seq Transformer超越,但其设计理念仍然影响深远第五部分注意力机制与Transformer注意力机制架构预训练模型大规模扩展Transformer模仿人类选择性关注的能基于自注意力的全新序列大规模预训练后微调的范通过增加模型参数、训练力,让模型专注于输入中处理架构,摒弃了的式,如和系列,数据和计算资源,RNN BERT GPT最相关的部分,有效解决递归结构,支持高度并行彻底改变了领域,带架构展现出NLP Transformer长序列建模的信息瓶颈问计算,成为现代的基来了前所未有的性能提升惊人的扩展性,催生了NLP AI题础领域的大模型时代注意力机制与架构的出现标志着深度学习进入了新时代相比,架构不仅解决了长期依赖问题,还支持并行计算,Transformer RNNTransformer大幅提高了训练效率这一架构已经扩展到计算机视觉、语音处理、多模态学习等多个领域,成为当前深度学习最具影响力的创新之一注意力机制详解查询键Query Key当前处理的内容,决定需要关注什么信息可能相关的内容索引,用于计算相关性得分注意力权重值Value通过和的相似度计算,决定每个的Query KeyValue实际内容信息,根据注意力权重进行加权聚合重要性注意力机制的核心计算过程包括将输入转换为查询、键和值三种表示;计算查询与所有键的相似度得到原始分数;对分数进行归一化得到注意力权重;根据权Q KV重对值进行加权求和得到上下文向量数学表达为,其中是缩放因子,防止梯度消失AttentionQ,K,V=softmaxQK^T/√d_kV√d_k自注意力是注意力机制的一种特殊形式,其中、、都来自同一输入序列,允许序列中每个位置关注序列中任何其他位置多头注意力通过并行计算多组不同的注意力Q KV函数并拼接结果,使模型能够同时关注不同表示子空间的信息位置编码则是解决自注意力缺乏位置信息的关键技术,常用的实现包括正弦位置编码和可学习位置编码架构Transformer编码器Encoder1处理输入序列,生成上下文表示解码器Decoder2基于编码器输出和已生成内容预测下一个token核心组件3多头自注意力、前馈网络、残差连接和层归一化架构由谷歌团队在年的论文中提出,彻底摒弃了循环和卷积结构,完全基于自注意力机制Transformer2017Attention isAll YouNeed处理序列数据其编码器由多个相同层堆叠而成,每层包含两个子层多头自注意力层和位置前馈网络层,每个子层都采用残差连接和层归一化解码器结构类似编码器,但增加了一个交叉注意力层,允许解码器关注编码器的输出解码器还使用掩码自注意力机制,确保预测位置只能访i问位置小于的信息前馈神经网络采用两层结构,包含激活函数,为模型引入非线性变换残差连接和层归一化的组合极大地稳定了训i ReLU练过程,使得构建非常深的模型成为可能Transformer与预训练模型BERT系列模型GPT1GPT-12018首个大规模解码器模型,采用自回归语言建模预训练,参数量亿,在多项任务上取得Transformer
1.17当时最先进性能2GPT-22019大幅扩展规模至亿参数,不需要微调即可完成多种任务,展示了大型语言模型的涌现能力,引发了对15安全的讨论AI3GPT-32020亿参数的超大模型,通过少样本学习实现各种任务,甚至可以生成代码和创意内容,标志着大语言1750模型时代的开始4GPT-42023多模态能力,可处理图像和文本输入,参数量未公开但性能大幅提升,在众多专业考试和基准测试中接近人类专家水平系列由开发,采用自回归语言模型方法,即依次预测序列中的GPTGenerative Pre-trained TransformerOpenAI每个标记与的双向模型不同,是单向的,只关注左侧上下文,但这种设计非常适合文本生成任务的BERTGPT GPT预训练目标简单直接预测下一个单词,这使其能够自然地学习语言模式和知识系列最引人注目的特点是通过扩大规模展现出的涌现能力,模型可以执行预训练中从未明确学习过的任务GPTGPT-3首次大规模展示了零样本和少样本学习能力,只需提供任务描述或几个示例,无需参数更新即可完成任务尽管大型语言模型表现出惊人的能力,但它们也面临幻觉生成、偏见复制、安全风险和巨大的计算资源需求等挑战第六部分生成模型生成模型概述生成模型旨在学习数据的真实分布,从而能够生成与训练数据类似的新样本与判别模型不同,生成模型学习或,而Px Px|y不仅仅是这使得生成模型不仅能分类,还能产生新内容,应用范围更广Py|x主要类型自编码器编码解码结构,学习数据压缩表示•-变分自编码器引入概率框架的自编码器•VAE生成对抗网络基于生成器与判别器博弈•GAN扩散模型基于噪声逐步添加和移除•自回归模型依次生成序列中的每个元素•评估指标样本质量、、•FID ISPrecision/Recall多样性样本间距离、覆盖度•条件生成准确性分类精度、语义一致性•人工评估人类评价者打分、测试•A/B应用领域生成模型已广泛应用于图像生成、文本创作、音乐合成、药物发现、数据增强、异常检测等领域,成为创意和辅助创作的重要AI工具,推动了生成式的蓬勃发展AI生成模型是深度学习领域最活跃的研究方向之一,正在改变人类创作和表达的方式随着模型架构和训练方法的不断创新,生成模型的能力边界持续扩展,为技术开辟了全新的应用场景AI自编码器技术自编码器是一类神经网络,通过学习将输入数据编码为低维表示,然后从这个表示重建原始输入它由两部分组成编码器将输入映射到x潜在表示,解码器尝试从重建训练目标是最小化重建误差,如均方误差瓶颈结构(中间层维度小于输入)强制网络学习z zx||x-x||^2数据的有效压缩表示,从而捕获数据的本质特征去噪自编码器通过向输入添加噪声并学习重建原始无噪声数据,提高模型的鲁棒性和泛化能力变分自编码器则引入概率框架,将VAE潜在空间建模为概率分布而非固定点,使得生成过程更加灵活通过最小化重建误差和散度两个目标进行训练,前者确保重建质量,VAE KL后者确保潜在变量接近标准正态分布这种设计使能够生成新样本,只需从潜在空间采样并通过解码器传递VAE生成对抗网络GAN基本原理变体训练挑战GAN GAN生成对抗网络由于使用卷积架构,提高训练稳训练面临多种挑战模式崩溃(生成GAN IanGoodfellow•DCGAN GAN年提出,包含两个相互竞争的网络定性器只产生有限种类样本)、训练不稳定(振2014生成器尝试创建逼真的假样本,判别器荡或发散)、梯度消失(判别器过强或过弱)G D引入距离,解决•WGAN Wasserstein尝试区分真假样本这种对抗训练形成了一等解决方案包括改进目标函数、梯度惩罚、模式崩溃个极小极大博弈谱归一化、渐进式增长等技术尽管存在这min_G max_D VD,G条件接受额外条件输入,控制生•GAN些挑战,仍是最强大的生成模型之一,=E[log Dx]+E[log1-DGz]GAN成过程特别是在高质量图像生成领域理想状态下,生成器会产生与真实数据分布无需配对数据的图像转换•CycleGAN一致的样本,判别器无法区分真假(准确率分离内容和风格,控制生•StyleGAN为)然而,这种平衡点通常难以达到,50%成细节训练以不稳定著称GAN大规模高质量图像生成•BigGAN的应用已扩展到众多领域,包括超分辨率重建、图像翻译、人脸编辑、文本到图像生成、视频生成等尽管近期扩散模型在某些任务上超GAN越了,但的对抗学习思想仍然影响深远,代表了生成模型研究的重要里程碑GAN GAN扩散模型稳定扩散模型逆向扩散采样稳定扩散是一种流行的文本引导图正向扩散过程Stable Diffusion生成阶段执行逆向过程,从纯噪声开始,逐步去除噪声像生成模型,它在潜在空间而非像素空间应用扩散过程,扩散模型的正向过程逐步向数据添加高斯噪声,将复杂直到得到清晰样本关键是训练神经网络预测每一步的大大提高了计算效率它包含三个关键组件文本编码的数据分布转变为简单的高斯分布这个过程可以被形噪声,使得可以逐步恢复信号采样算法如使器、去噪器和解码器通过提示词DDPM CLIPU-Net VAE式化为马尔可夫链,每一步都遵循固定的噪声添加方案用固定步数采样,而等方法可以减少采样步数,引导生成过程,可以精确控制图像内容和风格DDIM,其中是标准高加速生成过程x_t=√α_t x_{t-1}+√1-α_tεε斯噪声,控制噪声程度α_t扩散模型相比具有多项优势训练更稳定、样本多样性更高、支持更精确的条件控制它已在图像生成、音频合成、建模等领域取得突破性进展目前研究热点包GAN3D括改进采样效率、降低计算需求、增强条件控制和扩展到更多模态和应用场景扩散模型被认为是继之后生成模型的新范式,正推动着生成的新一轮革命GAN AI第七部分深度强化学习强化学习框架值函数方法策略方法深度强化学习结合了深度学习的表示能力和强化以深度网络为代表的值函数方法使用神策略梯度方法直接优化策略函数,不依赖值函数Q DQN学习的决策框架,使智能体能够在复杂环境中学经网络近似动作价值函数,指导智能体选择最优作为中间步骤这类方法包括、REINFORCE习最优策略智能体与环境交互,执行动作,观动作通过经验回放和目标网络等创新解决、等算法,特别适合连续动作空间和DQN TRPO PPO察状态变化和获得奖励,通过试错学习最大化累了深度强化学习的不稳定性问题,成功实现了端随机策略方法则结合了值函数和Actor-Critic积奖励到端的从像素到控制策略方法的优势,是当前最流行的深度强化学习算法之一深度强化学习已在游戏(如、)、机器人控制、自动驾驶、推荐系统等领域取得突破性成果当前研究热点包括样本效率提升、AlphaGo OpenAIFive多智能体协作、离线强化学习、可解释性和安全性等随着算法和计算能力的进步,深度强化学习正逐步实现从模拟环境到现实世界的跨越强化学习基础状态动作State Action环境的描述,可以是完全可观察的或部分可智能体可以执行的操作动作空间同样可以观察的状态空间可以是离散的(如棋盘位是离散的(如上下左右移动)或连续的(如置)或连续的(如机器人关节角度)状态施加特定力矩)在每个状态,智能体根据转移通常遵循马尔可夫性质,即未来状态仅策略选择动作,策略可以是确定性的πa|s依赖于当前状态和动作或随机的值函数与策略奖励Reward值函数评估状态的长期价值,评Vs Qs,a环境给予智能体的即时反馈信号,通常表示估状态动作对的长期价值策略定义智能-π为函数奖励设计是强化学习中的Rs,a,s体的行为规则强化学习的目标是找到最优关键挑战,好的奖励函数应当准确反映任务策略,使得从任何状态开始,遵循该策略π*目标,同时易于优化,避免稀疏或延迟能获得最大的累积折扣奖励强化学习面临的核心挑战是探索与利用的平衡过度探索会浪费资源在次优动作上,而过度利用则可能错过潜在的更好策略常用的平衡方法包括贪心策略、上置信界方法、采样等另一个关键概念是时序差分学习,它结合了动态规划的即时更新和蒙特卡洛方法的采样思ε-UCB Thompson想,是许多现代强化学习算法的基础深度学习Q策略梯度方法∇Jθ策略梯度策略性能对参数的导数πa|s;θ参数化策略由神经网络表示的策略函数α学习率控制参数更新步长PPO主流算法近端策略优化算法策略梯度方法与值函数方法的根本区别在于,它们直接优化策略函数,而不是通过值函数间接得到策略基本策略梯度定理表明,策略性能梯度可πa|s;θ以表示为∇∇算法是最简单的策略梯度方法,使用蒙特卡洛采样估计值,但方差较大,学习效率_θJθ=E[_θlogπa|s;θ·Q^πs,a]REINFORCE Q低近年来,更先进的算法如信任区域策略优化和近端策略优化通过约束策略更新步长,显著提高了训练稳定性和样本效率使用裁剪目标TRPOPPOPPO函数,其中是新旧策略的概率比,是优势函数这种设计防止了过大的策略更新,L^CLIPθ=E[minr_tθ·A_t,clipr_tθ,1-ε,1+ε·A_t]r_tθA_t同时保持了良好的样本效率,使成为当前实践中最流行的策略梯度算法之一,广泛应用于机器人控制、游戏和模拟环境等复杂连续控制任务PPO AI第八部分深度学习实践选择合适的框架深度学习框架如、等提供高效实现模型所需的工具和抽象不同框架有各自优势,选PyTorch TensorFlow择应考虑项目需求、团队熟悉度和生态系统支持数据准备与预处理获取高质量数据、处理缺失值、标准化特征、增强数据多样性数据质量和预处理往往比模型架构更重要,是项目成功的关键因素模型训练与调优选择适当架构、设置超参数、监控训练过程、应用正则化技术高效训练需要加速、分布式计算和自GPU动化超参数搜索等工具支持部署与维护将训练好的模型集成到生产环境,优化推理性能,建立监控系统,持续更新模型部署考虑因素包括延迟要求、资源约束和可扩展性实际深度学习项目通常是迭代开发过程,需要反复试验和改进为提高生产效率,现代深度学习实践越来越依赖自动化工具链,包括实验跟踪系统(如、)、超参数优化工具(如、)MLflow WeightsBiases OptunaRay Tune和模型管理平台此外,软件工程最佳实践在深度学习开发中同样重要,包括版本控制、代码审查、单元测试和持续集成随着模型规模和复杂度增加,资源管理和成本控制也成为关键考虑因素,需要平衡模型性能与计算资源消耗深度学习框架框架主要特点编程范式适用场景生态系统动态计算图,直命令式编程研究,快速原型PyTorch TorchVision,观API TorchText生产级部署,全静态动态图工业应用,移动TensorFlow+TF Extended,平台支持端TF.js自动微分,函数式编程高性能计算,研JAX XLAFlax,Haiku编译究多语言支持,高混合编程模式云端部署MXNet GluonAPI效分布式和是当前最流行的两大框架以其动态计算图和风格的直观PyTorch TensorFlowPyTorch PythonAPI赢得了研究社区的青睐,特别适合快速实验和原型开发则以其完整的生产部署工具链和跨TensorFlow平台支持见长,在工业应用中更为普遍引入,使其编程风格更接近TensorFlow
2.0eager executionPyTorch新兴框架如结合了自动微分和编译器,提供极高的计算效率,特别适合大规模模型训练同时,JAX XLA各大框架也在不断融合彼此的优势增强了部署能力,简化了框架选择应基PyTorch TensorFlowAPI于具体需求,如研究灵活性、生产稳定性、跨平台支持、分布式训练能力等深度学习工程师通常需要熟悉多个框架,以便在不同场景下选择最合适的工具加速与并行计算GPU计算基础训练并行策略混合精度训练GPU图形处理单元凭借其大量并行处理核心,随着模型规模增长,单训练变得不够高效,混合精度训练使用(半精度浮点)进行大GPU GPUFP16非常适合深度学习中的矩阵运算是需要采用并行训练策略部分计算,同时维护(单精度浮点)权重CUDA FP32的并行计算平台和编程模型,为深副本以保持数值稳定性这种技术可将内存使用NVIDIA GPU数据并行多设备复制完整模型,每个处理•度学习框架提供底层加速典型的深度学习减少一半,计算速度提升倍,特别是在支持GPU2-3不同数据批次拥有数千个核心和高带宽显存,能比的新型上效果显著CUDA CPUTensor CoreGPU PyTorch模型并行将模型分割到多个设备,每个处快倍•和都提供了混合精度训练支持,如10-100TensorFlow理模型的不同部分和torch.cuda.amp tf.keras.mixed_precision在编程层面,开发者通常不需要直接编写CUDA流水线并行模型按层分割,不同设备处理•代码,而是通过深度学习框架提供的高级间API不同层接使用加速主要框架都提供了设备管理函GPU张量并行单个操作分散到多个设备上执行数,如和,用于控制计算在•torch.cuda tf.device或上执行CPU GPU大型模型训练通常结合多种并行策略,如GPT-3训练采用数据并行、模型并行和流水线并行的混合方案有效利用资源需要注意内存管理、批量大小选择、数据加载优化等因素现代训练框架如和简化了分布GPU PyTorchLightning Hugging Face Accelerate式训练配置,使研究人员能够专注于模型开发而非基础设施管理模型压缩与优化知识蒸馏从大模型转移知识到小模型1模型剪枝2移除不重要的连接或神经元量化3降低权重和激活的精度低秩分解4分解大矩阵为更小矩阵乘积随着深度学习模型规模的不断增长,模型压缩与优化技术变得越来越重要,特别是在资源受限的环境(如移动设备和嵌入式系统)中知识蒸馏通过训练小模型(学生)模仿大模型(教师)的行为,不仅传递硬标签,还传递软标签(类别概率分布),使小模型获得大模型的泛化能力典型实现中,蒸馏损失为L_distill=α·Hy,σz_s+1-α·Hσz_t/T,σz_s/T模型剪枝根据重要性指标(如权重幅度、激活值、梯度等)移除不重要的连接,可实现高达的参数减少,同时保持准确率量化将位浮点权重转换为位整数甚至90%328更低位宽,典型情况下可将模型大小减少低秩分解将权重矩阵分解为低秩近似,特别适用于全连接层在移动端部署中,通常结合使用这些技术,并辅以专用推理引75%擎如、或,实现低延迟、低功耗的推理TensorFlow LiteONNX RuntimeTVM第九部分前沿研究与应用深度学习研究正在多个前沿方向快速推进自监督学习通过从数据本身生成监督信号,大幅减少对人工标注的依赖,在表示学习和预训练模型领域取得了突破性进展多模态学习致力于整合文本、图像、音频等不同模态的信息,创建更全面的理解和生成系统,如、CLIP和等模型展示了强大的跨模态能力DALL-E GPT-4神经架构搜索使用自动化方法设计网络结构,减少人工试错,已产生多个高效网络如和同时,随着NAS EfficientNetMobileNetV3AI系统在关键领域的应用,可解释性和伦理问题日益重要可解释研究方法包括特征可视化、注意力分析和反事实解释等伦理关注公AI AI平性、隐私保护和安全使用,不仅是技术问题,也是社会和政策层面的挑战自监督与对比学习自监督任务设计创建辅助任务,从无标签数据生成监督信号经典任务包括图像旋转预测、拼图还原、上下文预测和掩码自编码等任务设计的关键是确保模型学习到有意义的表示,而非捷径解对比学习方法学习将相似样本映射到接近的表示,将不同样本映射到远离的表示核心是构造正负样本对正样本通常是同一数据的不同增强视图,负样本是批次中的其他数据对比损失如使InfoNCE模型学习区分性表示典型模型在视觉领域开创性地使用简单对比框架和强数据增强;通过动量编码器和队列SimCLR MoCo维护大量负样本;通过大规模图文对训练,学习强大的跨模态表示,实现零样本迁移到多CLIP种下游任务自监督学习,特别是对比学习,已经彻底改变了深度学习预训练范式在视觉领域,自监督预训练模型的性能已接近甚至超过监督预训练模型,同时具备更好的泛化能力和领域适应性这些方法大大减少了对大规模标注数据的依赖,降低了构建高性能模型的门槛最新研究方向包括减少对比学习中的负样本依赖(如和采用的孪生网络结构)、多模态自监BYOL SimSiam督学习、自蒸馏技术,以及将自监督学习与其他学习范式(如半监督学习和元学习)结合自监督学习的进步有望进一步推动系统在资源受限、数据稀缺和领域特定应用中的发展AI多模态深度学习跨模态表示学习多模态预训练将不同模态数据映射到共享语义空间,使相在大规模多模态数据上预训练模型,如图文关内容在空间中接近常用方法包括对齐学对、视频文本对等预训练任务包括跨模-习、融合学习和协同学习这种共享表示支态匹配、掩码语言建模、视觉文本对齐等-持跨模态检索、转换和推理等任务代表模型有、、和视觉语言模型CLIP DALL-E Flamingo多模态生成-等ImageBind整合图像和文本理解能力的模型,如从一种模态生成另一种模态内容,如文本到CLIP通过对比学习将图像与文本描述对齐;图像、文本到视频VL-Stable Diffusion、等模型在统一框架中处、图像到文本图像描述BERT ViLBERTMake-A-Video理视觉和语言信息,用于视觉问答、图像描等这类模型通常结合条件生成技术和跨模述等任务态表示学习多模态深度学习近年来取得了令人瞩目的进展,创造了能够理解和生成跨多种感知通道内容的系统这些系统不仅能处理单一模态数据,还能捕捉模态间的复杂关系,更接近人类的多AI感官认知方式从实际应用角度,多模态系统在视觉搜索、内容创作、辅助技术和人机交互等领域展现出巨大潜力总结与未来展望核心理念回顾当前挑战研究方向深度学习的核心是端到端可微分架构、尽管取得巨大成功,深度学习仍面临样未来研究热点包括自监督和少样本学层次化特征学习和大规模数据驱动这本效率低、泛化性有限、可解释性不足、习,减少对标注数据依赖;神经符号结-些基本原则与特定架构结合,催生了从安全可靠性和偏见问题等挑战解决这合,整合深度学习和符号推理;模型效、到等多种强些问题需要跨学科努力,结合认知科学、率和绿色,降低能源消耗;可靠性和CNN RNNTransformer AI大模型,推动技术在视觉、语言和决数学和伦理学等领域的洞见鲁棒性,增强模型在复杂环境中的适应AI策等领域的突破性进展性学习资源深入学习推荐开源课程如、CS231n;教材如《深度学习》CS224n等;实践平台如、GoodfellowKaggle;研究论文追踪和HuggingFacearXiv顶会如、、等;参NeurIPS CVPRACL与开源项目社区如、PyTorchTensorFlow深度学习已从学术研究转变为改变各行业的核心技术,从医疗诊断、自动驾驶到创意内容生成随着大型基础模型的出现,我们正进入发展的新阶段,模型能力随规模呈现涌现特性,打开了全新应用可能性AI展望未来,深度学习与其他方法(如强化学习、图神经网络)的融合将继续深化,系统将更加自主、适应性更强,同时更AI AI加透明和安全作为研究者和实践者,理解基础原理、跟踪前沿进展并负责任地应用这些技术,将是在这一快速发展领域保持竞争力的关键。
个人认证
优秀文档
获得点赞 0