还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
高级深度学习主题教学课件欢迎来到高级深度学习课程本课程将深入探讨深度学习领域的前沿技术与方法,帮助您掌握当前人工智能领域最先进的理论和实践知识通过系统学习,您将能够理解并应用复杂的深度学习模型,解决实际问题,并为人工智能的进一步发展做出贡献本课程面向已具备深度学习基础知识的学习者,将带您探索从优化算法、注意力机制到图神经网络、生成模型等多个高级主题,全面提升您的深度学习专业素养课程概述课程目标学习内容12本课程旨在培养学生对高级深度课程内容涵盖高级优化算法、注学习技术的全面理解和应用能力意力机制、架构、Transformer通过系统学习,学生将掌握前生成模型、图神经网络、强化学沿深度学习模型的理论基础和实习、模型压缩等前沿主题每个践技能,能够独立设计并实现复主题将结合理论讲解和实践案例杂的深度学习系统,解决实际问,确保学生能够深入理解并灵活题应用这些技术先修知识要求3学生应具备基础深度学习知识,包括神经网络原理、反向传播算法和基本优化方法同时,需要掌握编程和常用深度学习框架(如或Python PyTorch)的使用技能,以及线性代数和概率统计基础TensorFlow深度学习回顾神经网络基础神经网络是由多层神经元组成的计算模型,模拟人脑的信息处理方式每个神经元接收输入信号,通过权重计算加权和,再经过激活函数输出结果深度神经网络通常包含输入层、多个隐藏层和输出层,能够学习数据中的复杂非线性关系反向传播算法反向传播是训练神经网络的核心算法,通过链式法则计算损失函数对网络各参数的梯度算法首先进行前向传播计算预测值,然后计算损失,最后从输出层向输入层反向传播误差,更新各层参数这一过程使神经网络能够自动学习优化参数,提高预测精度常见激活函数激活函数为神经网络引入非线性特性,常用的包括Sigmoid(值域0-1,但存在梯度消失问题)、Tanh(值域-1至1)、ReLU(解决梯度消失问题,但可能导致神经元死亡)以及其变体LeakyReLU、ELU和GELU等不同激活函数适用于不同场景,选择合适的激活函数对模型性能至关重要优化算法进阶的局限性1SGD随机梯度下降SGD虽然是深度学习中最基础的优化算法,但存在明显局限性它对学习率敏感,容易陷入局部最小值或鞍点,且在损失函数曲面非对称时表现差对于高维参数空间,SGD的更新路径常呈之字形,收敛缓慢,难以有效处理稀疏梯度或适应不同参数的学习需求动量法2动量法通过引入历史梯度信息来改善SGD的优化过程算法累积过去梯度的指数移动平均值,使参数更新方向不仅考虑当前梯度,还参考历史趋势这种方法有效减少训练过程的震荡,加速收敛,并帮助逃离局部最小值动量法形象地理解为给梯度下降过程增加了惯性,平滑优化轨迹和3AdaGrad RMSPropAdaGrad算法为每个参数自适应调整学习率,常见参数获得较小更新,罕见参数获得较大更新然而,AdaGrad累积历史梯度平方,导致学习率单调递减,训练后期可能过早停止RMSProp改进了这一问题,使用指数移动平均而非简单累积,保持适当学习率,使算法在非凸优化问题上表现更佳优化器Adam算法原理优势与局限性Adam(Adaptive MomentAdam优化器具有计算效率高、参数更Estimation)优化器结合了动量法和新平稳、对超参数(如学习率)不敏感RMSProp的优点,同时维护两个动量等优势,使其成为深度学习中的默认选一阶矩(梯度的指数移动平均)和二阶择然而,Adam也存在一些局限性,矩(梯度平方的指数移动平均)一阶如在某些情况下泛化性能不如SGD,可矩类似于动量法中的速度项,二阶矩则能导致模型训练后期不稳定,以及在一用于自适应调整每个参数的学习率算些大规模视觉任务上表现不如动量SGD法还引入偏差修正机制,解决初始化阶等问题段估计不准确的问题实践应用在实践中,Adam通常是处理稀疏梯度、噪声大的数据或训练复杂模型的首选建议的初始学习率通常为
0.001,但应根据具体任务调整对于需要高泛化性能的视觉任务,可考虑使用AdamW(带权重衰减的Adam变体)或结合学习率调度策略对于某些特定任务,尝试不同优化器比较效果也很必要学习率调度策略固定学习率动态学习率衰减方法vs CyclicalLearning学习率Rates学习率衰减是动态调整学固定学习率策略在整个训习率的常用方法,包括阶循环学习率策略让学习率练过程中保持不变,简单梯衰减(按预设间隔降低在预设范围内周期性变化直观但难以平衡初期训练学习率)、指数衰减(学,而非单调递减这种方速度和后期精细调整的需习率按指数函数递减)和法有助于逃离局部最小值求相比之下,动态学习余弦退火(学习率按余弦和鞍点,提高训练效率率策略根据训练进程调整函数周期性变化)等这实现方式包括三角形循环学习率,使模型初期能快些方法帮助模型在训练初(学习率在最小值和最大速学习,后期进行微调,期快速逼近最优解区域,值之间线性变化)和余弦有效提高收敛速度和最终后期以较小步长精细探索退火循环(按余弦函数变性能,适用于复杂深度学,防止在最优解附近震荡化)研究表明,适当的习模型的训练循环策略可以减少训练时间并提高模型性能批量归一化的原理与优势训练时推理时的在不同网络结构中的应用BN vsBN BN批量归一化通过在训练和推理阶段的行为不同训练在卷积神经网络中通常应用于卷积层Batch NormalizationBN BN标准化每一层的输入分布,解决内部协时,使用当前批次数据计算统计量;推之后、激活函数之前,对每个通道独立变量偏移问题具体而言,计算每个理时,使用整个训练集累积的移动平均进行在循环神经网络中,的应用更BN BN内特征的均值和方差,进行统计量,确保推理结果不依赖批次大小复杂,需要考虑时序依赖性,常采用层mini-batch标准化后,再通过可学习的缩放和偏移这种差异导致当批次大小很小或数据归一化替代对于等注意Transformer参数恢复表达能力使网络训练更稳分布变化时可能产生性能差异理解并力模型,也需要特殊处理在BN BN定,允许使用更大学习率,减轻梯度消正确处理这一差异对模型部署至关重要等深层网络中,是实现稳定ResNet BN失爆炸问题,并具有正则化效果,提高训练的关键组件/模型泛化能力层归一化与实例归一化适用场景分析层归一化特别适用于序列长度可变的任务,如自然语言处理和循环神经网络,与批量归一化的区别已成为Transformer架构的标准组件2实例归一化则在风格迁移等图像生成任批量归一化在批次维度上计算统BN务中表现出色,能够移除实例特定的对计量,而层归一化在特征维度上LN比度和风格信息计算,实例归一化则在特征和空间1IN维度上计算,但保留批次维度独立这实现细节导致和不依赖批次大小,推理行LN IN层归一化实现时对每个样本独立计算每为与训练一致,而在小批量时性能BN层的均值和方差,对特征维度归一化,下降参数数量与特征维度相同实例归一化3则针对每个样本的每个通道独立计算统计量,适用于处理每个实例的独特特征两者都有各自的变体和应用策略残差网络ResNet残差连接的动机随着神经网络层数增加,梯度反向传播时容易出现消失或爆炸,导致深层网络难以训练,甚至出现退化问题(更深的网络反而性能下降)残差连接通过创建捷径,允许梯度直接流过网络,解决了这一问题基本思想是学习残差映射而非直接映射,使网络能够自动决定是否需要额外转换的网络结构ResNet核心是残差块,由两个或三个卷积层和一个跳跃连接组成跳跃连接将ResNet输入直接添加到块的输出,形成恒等映射当输入与输出维度不匹配时,通过卷积进行调整通常由初始卷积层、多个残差块组、全局池化和全连1×1ResNet接输出层组成,深度从层到层不等18152训练深层网络的挑战训练非常深的网络面临多重挑战梯度不稳定导致训练困难;参数增多带来过拟合风险和计算资源需求;网络深度增加使优化景观更复杂通过ResNet残差连接缓解了这些问题,但深层网络训练仍需考虑学习率设置、权重初始化、正则化和计算效率等因素变体ResNet通过增加网络宽度(通道数)而非深度来提升性能,减少层数的同时使用更多滤波器这种设计减少了训练时间,同时保持或提WideResNet高了准确率,证明网络结构的均衡对性能至关重要引入了基数概念,将残差块内的转换分为多个并行路径,类似于模块但结构更规则这种分组卷积设计增强ResNeXt cardinalityInception了模型表达能力,同时控制计算复杂度,在相同参数量下提供更好性能将的加法连接改为拼接连接,每一层接收所有前面层的特征图输入这种密集连接模式促进特征重用,减轻梯度消失问题,DenseNet ResNet显著减少参数量,并增强特征传播,使网络更易于训练且性能优异注意力机制基础注意力的直观理解软注意力硬注意力vs注意力机制模拟人类专注于信息特定部软注意力为所有输入元素分配连续权重分的能力,允许模型动态聚焦于输入的,通过加权求和生成上下文向量,完全重要元素它本质上是一种加权机制,可微,易于训练硬注意力则只选择一根据任务相关性为不同输入元素分配权个或少数几个输入元素,通常使用采样重这一机制使模型能够处理变长序列方法(如多项式采样)实现,需要特殊,并建立远距离依赖关系,已成为现代训练技术如强化学习前者被广泛应用深度学习架构的基础组件,特别是在处于等模型,后者适用于Transformer理序列数据时计算资源有限或需要显式解释的场景自注意力机制自注意力(自关注)允许序列中的每个元素与同一序列的所有元素交互,计算其关联程度它通过查询、键、值三组向量实现查询与所有键计算相似度得到注意力权重,然后用这些权重对值加权求和这一机制能够捕获序列内的长距离依赖关系,是架构的核心,为和计算机视觉领域带来了突破Transformer NLP架构Transformer位置编码注入序列位置信息1多头注意力机制2并行学习不同表示空间编码器解码器结构-3灵活处理各类序列转换任务架构革命性地摒弃了循环结构,完全基于注意力机制处理序列数据其编码器解码器结构由多层组成,每层包含多头自注意力和前馈神经Transformer-网络,以及残差连接和层归一化编码器处理输入序列,解码器生成输出序列,两者通过注意力机制连接多头注意力机制允许模型同时关注不同位置的信息,从不同表示子空间学习关联具体实现上,它将查询、键、值向量线性投影到多个子空间,分别计算注意力,再合并结果,增强了模型的表达能力由于不含有循环结构,必须通过位置编码注入序列位置信息标准实现使用正弦和余弦函数的固定编码,生成不同频率的波,使模型能够感Transformer知元素相对位置位置编码直接与输入嵌入相加,使位置信息融入模型计算的每一步模型BERT预训练任务设计模型结构与参数微调策略BERT采用两个创新的预训练任务掩码语言模BERT基于Transformer编码器堆叠而成,不包BERT采用预训练+微调范式,预训练获取通型MLM和下一句预测NSPMLM随机掩盖含解码器部分BERT-Base有12层,768维隐用语言理解能力后,针对特定任务微调微调过输入中15%的词元,训练模型预测这些被掩盖的藏层,12个注意力头,总计
1.1亿参数;BERT-程保留BERT参数,仅添加特定任务的输出层词,迫使模型学习双向上下文NSP则训练模型Large则有24层,1024维隐藏层,16个注意力对分类任务,使用[CLS]标记的表示;对序列标判断两个句子是否相邻,帮助捕获句间关系这头,总计
3.4亿参数模型输入包括词元嵌入、注,使用每个词元的表示;对问答任务,预测答两个任务使BERT能够学习强大的上下文表示,段嵌入和位置嵌入的和,能够同时处理单句和句案的起始和结束位置微调通常只需少量标注数为后续微调奠定基础对输入据即可取得优异性能系列模型GPT自回归语言模型1GPT系列采用自回归语言模型范式,预测序列中下一个词元的概率分布与BERT的双向注意力不同,GPT使用单向(掩码)自注意力,只能看到当前位置之前的上下文这一设计使GPT天然适合文本生成任务,模型通过最大化自回归似然函数进行训练,学习捕获文本数据的概率分布和语言规律和的创新2GPT-2GPT-3GPT-215亿参数首次展示了大规模语言模型的潜力,能够生成连贯的长文本GPT-31750亿参数则将模型尺寸扩大100倍,呈现出惊人的少样本学习能力GPT系列的主要创新在于证明了规模就是一切——通过增加参数量和训练数据量,模型能力显著提升,在不经过特定任务微调的情况下,也能执行各种语言任务零样本和少样本学习3GPT-3展示了强大的上下文学习能力,能够通过提示prompt实现零样本和少样本学习零样本学习指无需示例,仅通过任务描述就能执行任务;少样本学习则是仅给予几个示例这种能力源于大规模预训练过程中所学到的广泛知识和任务模式,使模型能够快速适应新任务,无需专门微调,极大提高了模型的实用性视觉Transformer模型结构图像分类应用与的性能对比ViT CNN视觉将架构在图像分类任务中,通过自注意力机制捕研究表明,当训练数据充足时,可以超越TransformerViT TransformerViT ViT从领域迁移到计算机视觉首先将图获图像各部分间的远距离依赖关系与相最先进的模型计算效率高,可扩展NLP ViTCNN CNNViT像分割成固定大小的非重叠图像块通常比,的全局建模能力更强,不受感受野大性好,训练更稳定然而,在数据有限的情况16×16ViT像素,类似于中的词元这些图像块经线小限制然而,对数据和计算资源需求更下,仍具有归纳偏置优势为结合两者优NLP ViTCNN性投影后加入位置编码,形成序列输入给标准高,通常需要在大规模数据集如点,出现了混合架构,如JFT-300M SwinTransformer编码器模型在序列开头添加一上预训练才能达到最佳性能在较小数据集上使用局部窗口注意力和借鉴TransformerConvNeXt个特殊的标记,其最终表示用于图像分直接训练时,通常会应用强数据增强和正则化设计理念的纯这些模型[CLS]Transformer CNN类技术在各种视觉任务上取得了卓越性能对比学习对比损失函数1将相似样本的表示拉近,不相似样本的表示推远框架SimCLR2通过数据增强创建正样本对,使用大批量和投影头优化训练和MoCo BYOL3引入动量编码器和队列机制,减少对大批量的依赖对比学习是一种自监督学习方法,通过构建正负样本对学习有意义的表示对比损失函数的核心思想是最大化正样本对(来自同一数据的不同视图)表示之间的相似度,同时最小化负样本对(来自不同数据)之间的相似度常用的损失函数包括InfoNCE、NT-Xent等,它们通过温度参数调整对比强度SimCLR框架通过数据增强生成同一图像的不同视图作为正样本对,使用非线性投影头将编码器输出映射到对比空间它需要大批量训练以包含足够负样本,但结构简单,证明了强数据增强和适当的训练技巧足以学习高质量表示MoCo通过维护一个动态队列存储历史样本的表示作为负样本,并使用动量更新的编码器生成队列样本表示,减轻了对大批量的依赖BYOL则更进一步,完全消除了负样本的需求,仅通过正样本对和预测任务实现表示学习,展示了对比学习的潜力与灵活性自监督学习在计算机视觉中的应用预训练任务设计下游任务迁移实际应用案例计算机视觉中的自监督预训自监督预训练模型可迁移到自监督学习已在多个视觉应练任务多种多样,包括解决多种下游任务常见方法包用中展示价值医学图像分拼图、预测图像旋转角度、括特征提取(冻结预训练析(减轻标注负担)、视频恢复图像颜色、图像修复等骨干网络)、微调(在下游理解(利用时序信息)、三这些任务都基于一个共同任务上更新全部或部分预训维视觉(点云和体积数据处原则构造一个只能从数据练参数)、线性探测(仅训理)以及跨模态学习(图像内部结构中解决的代理任务练下游任务头部)研究表与文本联合表示)例如,近年来,对比学习成为主明,高质量的自监督预训练在胸部光分析中,自监督X流方法,通过学习同一图像在标注数据有限时尤为有效预训练可利用大量无标签数不同视图间的一致性,获取,有时甚至可以超越有监督据提升模型性能,降低对专语义丰富的视觉表示预训练,特别是在域迁移和家标注的依赖细粒度任务中生成对抗网络基础GAN的基本原理生成器与判别器训练过程与挑战GAN生成对抗网络由生成器和判别器生成器通常是一个从低维潜在空间到高训练面临多种挑战模式崩溃(生GAN GAN两个网络组成,通过博弈式训练实现生维数据空间的映射网络,如从随机噪声成器只产生有限种类样本)、训练不稳成建模生成器试图生成逼真的假样本生成图像其结构常采用转置卷积实现定(梯度消失或爆炸)、收敛判断困难以欺骗判别器,判别器则努力区分真实上采样判别器则是一个分类网络,输(缺乏客观评估指标)为解决这些问样本和生成的假样本这种对抗训练过出样本为真实数据的概率两个网络交题,研究者提出了多种改进,如程可以看作一个极小极大博弈,最终目替训练固定生成器训练判别器几步,改善稳定性,条件Wasserstein GAN标是生成器能产生与真实数据分布一致再固定判别器训练生成器一步,通过梯增强可控性,以及各种正则化和归GAN的样本,而判别器无法区分真假度下降优化各自的目标函数一化技术尽管如此,训练仍被认GAN为是深度学习中较为棘手的问题之一条件GAN条件生成的概念模型及其应用Pix2Pix CycleGAN条件通过向生成器和判别器同时是一种有监督的图像到图像转换模型解决了无配对数据的图像转换问题GANCGAN Pix2Pix CycleGAN提供条件信息,实现对生成过程的控制条件,使用配对数据训练模型基于条件,将,通过引入循环一致性损失实现域间双向映射GAN可以是类别标签、文本描述、参考图像或其他源域图像作为条件输入给生成器,通过模型包含两组,分别学习和U-Net GANA→B B→A结构化信息这种设计使模型能够学习条件与架构生成目标域图像判别器采用的转换,并要求经过连续转换后能回到原始图PatchGAN生成数据之间的映射关系,生成满足特定条件设计,关注局部图像块的真实性结像这一创新使模型能够在没有一一对应样本Pix2Pix的样本极大扩展了的应用范围,合了损失和重建损失,在边缘检测、图的情况下学习跨域转换,成功应用于风格迁移CGAN GAN GAN L1使生成过程可控,成为众多后续变体的基像上色、标签到照片等多种任务中表现出色、季节变换、物体转换等任务,为在计算GANGAN础机视觉中的应用开辟了新方向架构StyleGAN风格混合机制StyleGAN的核心创新是引入了基于AdaIN自适应实例归一化的风格混合机制它首先将潜在编码z通过映射网络转换为中间潜在编码w,再通过AdaIN层控制每一层的风格这种设计将内容和风格分离,允许在不同分辨率上混合不同图像的风格通过这种机制,StyleGAN能够实现精细的特征控制,如调整面部年龄、表情等特定属性渐进式增长训练StyleGAN采用渐进式增长策略,从低分辨率开始,逐步增加生成器和判别器的层数,生成更高分辨率的图像这种方法使模型首先学习大尺度结构,再逐渐添加细节,显著提高训练稳定性和效率每增加一层,都有一个过渡期平滑融合新层,避免训练震荡渐进式增长使StyleGAN能够生成前所未有的高分辨率1024×1024逼真图像高质量图像生成StyleGAN通过多项技术改进实现了超高质量图像生成噪声注入机制在不同分辨率添加随机变化,模拟真实图像的自然细节;截断技巧通过限制w的范围控制生成图像的多样性与质量平衡;正则化策略减少水滴状伪影StyleGAN2进一步解决了图像中的水滴伪影和身份特征纠缠问题,StyleGAN3则专注于旋转等变性,持续推动生成图像质量的边界扩散模型算法DDPM去噪扩散概率模型是实现扩散模型DDPM的代表算法它通过训练神经网络预测每个噪声级别的噪声,并以此来指导逆扩散过程扩散过程与逆扩散2采样时,从纯噪声开始,通过多步去噪生成数据训练目标是最小化预测噪声与实际扩散模型包含前向扩散过程和逆扩散过程添加噪声之间的均方误差前向过程逐步向数据添加高斯噪声,直到完1全破坏原始信号;逆扩散则学习如何逐步去与的比较除噪声,恢复原始数据这一框架建立在非GAN平衡热力学原理上,可视为一种基于分数的相比,扩散模型训练更稳定,不存在模GAN生成模型式崩溃问题,可以生成更多样的样本虽然推理速度较慢(需要多步采样),但生成质3量通常更高近期技术如和引导采样进DDIM一步提升了性能,使扩散模型在图像、音频和视频生成领域取得了突破性成果变分自编码器VAE的原理与结构重参数化技巧潜在空间分析VAE变分自编码器VAE是一种概率生成模型,将数据重参数化是VAE的关键创新,解决了随机采样操作VAE的潜在空间具有良好的结构和连续性,支持潜编码为潜在空间中的概率分布而非单点VAE的编不可微的问题具体而言,不直接从分布中采样,在空间插值、属性操控等应用潜在空间的正则化码器输出潜在变量的均值和方差,通过重参数化采而是将采样过程表示为一个确定性函数加随机噪声使得相似数据点在潜在空间中接近,创造了平滑的样得到潜在表示,解码器则将潜在表示重建为原始z=μ+σ·ε,其中ε来自标准正态分布这种技表示然而,VAE生成的图像往往比GAN模糊,数据VAE训练目标结合重建损失(衡量重建质量巧允许梯度通过均值和方差反向传播,使得整个模这是由于其对所有点的重建损失均等对待,以及后)和KL散度(使潜在分布接近标准正态分布),型可以端到端训练,是变分推断在深度学习中应用验崩溃等问题近年来,研究者通过改进损失函数实现在数据压缩和生成之间的平衡的重要突破、分层设计等方法提升VAE的表现图神经网络基础图卷积网络GCN将卷积操作推广到图结构数据1消息传递机制2节点间信息交换与聚合图数据表示3节点、边和特征的表示方法图数据表示是理解图神经网络的基础图通常由节点集合、边集合和相应特征组成在实现中,图可表示为邻接矩阵(描述节点连接关系)和特征矩阵(包含节点或边的属性)不同类型的图(有向/无向、同质/异质、静态/动态)需要不同的表示方法,对模型设计产生直接影响消息传递是图神经网络的核心机制,它定义了节点如何从邻居获取信息并更新自身表示典型的消息传递包括三个步骤消息计算(边上的信息转换)、消息聚合(来自不同邻居的信息综合)和节点更新(结合当前表示和聚合消息)不同的图神经网络主要在这三个操作的具体实现上有所区别图卷积网络GCN是最基础的图神经网络模型,它将卷积操作从规则网格(如图像)推广到不规则图结构GCN通过对节点的一阶邻域进行特征平均或加权和,实现特征传播和转换每一层GCN使节点表示融合更远邻居的信息,类似于扩大感受野,能够捕获图中的结构信息图注意力网络GAT注意力机制在图上的应用GAT vsGCN图注意力网络GAT将注意力机制应用与图卷积网络GCN相比,GAT有几个于图结构数据,允许节点动态确定邻居关键区别GCN使用基于图结构的固定的重要性每个节点通过可训练的注意权重(如度归一化),而GAT使用学习力机制,为不同邻居分配不同权重,实的注意力权重;GCN对所有邻居一视同现自适应的邻域聚合这种设计使模型仁,GAT能区分重要邻居;GAT使用多能够关注任务相关的节点,忽略噪声连头注意力机制提升稳定性和表达能力接,为每个节点构建最优的局部感受野实验表明,GAT在多种图学习任务上优,从而提升图表示学习的表现力于GCN,特别是当节点的局部结构对任务至关重要时实际应用场景GAT在多种领域展现出优势社交网络分析(识别影响力用户,预测信息传播);推荐系统(捕获用户-物品交互中的重要性差异);生物信息学(蛋白质相互作用网络分析,药物发现);知识图谱(关系预测,实体分类);交通预测(动态调整路网中节点影响)GAT的可解释性也是其优势,注意力权重可视化有助于理解模型决策过程图表示学习节点嵌入方法和图池化技术DeepWalk Node2Vec节点嵌入旨在将图中的节点映射到低维首次将应用于图图池化是处理整图任务(如图分类)的DeepWalk word2vec向量空间,保留节点间的结构关系和相数据,通过无偏随机游走生成节点序列关键技术,目的是将变大小的图结构压似性早期方法如和,学习节点表示则引入偏缩为固定大小的表示主要方法包括DeepWalk Node2Vec受自然语言处理中词嵌入技置随机游走策略,通过参数返回概率基于聚类的池化(如),将节Node2Vec pDiffPool术启发,通过随机游走在图上生成句子和前进概率平衡深度优先和广度优先点聚为超节点;基于排序的池化(如q,再使用模型学习节点表示搜索,灵活捕获同质性结构等价和同构),选择最重要的节点子集;Skip-gramSAGPool这些方法在保留节点邻域结构方面表性社区结构这种设计使以及全局池化(如求和、平均、最大值Node2Vec现出色,能捕获一阶和高阶相似性,为能够适应不同类型的图分析任务,在多),直接聚合所有节点信息高效的图下游任务如节点分类和链接预测提供有个基准测试中展现出优越性能池化应保留图的关键结构特征,同时降效特征低计算复杂度强化学习基础回顾值函数与策略值函数评估状态或状态动作对的长期价值,-包括状态值函数和动作值函数策Vs Qs,a略定义在每个状态下选择动作的概率分πa|s框架MDP布最优值函数对应最优策略,强化学习的目2标就是找到或近似这一最优策略,使累积期望马尔可夫决策过程是强化学习的MDP奖励最大化数学基础,由状态空间、动作空间、转移概率、奖励函数和折扣因子组成MDP1算法假设系统满足马尔可夫性质,即未来状态Q-learning仅依赖于当前状态和动作,与历史路径无是一种无模型时序差分算法,无Q-learning关这一框架使复杂的序贯决策问题可以需环境模型直接学习最优函数算法通过交Q3用动态规划方法求解互收集经验,基于贝尔曼最优方程迭代更新Q值Qs,a←Qs,a+α[r+保γ·maxaQs,a-Qs,a]Q-learning证在合适条件下收敛到最优策略,是强化学习的基础算法深度网络Q DQN的创新点1DQN深度Q网络DQN首次成功将深度学习与Q-learning结合,使用神经网络参数化Q函数,实现大规模状态空间的强化学习DQN的核心创新在于解决了神经网络与Q-learning结合的不稳定性问题,使得智能体能够仅从像素输入学习玩Atari游戏,达到甚至超越人类水平,标志着深度强化学习领域的重大突破经验回放2经验回放是DQN的关键技术之一,它将智能体与环境交互产生的经验(状态、动作、奖励、下一状态)存储在回放缓冲区中,训练时随机采样批次经验进行学习这一机制打破了样本间的时序相关性,增加了数据利用效率,减轻了过拟合风险经验回放还使得稀有但重要的经验能够被多次利用,促进价值函数的稳定学习目标网络3目标网络是DQN的另一项重要稳定性措施,它通过维护Q网络的周期性副本,用于计算TD目标中的下一状态值这一设计将目标计算与当前网络参数解耦,防止目标值随每次更新而变化导致的不稳定性目标网络参数定期(如每N步)从主网络复制更新,这种延迟更新机制有效减缓了训练过程中的抖动和发散风险策略梯度方法算法架构REINFORCE Actor-CriticREINFORCE是最基本的策略梯度算法,Actor-Critic方法结合了策略梯度和值函直接优化参数化策略函数该算法基于数逼近的优点,由两个网络组成Actor策略梯度定理,通过蒙特卡洛方法采样网络学习策略,Critic网络学习值函数并完整轨迹,计算梯度估计并更新策略参指导Actor训练这种架构使用TD估计数REINFORCE的核心思想是增强导致替代蒙特卡洛回报,降低方差;同时保高回报的动作概率,减少导致低回报的留了策略梯度的直接策略优化能力动作概率虽然概念简单,但算法存在Critic通过减少策略梯度的方差提高学习高方差问题,需要大量样本才能稳定学稳定性和样本效率,是深度强化学习中习,因此常结合基线函数减少方差最常用的框架之一算法PPO近端策略优化PPO是一种先进的策略梯度方法,平衡了样本效率和实现简单性PPO通过裁剪目标函数约束策略更新幅度,防止过大更新破坏训练稳定性相比信任区域方法TRPO,PPO计算更高效,易于实现,同时保持性能PPO已成为最广泛使用的强化学习算法之一,在机器人控制、游戏和模拟环境中取得了卓越成果模型基强化学习环境模型学习模型基强化学习中的环境模型旨在预测状态转移和奖励函数,可以是确定性的(预测下一状态和奖励)或概率性的(预测分布)模型可通过监督学习方式从真实交互数据训练,常用架构包括前馈网络、循环网络或Transformer好的环境模型应能准确预测短期动态,并捕获长期因果关系,同时适当表达不确定性,防止模型偏差导致错误决策算法Dyna-QDyna-Q是经典的模型基强化学习算法,它结合了直接强化学习和基于模型的规划算法交替进行两个过程从环境中收集真实经验并更新Q函数和环境模型;使用模型生成模拟经验并更新Q函数这种方法显著提高了样本效率,减少了与环境交互所需的步数,同时保持了直接强化学习的稳健性,为解决复杂序贯决策问题提供了有效途径想象力增强方法想象力增强是现代模型基强化学习的核心理念,智能体使用学习的模型在想象中进行推理和规划代表方法包括MuZero(无需显式建模转移函数,直接学习用于规划的隐式模型),Dreamer(在潜在空间规划,处理连续状态和动作),以及MBPO(通过有限步数展开减轻模型误差累积)这些方法在许多复杂环境中达到了最先进性能元学习问题定义与动机算法算法MAML Reptile元学习(学会学习)旨在通过多个相关任务模型无关元学习是一种经典元学习方是的一阶近似版本,通过多步梯MAML ReptileMAML的学习经验,提高模型在新任务上的学习效率法,寻找对多个任务都敏感的参数初始化,使度下降找到任务特定参数,然后向这些参数方其核心动机是模拟人类快速适应新情境的能得少量梯度更新后能在新任务上取得良好性能向更新元模型虽然不直接优化快速适Reptile力,解决深度学习中样本效率低、泛化能力差算法包含内循环(针对具体任务进行梯度更应性能,但实证上效果接近,同时计算MAML的局限元学习将学习过程分为元训练(跨多新)和外循环(元优化,使内循环后的性能最效率更高(不需要计算二阶导数)的Reptile个任务学习通用知识)和元测试(快速适应新大化)不依赖特定模型架构,适用范简洁实现和可扩展性使其在大规模元学习应用MAML任务),通过设计特殊的学习算法和模型架构围广,但计算成本高(需要二阶导数)且容易中更为实用,尤其适合计算资源有限的场景,实现对学习过程本身的优化受到元训练任务分布的限制少样本学习原型网络1为每个类别学习一个原型表示,基于距离度量分类新样本关系网络2学习比较样本对的关系函数,通过相似度评估实现分类在少样本学习中的应用MAML3通过元学习得到易于在少样本任务上快速适应的初始化参数原型网络是少样本学习的经典方法,它为每个类别计算一个原型向量(通常是该类支持样本的均值)在推理时,新样本被分配到最近的原型所代表的类别该方法简单高效,利用嵌入空间中的欧几里得距离或余弦相似度作为度量标准,无需复杂的微调过程,在许多少样本分类任务上表现优异关系网络通过学习一个度量函数,直接比较查询样本与支持样本的相似度与固定度量标准不同,关系网络使用神经网络学习一个非线性的相似度函数,能够捕获更复杂的关系该网络接收样本对的连接特征,输出相似度评分,实现端到端训练这种方法在复杂域上的少样本学习中展现出优势MAML等元学习方法在少样本学习中通过学会如何快速学习解决样本稀缺问题MAML找到一个对新任务敏感的参数初始化,只需几步梯度更新即可适应这种方法在少样本分类、回归等任务上表现出色,特别是当新任务与元训练任务分布相似时其灵活性使其成为解决各种少样本学习问题的强大工具迁移学习高级主题多任务学习多任务学习同时优化多个相关任务,通过共享表示和正则化实现知识迁移关键挑战包括任务间平衡(通过任务权重、梯度归一化等解决领域自适应)和负迁移(通过特征选择、关注机制等缓解2)高级技术如软参数共享和任务关系学习能领域自适应处理源域和目标域分布不同但任务够自适应确定共享程度,提高多任务学习在复相同的情况技术包括域不变特征学习(如杂场景中的效果域对抗训练,使特征分布器无法区分域来源)1;域映射(将源域数据转换为看起来像目标域终身学习);和自训练(利用目标域的伪标签)这些方法帮助模型克服域偏移问题,实现从有标签终身学习(持续学习)使模型能够在不忘记旧源域到无标签目标域的知识迁移知识的前提下学习新任务主要策略包括正则化方法(如,限制重要参数变化);重3EWC放方法(存储或生成过去任务的样本);参数隔离(为新任务分配新参数)这一领域面临灾难性遗忘与正向迁移的平衡问题,是迈向通用人工智能的重要研究方向神经架构搜索NAS搜索空间设计1神经架构搜索NAS的搜索空间定义了可能的网络架构集合,直接影响搜索效率和结果质量常见搜索空间包括全局搜索空间(设计完整网络,如连接模式、层数等);基于单元的空间(设计重复单元,如设计单个卷积块然后堆叠);和分层搜索空间(先确定宏观结构,再优化微观操作)设计良好的搜索空间应包含高性能架构,同时保持计算可行性搜索策略2搜索策略决定如何在搜索空间中探索架构主要方法包括强化学习(将架构生成视为序列决策,使用控制器网络预测架构);进化算法(维护架构群体,通过变异和交叉进化);梯度优化(使架构选择可微,直接优化);随机搜索和贝叶斯优化(适用于低维搜索空间)不同策略在探索-利用平衡、并行化能力和计算需求上各有特点和算法3DARTS ENASDARTS可微分架构搜索通过连续松弛搜索空间使架构选择可微,将操作选择建模为混合操作的加权和,直接使用梯度下降优化权重这种方法大幅降低了计算开销,但可能受到优化不稳定性影响ENAS高效神经架构搜索通过参数共享加速强化学习搜索,让不同架构重用模型权重,显著减少搜索时间,但可能导致次优评估这两种算法代表了NAS效率优化的两个重要方向最新进展AutoML超参数优化超参数优化研究如何自动选择模型的最佳超参数配置现代方法包括贝叶斯优化(使用代理模型预测性能,平衡探索与利用)、多保真度优化(从低计算成本配置快速筛选,再在有前景的配置上投入更多资源)、群体搜索(并行评估多个配置)以及元学习优化(从过去任务学习超参数搜索策略)这些方法大大提高了超参数优化的效率,使得更复杂模型的调优成为可能自动特征工程自动特征工程旨在减少特征设计的人工干预主流技术包括特征选择(识别最相关特征子集);特征转换和生成(通过数学运算创建新特征);表示学习(使用无监督方法学习数据表示)近期进展结合了传统技术与深度学习,如自动生成特征交互、使用预训练模型提取通用特征以及通过神经架构搜索优化特征提取管道,显著提高了特征工程的自动化程度全流程系统AutoML全流程AutoML系统集成了数据预处理、特征工程、模型选择、超参数优化和后处理等完整机器学习流程的自动化代表系统如Google的AutoML Tables、H2O AutoML和Auto-sklearn等,提供端到端解决方案,使非专家用户也能构建高质量模型最新系统强调可扩展性(处理大数据集)、元学习(利用历史信息加速搜索)以及多目标优化(平衡精度、速度、内存等多种需求),进一步降低了AI应用的技术门槛模型压缩与加速知识蒸馏网络剪枝量化技术知识蒸馏是一种模型压缩技术,通过将网络剪枝通过移除深度神经网络中不重神经网络量化将高精度浮点参数(通常大型教师模型的知识转移到小型学生要的连接或结构来减小模型大小剪枝为位)转换为低精度表示(如位整328模型中这一过程不仅训练学生模型匹方法可分为非结构化剪枝(移除单个权数或更低)量化分为后训练量化(直配教师的最终输出(硬目标),还让学重)和结构化剪枝(移除整个通道或层接转换预训练模型)和量化感知训练(生学习教师的中间表示和输出分布(软)重要性评估标准包括基于幅度的标在训练过程中模拟量化效果)常见技目标)软目标通常使用高温度的准、基于梯度的标准以及基于对损失影术包括均匀量化、非均匀量化和混合精生成,包含丰富的类间相似度响的标准有效的剪枝通常需要迭代进度量化量化不仅减少模型存储需求,softmax信息高级蒸馏方法进一步探索了特征行剪枝后重新训练,以恢复性能,然还能加速推理,特别是在支持低精度计蒸馏、关系蒸馏和在线蒸馏等技术,使后继续剪枝精心设计的剪枝可以减少算的硬件上最先进的方法能将模型压学生模型能够在保持较高性能的同时显的参数,同时保持接近原始的缩至原始大小的,性能损失极小50-90%1/4著减小尺寸精度低比特量化定点量化混合精度训练12定点量化将浮点数转换为整数表示,通混合精度训练利用不同数据类型的优势常使用线性映射q=roundr/s+z,在训练过程中结合FP16(或更低)和,其中r是实数值,s是缩放因子,z是FP32精度典型实现在前向传播和反零点偏移,q是量化值这种表示法允向传播中使用FP16计算,同时维护许使用整数算术替代浮点运算,显著提FP32主权重副本,并使用损失缩放防高计算效率量化参数(缩放因子和零止梯度下溢这种方法可将内存使用减点)可基于整个张量、单个通道或更细少一半,训练速度提高2-3倍,在现代粒度层次确定,不同粒度在压缩率和精GPU上尤为有效混合精度已成为大型度之间有不同权衡模型训练的标准实践,是对抗计算瓶颈的关键技术量化感知训练3量化感知训练QAT在训练过程中模拟量化效果,使网络适应量化引起的精度损失具体实现上,前向传播时插入模拟量化操作(量化再反量化),而反向传播时使用直通估计(straight-through estimator)处理不可微的量化操作QAT允许网络降至4位甚至2位精度,同时保持接近全精度的性能最新研究还探索了数据自由量化和参数高效量化等技术,进一步降低量化实施门槛稀疏化与结构化剪枝细粒度粗粒度剪动态剪枝彩票假设vs枝动态剪枝是一种在推理时彩票假设提出密集神经网细粒度剪枝(非结构化剪根据输入自适应调整网络络中存在特定稀疏子网络枝)移除单个权重连接,结构的技术不同于静态(中奖彩票),这些子可实现高压缩率,但产生剪枝产生固定结构,动态网络在训练开始时就确定不规则稀疏模式,难以在剪枝为不同输入激活不同,经过训练能达到与完整常规硬件上获得实际加速子网络,简单样本使用轻网络相当的性能这一发粗粒度剪枝(结构化剪量级路径快速处理,复杂现挑战了网络过参数化的枝)移除整个结构单元(样本则使用更完整的网络必要性,表明合适的初始如通道、滤波器),虽然这种方法通过条件计算化和结构可能比模型大小压缩率较低,但生成规则降低平均推理成本,同时更重要后续研究扩展了稀疏结构,更易于硬件加保持复杂样本的处理能力这一发现,探索了可迁移速实现两种方法的结合实现方式包括早退机制彩票、早期剪枝识别和隐(如块稀疏剪枝)旨在平、动态通道选择和自适应式彩票等概念,为神经网衡压缩率和硬件友好性宽度网络等络设计和优化提供了新视角神经网络可解释性特征可视化通过优化输入图像以最大化特定神经元激活,揭示网络各层学习到的特征这种方法展示了低层次神经元检测边缘和纹理,而高层次神经元识别复杂物体和场景组件和特征归因是这一领域的代表性技术,为理解网络内部表示提供了直观视角DeepDream显著性图(热力图)标识对模型预测贡献最大的输入区域常用方法包括梯度可视化、梯度输入、集成梯度和等这些技术计算输入特征对×Grad-CAM输出的敏感度,生成视觉解释,帮助验证模型是否关注正确的图像区域,对提高用户信任和诊断模型错误至关重要和是模型无关的可解释性方法通过在输入样本周围拟合局部可解释模型近似复杂模型;则基于合作博弈论,为每个特征分配对LIME SHAPLIME SHAP预测的贡献值这些方法提供稳健的解释框架,平衡解释的准确性、一致性和可理解性,已广泛应用于高风险领域如医疗诊断和金融决策系统对抗样本与鲁棒性对抗攻击方法防御策略认证鲁棒性对抗攻击通过向输入添加精心设计的扰对抗防御旨在增强模型抵抗对抗样本的认证鲁棒性方法提供对模型抵抗能力的动,误导神经网络做出错误预测,即使能力主要策略包括对抗训练(将对理论保证,确保在特定扰动范围内不会扰动对人眼不可察觉主要方法包括抗样本加入训练数据);随机化(在推出现错误预测这类方法包括精确验证基于梯度的攻击(如、),理过程中添加随机性减轻攻击效果);(基于混合整数线性规划或可满足性模FGSM PGD利用梯度信息最大化损失;黑盒攻击(输入变换(如压缩、特征压缩);理论)和鲁棒度下界估计(如、JPEG IBP如边界攻击、查询攻击),无需访问模以及防御蒸馏(使用软标签训练更平滑、)认证防御结合CROWN DeepPoly型梯度;以及迁移攻击,利用攻击可迁的模型)其中对抗训练是目前最有效认证方法和特殊训练技术,生成可证明移性在未知模型上实施这些攻击揭示的防御方法,但计算成本高且可能影响鲁棒的网络虽然这些方法提供强保证了深度学习系统的脆弱性,推动了鲁棒标准精度,防御与攻击间的军备竞赛,但通常仅适用于小型网络或受限的威性研究仍在继续胁模型,扩展性仍是关键挑战隐私保护机器学习差分隐私差分隐私是一种数学框架,通过向算法输出添加精心校准的噪声,确保模型训练过程不会泄露任何单个数据点的信息在深度学习中,常通过梯度扰动实现计算每个批次梯度,裁剪确保敏感度有界,添加噪声后更新模型这种方法提供可量化的隐私保证,由隐私预算ε控制,ε越小表示隐私保护越强然而,强隐私保护通常会降低模型精度,隐私-效用权衡是该领域的核心研究问题联邦学习联邦学习允许多方在不共享原始数据的情况下协作训练模型典型流程是中央服务器分发初始模型,各客户端使用本地数据训练,提交模型更新(非原始数据),服务器聚合更新形成新全局模型主要挑战包括通信效率(通过压缩和部分参与缓解)、不平衡数据分布(需特殊优化算法)以及隐私保护(常结合差分隐私或同态加密增强安全性)联邦学习已在移动设备和医疗领域等隐私敏感场景广泛应用安全多方计算安全多方计算MPC技术允许多方联合计算函数,同时保持各自输入的隐私在机器学习中,常用MPC协议包括秘密共享(将数据分割为无信息片段分发给各方)、同态加密(允许对加密数据进行计算)和混淆电路(将函数表示为可安全评估的电路)这些技术支持隐私保护推理(模型和数据均保密)和安全模型训练(多方数据保密协作)虽然提供强安全保证,但MPC通常引入显著计算和通信开销,优化效率是研究重点因果推断与机器学习因果图反事实推理因果发现算法因果图(或贝叶斯网络)通过有向无环图表示反事实推理考虑如果条件不同,结果会怎样因果发现算法从观测数据中推断因果关系,主变量间的因果关系,节点代表变量,边表示直的问题,超越了观察数据的范围实现方法包要包括三类基于约束的方法(如PC算法),接因果影响这种图形化表示使用d-分离准则括基于模型的方法(通过结构因果模型模拟干利用条件独立性测试重建图结构;基于分数的编码条件独立性,支持干预和反事实推理因预)和基于规则的方法(使用逻辑规则推导)方法(如GES),优化衡量图与数据拟合度的果图构建方法包括基于领域知识的手动构建和在机器学习中,反事实推理用于可解释性(分数;以及基于功能性的方法(如LiNGAM)基于观测数据的自动发现算法与传统机器学如果输入改变,预测会如何变化)、公平性,利用数据生成过程的功能形式近期研究将习主要关注相关性不同,因果图明确区分相关评估(识别偏见影响)以及稳健泛化(学习不深度学习与因果发现结合,处理高维非线性关与因果,为决策支持和稳健预测提供了基础变特征)这种思维方式补充了传统统计学习系虽然这些算法提供了自动发现因果关系的,帮助构建更可靠的人工智能系统可能性,但通常需要强假设,结果解释需谨慎神经常微分方程连续时间模型可逆神经网络ODE-Net神经常微分方程()将残差网络的连续时间模型将神经网络扩展到时间维度上的连可逆神经网络()Neural ODEInvertible NeuralNetworks离散层视为连续动力系统的欧拉离散化,用参数续表示除外,这类模型还包括随设计为双向可计算,通过特殊架构(如、Neural ODENICE化的常微分方程替代显式层堆叠模型定义状态机微分方程(加入噪声项模拟不确定性)、)确保输入可从输出精确重建这类网RealNVP随时间演化的导数场,通过求解器获得输(处理不规则时间序列)等这些络与常微分方程密切相关,可视为保体ODE NeuralCDE出状态这种连续深度模型具有内存效率高(反模型特别适合建模动态系统、不规则采样时间序流的离散化可逆网络在生成建模Hamiltonian向传播只需记录终止状态)、自适应计算(求解列和物理过程,能够自然融合领域知识(如物理(标准化流)、特征可视化和内存高效反向传播器可根据需要调整评估次数)等优势,为深度学守恒律)连续时间观点也启发了新的正则化和等方面表现出色理论上,它们允许对模型行为习提供了新的理论视角和建模框架训练方法,如基于能量的训练和稳定性约束进行更深入的数学分析,并在保持信息流方面提供保证,成为连接深度学习与动力系统理论的重要桥梁图像分割高级主题1Mask R-CNNMask R-CNN扩展了Faster R-CNN目标检测框架,添加了实例分割分支,同时预测物体边界框和像素级掩码关键创新包括RoIAlign层(保持精确空间信息),掩码预测分支(全卷积网络,为每个实例预测二值掩码)以及多任务训练策略(联合优化检测和分割目标)Mask R-CNN以其精度和灵活性成为实例分割的基准方法,还支持人体姿态估计等其他像素级任务,展示了两阶段检测-分割框架的强大能力全景分割2全景分割统一了语义分割(分类每个像素)和实例分割(区分同类物体),为每个像素分配类别和实例ID主要方法包括自顶向下方法(先检测实例,再填充背景);自底向上方法(基于像素嵌入聚类形成实例);以及联合学习方法(同时预测语义和实例信息)最新研究如Panoptic FPN和Panoptic Deeplab通过多分支架构和融合策略,在保持精度的同时提高了效率,推动了全景分割在自动驾驶和场景理解中的实际应用实例分割最新进展3实例分割领域的最新进展包括多方向创新一阶段方法(如YOLACT、SOLOv2)直接从特征图预测实例掩码,减少计算开销;Transformer架构(如Mask2Former)引入注意力机制处理远距离依赖;基于查询的方法将分割问题重新表述为集合预测;弱监督和半监督方法减少标注需求;以及主动学习策略提高标注效率这些技术突破使实例分割在准确性、速度和实用性方面都取得了显著提升,为复杂场景理解提供了更强大的工具目标检测前沿50版本锚点依赖YOLO从YOLOv1到YOLOv5/YOLO-X,每一代都带来显著性能和Anchor-free检测器如FCOS和CenterNet摒弃了预定义锚框效率提升,使一阶段检测器成为实时应用的首选,直接预测目标中心点和属性,简化训练流程并提高检测精度1端到端流程DETR等端到端检测器使用Transformer架构,消除NMS后处理,将目标检测重新表述为直接集合预测问题YOLOYou OnlyLook Once系列经历了显著演进YOLOv1首次提出单阶段检测思想,YOLOv2引入了批量归一化和锚框,YOLOv3使用多尺度特征图,YOLOv4引入了一系列训练技巧,YOLOv5优化了生产部署,YOLO-X重新设计了网络架构,每一代都显著提升了速度与准确性平衡这一系列创新使YOLO成为实时目标检测的标准选择Anchor-free检测器通过消除预定义锚框简化了检测流程FCOS直接在特征图上预测每个位置的目标类别和边界框回归值;CenterNet将目标表示为中心点,并预测相关属性;CornerNet通过预测目标的角点对形成检测结果这些方法避免了复杂的锚框设计和匹配过程,减少了超参数数量,提高了检测性能特别是对小目标和密集场景的处理能力端到端目标检测使用Transformer架构消除传统流程中的手工组件DETR首次将目标检测表述为集合预测问题,利用编码器-解码器结构直接输出固定数量的预测,无需NMS后处理Deformable DETR通过可变形注意力提高了收敛速度;Sparse R-CNN结合稀疏候选框和迭代细化;DAB-DETR改进了通过查询学习这些方法代表了检测器设计的新范式,均衡了性能和计算效率视觉深度学习3D点云处理网络目标检测神经辐射场3D NeRF点云处理网络处理来自LiDAR3D目标检测定位和分类三维神经辐射场NeRF是一种隐或深度相机的三维点集数据空间中的物体,输出3D边界式三维场景表示,使用多层感开创性工作PointNet通过逐框主要方法包括点云为主知机建模空间中每一点的体积点MLP和全局池化处理无序(直接处理点云数据,如密度和视角相关颜色通过体点集,实现排列不变性VoxelNet、SECOND);多积渲染技术,NeRF能从新视PointNet++引入层次采样和模态融合(结合点云和图像,角合成照片级真实图像从初分组,捕获局部结构信息后如MVX-Net、始NeRF起,研究者提出了动续研究如DGCNN引入图卷积PointPainting);以及图像态NeRF(建模运动场景)、处理局部邻域,Point为主(从单目或立体图像估计即时NeRF(加速训练)、可Transformer应用自注意力3D信息,如FCOS3D、编辑NeRF(支持场景编辑)机制捕获点间关系这些网络MonoDETR)这一领域面等变体NeRF及其扩展彻底已广泛应用于3D分类、分割临的挑战包括点云稀疏性、远改变了三维重建和新视图合成、配准等任务,为自动驾驶、距离目标检测和实时性能需求领域,为虚拟现实、电影制作机器人导航和AR/VR提供支,解决这些问题对自动驾驶和和虚拟试衣等应用提供了强大持机器人系统至关重要工具视频理解时序动作定位时序动作定位(动作检测)旨在识别视频中动作的起始和结束时间主要方法包括基于滑动窗口(在不同尺度窗口内分类动作);基于提议(生成候选区间再分类和细化);以及基于逐帧(预测每帧的动作边界分值)最新研卷积网络23D究如ActionFormer和TemporalNet采用Transformer架构和对比学习改进时序建模,显著提升了长视频、复杂3D卷积网络扩展了标准2D卷积,处理时空数据立方体场景和精细动作边界的检测性能C3D和I3D等经典架构使用3D卷积核在空间和时间维度同时执行特征提取,能够捕获运动模式和时序信息1视频问答为平衡性能和效率,SlowFast网络采用双路径设计慢路径捕获空间语义,快路径处理运动;X3D则通过逐步视频问答VideoQA要求模型理解视频内容并回答相关扩展搜索最优时空模型尺寸这些模型为行为识别和视问题,需要视觉理解、语言理解和推理能力的结合现代频分类提供了强大基础VideoQA架构通常包括视频编码器(提取时空特征)、3问题编码器(理解查询意图)和多模态推理模块(关联视觉和语言信息)最新进展包括引入Transformer进行长期依赖建模、视频-文本预训练增强跨模态理解,以及引入外部知识支持常识推理,使模型能够回答更复杂、具有推理性质的问题多模态学习视觉语言预训练跨模态检索多模态融合策略-视觉语言预训练旨在学习统一的跨模态检索允许用户通过一种模态(如多模态融合研究如何结合不同模态的信-VLP跨模态表示,桥接视觉和语言领域这文本)搜索另一种模态的内容(如图像息形成统一表示主要策略包括早期类模型通常采用双编码器(分别处理视)关键挑战在于构建共享语义空间,融合(在特征提取前合并原始数据);觉和文本)或单编码器(同时处理两种使不同模态的相关内容在此空间中接近晚期融合(分别处理各模态后合并决策模态)架构,通过目标如掩码语言建模主流方法包括基于对比学习(如);以及中间融合(在中间层次交互特、图像文本匹配和区域文本对齐进行、),最大化匹配对相似度征)最新技术包括跨模态注意力(动--CLIP ALIGN预训练代表性工作包括(对比学;基于哈希学习,将多模态内容映射到态关注各模态的相关部分)、协同学习CLIP习图像文本对)、(在对齐和融相同哈希空间;以及基于注意力的方法(通过模态间互监督增强表示)和条件-ALBEF合阶段分别优化)和(引入自举学,细粒度对齐两种模态的成分最新研计算(根据输入动态调整融合机制)BLIP习改进视觉语言理解)这些预训练模究还探索了生成式方法和大规模多模态高效融合面临模态不平衡、缺失模态和-型已成功应用于图像检索、视觉问答和模型,大幅提高了检索精度和泛化能力噪声等挑战,这些问题的解决对构建稳图像描述等下游任务健多模态系统至关重要神经机器翻译高级主题在中的应用Transformer NMTTransformer架构彻底革新了神经机器翻译领域,其多头自注意力机制使模型能够捕获长距离依赖关系,并行计算提高了训练效率相比传统RNN模型,Transformer在翻译质量和处理长句能力上都有显著提升当前研究主要围绕优化Transformer架构展开,包括减少内存占用(如稀疏注意力)、提高训练稳定性(如深层Transformer训练技巧)以及提升推理效率(如深度变宽Transformer)多语言翻译多语言翻译模型使用单一模型处理多种语言对翻译,通常采用共享编码器-解码器架构,引入特殊语言标记指示目标语言这种方法有多种优势可利用低资源语言从高资源语言迁移知识;语言间共享参数提高了参数效率;支持零样本翻译(翻译训练中未见过的语言对)挑战主要包括处理语言不平衡、避免语言干扰以及适应语言差异最新研究探索语言特定适配器和多专家架构等方法进一步提升性能文档级翻译文档级翻译将翻译单位从句子扩展到整个文档,能够处理跨句子现象如代词消解、话题连贯性和篇章结构主要方法包括直接扩展上下文窗口(如Transformer-XL)、分层模型(句子级与文档级编码相结合)以及引入全局记忆机制文档级翻译的评估较为复杂,需要衡量上下文一致性和话语连贯性虽然这一领域仍面临数据稀缺和计算成本高等挑战,但已成为NMT研究的重要方向对话系统与聊天机器人任务型对话系统开放域对话对话状态跟踪任务型对话系统旨在协助用户完成特定目标,如开放域对话系统能够在广泛话题上自然交谈,不对话状态跟踪是任务型对话系统的核心组DST预订机票或查询天气典型架构包括自然语言局限于特定任务主要方法包括生成式模型(件,负责在对话过程中维护和更新用户目标表示理解模块(识别用户意图和实体);对话状态跟如架构和预训练语言模型);检索式方传统使用规则或分类器预测槽位值,现代Seq2Seq DST踪(维护对话历史和状态信息);对话策略(决法(从大型响应库中选择适当回复);混合系统方法多采用生成式范式,直接生成完整对话状态定系统行为);自然语言生成(生成响应)现(结合两者优点)大型语言模型如开技术演进包括从预定义本体向开放词汇方向发ChatGPT代系统采用端到端训练方法,使用预训练语言模创了开放域对话的新范式,展现出更强的上下文展(处理未见过的值);从回合级更新到增量式型如和加强理解和生成能力,同时引入外理解、知识整合和逻辑推理能力关键挑战依然更新(实时响应);以及融合外部知识提高准确T5GPT部知识库增强系统功能基于检索的方法也常用包括维持长期一致性、生成有信息量且有趣的回性最新研究如和通过多SOLOIST SimpleTOD于提高回复的自然度和多样性复,以及确保安全性和道德合规性任务学习联合优化与其他对话组件,提高整DST体系统效率语音识别与合成95%30%准确率推理加速ASR最先进的端到端语音识别系统在某些基准测试中已接近人类水平Transformer在语音领域的应用显著提升了性能,同时通过优化,特别是在一般英语对话场景如高效注意力机制和知识蒸馏,推理速度提高约30%16K采样率现代神经声码器能以16kHz采样率生成自然语音,实现了文本到语音系统中近乎自然的声音质量端到端自动语音识别ASR系统直接从音频到文本建模,无需独立的声学、发音和语言模型主流架构包括CTC(连接时序分类,解决输入输出长度不匹配问题)、RNN-T(增加预测网络建模文本依赖)、以及注意力编码器-解码器模型(Conformer结合卷积和Transformer)最新ASR系统通过自监督学习预训练、数据增强和大规模未标注数据利用,在多语言、噪声环境和口音变化等方面取得了显著进步Transformer架构在语音领域的应用改变了传统模型格局在ASR中,自注意力机制能有效捕获长距离语音和文本依赖;在TTS中,Transformer优化了语音生成的并行性和表现力语音Transformer的核心创新包括相对位置编码(更适合语音序列)、局部注意力(降低计算复杂度)以及多任务学习框架(联合优化多个语音处理任务)Conformer等混合架构结合了卷积和Transformer的优势,已成为语音处理的标准方法神经声码器在文本到语音TTS系统中负责将声学特征转换为波形,决定了合成语音的自然度最新神经声码器如WaveNet(自回归生成)、WaveGlow(基于流的并行生成)和HiFi-GAN(生成对抗网络实现了接近自然的语音质量现代TTS系统如FastSpeech2和VITS通过非自回归生成、可控合成(控制语速、音高、情感)和少样本适应(快速模仿新声音)等技术不断推进语音合成的边界,使机器生成的语音在质量和表现力上越来越接近人类推荐系统中的深度学习深度因子分解机深度因子分解机DeepFM结合了因子分解机FM捕获低阶特征交互的能力和深度神经网络建模高阶复杂模式的优势模型包含FM组件(建模一阶特征和二阶特征交互)和深度组件(处理高阶非线性特征交互),两者共享输入并行训练,最终结果合并预测这种双路径设计使模型能够同时捕获显式和隐式特征关系,适合处理稀疏数据,已在点击率预测和商品推荐等任务中广泛应用,成为推荐系统的重要基准模型序列推荐序列推荐关注用户行为序列的时序模式,利用历史交互序列预测下一项交互早期方法采用RNN捕获时序依赖,如GRU4Rec;后来基于卷积的模型如Caser引入局部特征提取;现代系统广泛采用自注意力机制(如SASRec)处理长距离依赖和并行计算最新研究方向包括结合用户长期兴趣和短期意图的混合模型、引入图神经网络建模项目间关系,以及通过对比学习增强序列表示学习,进一步提升推荐的时效性和准确性多任务学习在推荐中的应用多任务学习在推荐系统中同时优化多个相关目标(如点击、转化、停留时间),通过共享表示提高样本效率和泛化能力典型架构包括硬参数共享(底层网络共享,任务特定输出层)和软参数共享(各任务独立网络,通过正则化相关)关键技术挑战包括任务权重平衡、负迁移处理和特征表示学习MMOE和PLE等模型通过门控机制和专家网络解决这些问题,使模型能够同时服务多个推荐目标,提高整体用户体验和平台效益异常检测时序异常检测基于预测和分布偏差识别异常模式1分类One-class2学习正常样本边界,划分异常区域自编码器在异常检测中的应用3利用重建误差识别异常样本自编码器是异常检测的强大工具,基于一个简单原理模型只用正常数据训练,学会重建正常模式,而对异常样本重建效果差检测时,计算输入与重建输出间的误差,高误差表明可能是异常变体包括去噪自编码器(增强对噪声鲁棒性)、变分自编码器(学习概率分布而非确定映射)和深度卷积自编码器(适用于图像数据),这些方法在工业监测、网络安全和医疗诊断等领域展现出色表现One-class分类方法如深度SVDD和深度异常检测专注于学习正常数据的紧凑表示或边界深度SVDD将输入映射到一个超球体内,异常样本映射在球体外;深度孤立森林则学习隔离异常点的随机分割;One-class神经网络通过对抗训练增强边界学习这类方法无需假设数据分布,对未知类型异常具有更好泛化能力,尤其适合高维数据和多样化异常模式的检测场景时序异常检测处理序列数据中的异常模式,主要方法包括基于预测的方法(如LSTM-AD,预测下一时间步,大偏差视为异常);基于密度的方法(估计时间序列分布,低概率点为异常);基于分解的方法(将序列分解为趋势、季节性和残差成分,分析残差)近期研究引入注意力机制捕获长期依赖,使用变分推断估计不确定性,以及结合图结构建模多变量时间序列关系,提高了复杂时序数据的异常检测能力元学习在计算机视觉中的应用少样本图像分类快速适应的目标检测12元学习在少样本图像分类中应用广泛,使模型元学习使目标检测系统能够在少量样本下检测能够在仅见过几个样本的情况下识别新类别新类别物体核心技术包括基于原型的检测器主要方法包括基于度量的方法(如(将类别表示为区域特征原型)、注意力机制Prototypical Networks,学习嵌入空间中的(关注新类别关键特征)和重参数化技术(快相似性度量);基于优化的方法(如MAML,速适应分类器和回归器)Meta-RCNN、学习对新任务敏感的初始化);以及基于记忆TFA和Meta-DETR等方法通过将元学习策略的方法(如Memory-Augmented Neural与不同检测架构结合,实现了在COCO和Networks,存储和检索样本信息)这些方PASCAL VOC等数据集上的快速适应,大幅法已在医学图像分析、生物识别和产品识别等减少标注需求,为实时检测系统提供了更大灵领域展示出显著价值,特别是在标注数据受限活性的场景元学习与域泛化3元学习为域泛化和域适应提供了新思路,训练模型在视觉风格变化时保持稳健MLDG(元学习域泛化)明确模拟域偏移情景,学习域不变特征;MetaReg使用元学习优化正则化函数;MASF则通过元学习对齐语义特征这些方法在跨域数据集(如Office-Home、DomainNet)上表现优异,使视觉模型能够适应不同照明条件、背景变化和艺术风格,提高了现实应用中的泛化能力神经符号AI可微编程可微编程将传统编程语言与深度学习结合,创建端到端可微分系统代表性工作包括可微逻辑编程(将逻辑规则表示为连续松弛)、可微归纳逻辑编程(学习神经符号集成逻辑规则)和神经编程器-解释器(将神经网络嵌入-到程序执行中)这些方法允许在程序结构中加入先2神经-符号集成旨在结合神经网络的学习能力和符号验知识,同时保持梯度下降优化能力,已在关系推理系统的推理能力核心思想是建立连接两种范式的、算法学习和自然语言理解任务中展现优势桥梁,使神经模块处理感知与模式识别,符号模块1执行逻辑推理与知识表示关键方法包括将符号知识编码为神经网络约束;使用神经网络学习符号神经定理证明规则;设计可解释的神经表示支持符号操作这种神经定理证明结合机器学习和自动定理证明,使用神集成有望解决深度学习的可解释性、泛化能力和先经网络指导符号推理搜索关键技术包括使用图神验知识整合等局限性3经网络表示逻辑公式;通过强化学习优化证明搜索策略;基于机器学习预测有前途的推理步骤代表系统如神经Hover和NeuralTaLP展示了在数学定理证明和复杂逻辑推理上的能力,为形式化数学和程序验证开辟了新途径深度强化学习在机器人学中的应用机器人运动规划模仿学习多智能体协作深度强化学习革新了机器人运动规划,使系统能模仿学习使机器人能从人类示范中学习技能,降多智能体强化学习研究如何训练多个机器人作为够从交互中学习复杂动作基于值的方法(如深低手动编程和强化学习探索的需求关键方法包团队协作解决任务主要方法包括集中训练分散度网络)适用于离散动作空间;基于策略的方括行为克隆(直接从状态到动作的监督学习)、执行(解决非平稳环境问题)、多智能体演员评Q法(如近端策略优化、软演员评论家)更适合机逆强化学习(从示范中推断奖励函数)和生成对论家(考虑全局状态信息)和基于图的方法(建器人的连续控制核心技术挑战包括高维状态空抗模仿学习(使用框架匹配专家轨迹分布)模智能体间关系)关键挑战在于协作信用分配GAN间处理、样本效率提升和现实世界安全探索最现代系统通常结合深度神经网络处理高维观察、稀疏奖励信号和通信协议学习最新研究探索新研究通过模型预测控制结合学习动力学模型、(如视觉输入),并使用变分方法建模多模态行注意力机制捕获动态关系、自监督表示学习提高分层策略设计和任务分解,显著提高了机器人在为这些技术已成功应用于机器人操作、导航和样本效率,以及结合博弈论分析智能体间策略演动态环境中的适应能力人机交互任务化,为工厂自动化、智慧城市和搜救任务提供了强大工具深度学习在医疗影像中的应用医学图像分割病理学图像分析辅助诊断系统AI医学图像分割是精确定位和勾画解剖结构或病变病理学图像分析使用深度学习处理显微镜下的细AI辅助诊断系统整合多模态医学数据提供临床决区域的关键技术深度学习方法如U-Net及其变胞和组织图像关键挑战包括超大分辨率(可达策支持现代系统采用深度多模态融合(结合影体通过编码器-解码器架构和跳跃连接实现精确100,000×100,000像素)、多尺度特征和类别像、病史和基因数据)、时序建模(追踪疾病进分割3D U-Net和V-Net扩展到三维空间处理不平衡技术方案包括多分辨率处理(补丁级与展)和不确定性量化(提供可靠性指标)关键CT和MRI体积数据针对医学图像特有挑战,研整图分析相结合)、多实例学习(处理弱标签数研究方向包括可解释性(通过显著性图和概念提究者发展了注意力机制(关注关键解剖区域)、据)和自监督预训练(利用大量无标签数据)取解释诊断依据)、公平性(确保系统在不同人多任务学习(同时处理分割和分类)以及弱监督这些方法已成功应用于癌症检测与分级、预后预群中表现一致)和医生-AI协作(优化人机交互学习(减少像素级标注需求),成功应用于器官测和基因突变推断,逐步接近病理学家水平,为界面和工作流程)这些系统已在胸部X光分析、肿瘤和血管等结构的精确勾画,为治疗规划和精准医疗和远程诊断提供了可能性,尤其在缺乏、皮肤病变分类和视网膜疾病筛查等领域取得临疾病监测提供支持专家资源的地区床级性能,部分已获监管批准并实际部署深度学习在自然科学中的应用分子设计1深度学习正革新药物和材料分子设计过程主流方法包括生成模型(如VAE、GAN和扩散模型)创建满足特定属性的新分子;图神经网络处理分子结构预测性质;强化学习优化分子设计以满足多重约束这些方法极大加速了药物发现过程,能够生成具有所需特性(如结合亲和力、溶解度和代谢稳定性)的候选分子最新进展如AlphaFold的启发性成功,进一步推动了AI在分子设计中的应用深度和广度蛋白质结构预测2蛋白质结构预测取得了历史性突破,尤其是DeepMind的AlphaFold2该方法使用注意力机制和多序列比对捕获进化信息,预测氨基酸接触图和扭转角,实现了接近实验精度的结构预测后续工作如RoseTTAFold和ESMFold进一步优化了速度和泛化能力这些突破使得大规模蛋白质组结构分析成为可能,加速了药物设计、蛋白功能预测和生物化学研究当前研究重点包括预测蛋白质复合物、考虑动态结构变化和设计新型蛋白质粒子物理中的事件重建3深度学习在高能物理中处理大型强子对撞机等实验生成的海量数据关键应用包括使用图神经网络和点云网络进行粒子径迹重建;卷积网络用于喷注识别和分类;异常检测算法寻找新物理信号这些方法显著提高了分析效率和灵敏度,加速了希格斯玻色子等重要发现最新研究方向包括量子启发算法、可解释的AI模型以及自监督学习从模拟到真实实验数据的迁移,这些工作有望推动物理学基础理论的新突破大规模分布式训练数据并行模型并行梯度压缩技术分布式优化算法vs数据并行在多设备间复制完梯度压缩技术减少设备间通分布式优化算法解决大规模整模型,每个设备处理不同信开销,包括量化(如1-训练中的收敛挑战关键方数据子集,定期同步梯度bit SGD,将32位浮点梯度法包括大批量优化技术(这是最常用的分布式策略,压缩至1-2位);稀疏化(如如LAMB,调整学习率适应适用于中等规模模型模型Top-k,仅传输幅度最大的大批量);去中心化训练(并行则将单个模型分割到多梯度分量);错误补偿(将如D-PSGD,设备只与邻居设备上,适用于超大模型(量化误差传递到下一次更新通信);异步SGD变体(减如数千亿参数)常见模型);以及梯度积累(减少同少同步障碍);以及联邦平并行技术包括张量并行(拆步频率)这些技术可将通均(适用于边缘设备训练)分单个操作)、流水线并行信量减少10-100倍,同时保这些算法处理设备异构性(跨设备依序执行模型层)持收敛性最佳方法取决于、通信延迟、更新不一致性和专家混合(动态激活部分网络带宽、模型特性和精度等问题,在保持或提高收敛模型)实际部署常组合多要求,通常需在通信成本和速度的同时降低协调开销种策略,根据模型结构和硬收敛速度间权衡为推动模型规模增长,分布件特性选择最优方案式优化仍是深度学习研究的活跃前沿深度学习系统设计计算图优化内存管理策略自动微分系统计算图优化改进神经网络执行效率,无内存管理是大规模深度学习的关键挑战自动微分是深度学习框架的核心,自动需改变模型定义核心技术包括常量主要策略包括梯度检查点(在前向计算复杂模型的梯度主要方法包括折叠(预计算常量表达式);操作融合传播中只保留部分中间激活,需要时重前向模式(适合输入少输出多的情况)(合并连续操作减少内存访问);内存新计算);激活重计算(权衡计算与内;反向模式(适合神经网络训练的输入规划(优化张量存储位置和生命周期)存使用);微批处理(将大批量分解为多输出少场景)现代系统如PyTorch;并行执行(识别可并行子图);算子连续处理的更小片段);以及选择性激使用动态计算图,构建时执行,提供灵替换(用等效但更高效的实现替换操作活缓存(基于访问模式和计算成本决定活性和调试便利;等静态图TensorFlow);以及核函数自动调优(针对特定硬缓存策略)先进技术还包括内存复用系统则预先编译优化,提供更高执行效件生成最优代码)现代框架如(不同操作共享内存区域)、混合精度率最新进展包括混合模式微分(结合、和训练和分层异构内存(跨磁多种技术优化特定模型)、高阶导数高TensorFlow PyTorchONNX GPU/CPU/自动应用这些优化,大幅提升盘优化数据放置)这些策略使训练超效计算以及编译,为研究人员和工程Runtime JIT训练和推理性能,是模型从研究到生产大模型成为可能,是突破硬件限制的关师提供兼顾灵活性和性能的工具部署的关键桥梁键课程总结与前沿展望核心概念回顾开放性问题讨论未来研究方向123本课程覆盖了深度学习的高级核心概念,从尽管深度学习取得巨大成功,仍面临诸多挑深度学习未来研究可能集中在大规模自监优化算法(Adam、学习率调度)到模型架战模型可解释性不足;数据和能源效率低督学习(从海量无标签数据中学习);神经构(ResNet、Transformer、GNN)以及下;部署中的安全性与公平性问题;与领域-符号集成(结合学习和推理能力);多模生成模型(GAN、VAE、扩散模型)我知识融合的困难;以及缺乏强大的泛化能力态基础模型(统一处理不同数据类型);低们探讨了自监督学习、多模态融合、强化学和推理能力这些开放性问题既是限制AI广资源学习(减少数据和计算需求);以及人习等前沿方法,并深入剖析了模型压缩、量泛应用的瓶颈,也是推动下一代AI技术突破工通用智能探索(向更强大、灵活的智能系化和分布式训练等工程实践这些知识形成的动力解决这些问题需要跨学科思维和基统迈进)随着领域不断发展,保持对数学了现代深度学习的理论框架和技术体系,为础研究与应用开发的紧密结合基础的理解、批判性思维能力以及实践经验理解和应用前沿AI提供了全面基础的积累,将是把握AI创新机遇的关键。
个人认证
优秀文档
获得点赞 0