还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习表示方法欢迎参加北京大学计算机科学系年春季学期的深度学习表示方法课程2025本课程由王教授主讲,将系统地介绍深度学习中的表示学习理论与实践表示学习是深度学习的核心,通过多层次的特征提取和转换,使机器能够从原始数据中学习到有效的表示形式,进而实现各种复杂的智能任务本课程将带领大家探索这一前沿领域的基础理论、关键技术和实际应用希望通过本课程的学习,同学们能够掌握深度学习表示方法的核心概念和技术,为后续的学术研究或工程实践打下坚实基础课程概述深度学习基础理论探讨深度学习的本质、数学描述和发展历程,建立对深度学习框架的系统认识包括神经网络基础、前向传播与反向传播算法、损失函数设计等核心概念表示学习核心概念深入理解表示学习的基本原理、评价标准及其在不同领域的应用介绍词嵌入、图像表示、自编码器等经典表示学习方法及其理论基础神经网络与优化方法详细讲解深度神经网络的结构设计、训练技巧和优化算法包括梯度下降变种、正则化技术、归一化方法等提升模型性能的关键技术前沿应用与研究方向介绍表示学习在计算机视觉、自然语言处理、多模态学习等领域的最新应用,以及目前研究热点和未来发展趋势第一部分深度学习基础理论基础学习深度学习的数学基础,包括线性代数、概率统计、信息论和优化理论,这些是理解深度学习算法的必备知识模型架构掌握各类神经网络的基本结构与特点,从简单的前馈神经网络到复杂的深度架构,理解它们的设计原理与适用场景学习方法深入学习参数优化、正则化和模型评估等核心技术,了解如何训练一个高性能的深度学习模型并避免常见的问题实践应用通过实际案例和编程实践,将理论知识应用到真实问题中,培养解决实际问题的能力和工程实现的技巧深度学习的历史发展年神经元数学模型1943和提出第一个神经元数学模型,奠定了人工神McCulloch Pitts经网络的理论基础这个简单的模型模拟了生物神经元的基本功能,开创了计算智能的新方向年感知器诞生1962提出感知器模型和学习算法,这是第一个能够学习Rosenblatt的人工神经网络模型感知器可以学习线性可分的模式,虽然年反向传播算法1986有局限性,但为后续研究打下了基础反向传播算法的发明解决了多层神经网络的训练问题,这一突破使得复杂神经网络的有效训练成为可能,为深度学习的发展年深度信念网络铺平了道路2006等人提出深度信念网络,通过无监督预训练解决了深层Hinton网络训练困难的问题,标志着深度学习研究的复兴年的胜利2012AlexNet等人开发的在竞赛中取得压倒Krizhevsky AlexNetImageNet性胜利,证明了深度学习在计算机视觉中的巨大潜力,引发了深度学习的研究热潮深度学习的数学描述浅层学习模型表示为,直接从输入到输出的单层映射y=fx深度学习模型表示为₅₄₃₂₁,多层函数复合y=f f fff x神经网络特例3当时,即为典型神经网络f x=σW xₗₗ深度学习的本质是通过多层次的函数复合来实现复杂映射关系的学习每一层函数可以看作是对数据的一次转换或特征提取,层层叠加形成强大的表示能力需要注意的是,深度学习并不等同于神经网络,而是一种更为广泛的学习范式,而神经网络是深度学习最常用的一种实现方式这种多层次的数学描述使得深度学习模型能够学习到数据中的复杂特征和模式,从而在各种复杂任务中展现出强大的性能深度学习的本质浅层学习直接从原始数据学习决策规则表示学习学习数据的多层次表示和特征深度学习表示学习浅层学习的组合+深度学习的核心思想是学习数据的多层次表示,每一层网络都提取不同抽象级别的特征底层可能学习简单的边缘和纹理,中层学习形状和部件,高层则学习复杂的概念和语义信息这种层次化的特征提取能力使得深度学习能够自动从原始数据中发现有用的表示,而不需要人工设计特征传统机器学习方法往往依赖于人工设计的特征,而深度学习则通过端到端的学习方式,自动发现和提取对任务有用的特征表示这种自动特征提取的能力是深度学习相比传统方法的最大优势之一,也是其在各个领域取得突破性进展的关键所在深度学习的三要素学习准则定义模型性能的度量标准,如交叉熵损失、均方误差等学习准则决定了模型优化的方模型向,不同的任务需要选择合适的损失函数来多层神经网络结构,包括卷积神经网络指导学习过程、循环神经网络、CNN RNN1等架构模型定义了从输入优化方法Transformer到输出的映射函数,其复杂度和表达能力直更新模型参数的算法,如随机梯度下降接影响学习效果及其变种优化方法影响模型的收敛SGD速度和最终性能,是训练过程中的关键组成部分这三个要素相互配合、缺一不可,共同构成了深度学习的完整框架优秀的深度学习系统需要在这三个方面都有合理的设计和选择,才能在特定任务上取得良好的效果深度学习的发展关键因素算法()Algorithm新型网络结构与学习方法的创新是深度学习发展的理论基础从、到最新的CNN RNN和扩散模型,算法创新不断推动着模型性能的提升和应用领域的拓展Transformer业务场景()Business实际应用需求是技术发展的重要驱动力图像识别、自然语言处理、推荐系统等业务场景不断提出新的挑战,促进了深度学习技术的迭代和完善计算能力()Computation等专用硬件的发展为大规模深度学习模型的训练提供了可能计算架构的创新和GPU/TPU并行计算技术的进步极大地加速了模型训练和推理的速度数据规模()Data大规模标注数据集的出现为模型训练提供了充足的学习材料、、ImageNet COCO等大型数据集的构建,为深度学习模型的性能突破奠定了基础Common Crawl第二部分神经网络基础神经元基础网络结构学习算法实践技能学习人工神经元的数学模型和掌握前馈神经网络、卷积神经理解反向传播算法的原理和实学习神经网络的训练技巧、调工作原理,包括激活函数、权网络、循环神经网络等基本结现,以及各种损失函数的设计参方法和评估指标,为后续的重和偏置等基本概念构的设计原理和特点和选择深入学习打下基础神经元模型生物神经元结构人工神经元数学模型生物神经元由细胞体、树突、轴突和突触组成树突接收来自其人工神经元的数学模型可表示为,其y=σΣw_i*x_i+b他神经元的信号,细胞体整合这些信号,当整合后的信号超过某中是输入信号,是连接权重,是偏置,是激活函数x_i w_i bσ个阈值时,神经元通过轴突向下游神经元发送信号权重表示输入信号的重要性,偏置调整激活阈值,激活函数引入这种信息处理机制启发了人工神经元的设计,尽管简化了很多生非线性,使网络能够学习复杂的映射关系这个简单的数学模型物学细节,但保留了关键的信息整合和传递功能是构建复杂神经网络的基本单元常用激活函数函数名称数学表达式特点适用场景Sigmoidσx=1/1+e⁻ˣ输出范围0,1,二分类问题输出层平滑可导输出范围,隐藏层,Tanh tanhx=e^x--1,1RNN零中心化e^-x/e^x+e^-x计算高效,缓解梯大多数隐藏层ReLU fx=max0,x度消失解决死亡问需要防止神经元死Leaky ReLUfx=ReLU题亡的场景max
0.01x,x复杂表达式,近似平滑过渡,结合等现GELU Transformer于和代架构x*Φx ReLUdropout特性平滑、非单调,性深层网络Swish fx=能优秀x*sigmoidβx前馈神经网络网络拓扑结构前馈神经网络是最基本的神经网络类型,信息单向流动,从输入层经过一个或多个隐藏层,最终到达输出层各层之间全连接,不存在层内连接或反向连接层间连接相邻层之间的每个神经元都有连接,这些连接具有权重参数层与层之间的连接模式决定了网络的计算能力和特征提取能力全连接计算每层的计算可表示为,其中是权重a^l=σW^la^l-1+b^l W矩阵,是偏置向量,是激活函数bσ矩阵表达使用矩阵形式可以高效地表达和计算神经网络的前向传播过程,便于并行计算和向量化实现损失函数均方误差()MSE公式,其中是真实值,是预测值适用于回MSE=1/nΣy_i-ŷ_i²y_iŷ_i MSE归问题,对异常值敏感,计算简单且直观但在某些情况下可能导致训练不稳定或收敛困难交叉熵损失()Cross Entropy公式,适用于分类问题交叉熵测量预测分布与真实分布CE=-Σy_i*logŷ_i之间的差异,对错误预测给予更大的惩罚,促使模型更快收敛在实践中通常与函数配合使用softmaxHinge Loss公式,主要用于支持向量机和一些二分类问题L=max0,1-y*ŷHinge鼓励模型在正确分类的同时,最大化分类边界,增强模型的泛化能力LossFocal Loss是交叉熵的改进版,通过调整难易样本的权重,使模型更关注难分类的样Focal Loss本在类别不平衡的问题中特别有效,广泛应用于目标检测等任务神经网络训练过程前向传播计算损失将输入数据从输入层通过各隐藏层传递到输使用损失函数比较预测值与真实标签之间的出层,计算网络的预测值差异反向传播参数更新计算损失函数对各层参数的梯度,确定参数使用优化算法根据梯度信息更新网络参数更新方向神经网络的训练是一个迭代的过程,通过不断重复上述四个步骤,逐步优化网络参数,使损失函数值不断减小,模型性能不断提高整个过程基于梯度下降原理,通过计算损失函数关于网络参数的梯度,沿着梯度的反方向调整参数,以最小化预测误差实际训练中,我们通常使用小批量梯度下降方法,每次使用一小批数据样本计算梯度并更新参数,既保证了计算效率,又保持了一定的随机性,有助于逃离局部最小值第三部分深度学习优化方法基础优化算法学习梯度下降及其变种,理解批量大小、学习率等超参数的影响掌握随机梯度下降、小批量梯度下降等基本算法的特点和实现方法高级优化技术探索、、等高级优化算法,了解它们如何解决基础梯度下Momentum AdamRMSProp降算法的问题,提高收敛速度和稳定性正则化与归一化学习、批量归一化等技术,理解它们如何防止过拟合、加速训练和提高模型泛Dropout化能力掌握在不同场景下选择合适正则化方法的策略学习率调整了解各种学习率调整策略,包括学习率衰减、学习率调度等方法,学习如何根据训练过程动态调整学习率以获得最佳训练效果梯度下降算法算法类型数据使用方式优点缺点批量梯度下降每次使用全部训练梯度估计准确,收计算成本高,内存数据敛稳定消耗大,易陷入局BGD部最优随机梯度下降每次使用单个样本计算高效,有助于梯度估计噪声大,跳出局部最优收敛路径震荡SGD小批量梯度下降每次使用一小批样平衡计算效率与梯需要调整批量大小,本如、、度估计准确性仍有一定震荡Mini-batch GD3264128小批量梯度下降是实际应用中最常用的方法,它结合了和的优点通过选择合适的BGD SGD批量大小,既能保证计算效率,又能获得相对平滑的收敛过程常见的批量大小选择在到32之间,需要根据具体问题和硬件资源进行调整512在训练深度神经网络时,梯度下降算法通常与学习率调度、动量方法等技术结合使用,以进一步提高优化效果和收敛速度梯度消失与梯度爆炸问题定义与现象产生原因分析解决方案概述梯度消失在深层网络中,梯度在反向梯度消失主要由型激活函数(如合理的权重初始化、初始化S XavierHe传播过程中逐渐变得非常小,接近于零、)的饱和效应导致当等方法Sigmoid Tanh这些函数的输入过大或过小时,其导数使用等非饱和激活函数ReLU接近于零梯度爆炸与梯度消失相反,梯度在反批量归一化Batch Normalization向传播过程中变得异常大,导致参数更梯度爆炸则常见于权重初始化不当或学新幅度过大习率设置过大的情况,特别是在循环神残差连接Residual Connection经网络中处理长序列时尤为明显这两个问题通常在训练非常深的网络时梯度裁剪Gradient Clipping出现,表现为训练不稳定、收敛困难或在反向传播过程中,这些效应会通过链、等门控机制循环网络训练失败式法则累积,导致深层网络的早期层无LSTM GRU法有效学习高级优化算法Momentum引入动量概念,记录历史梯度信息,加速收敛公式∇,v_t=γv_{t-1}+ηfθθ其中通常设为,使梯度方向更稳定,并有助于跳出局部最小值=θ-v_tγ
0.9AdaGrad自适应学习率方法,为每个参数设置不同的学习率,频繁更新的参数学习率较小,不常更新的参数学习率较大公式∇,其中θ_t=θ_{t-1}-η/√G_t+εfθG_t是历史梯度平方和RMSProp解决学习率单调递减的问题,引入指数移动平均公式AdaGrad E[g²]_t=,保持短期梯
0.9E[g²]_{t-1}+
0.1g_t²θ_t=θ_{t-1}-η/√E[g²]_t+εg_t度历史,适合非平稳目标Adam结合与的优势,同时维护一阶矩估计动量和二阶矩估计未中Momentum RMSProp心化的方差实现了参数自适应学习率与方向修正,是目前最流行的优化算法之一学习率调整策略固定学习率最简单的策略,整个训练过程使用相同的学习率优点是实现简单,但难以平衡初期快速学习和后期精细调整的需求适合简单问题或短期训练,但对于复杂模型常导致次优结果学习率衰减随着训练进行,逐步降低学习率常见方式包括阶梯式衰减每个降低一次、指数衰减和衰减等这种策略允许初期n epochlr=lr_0*exp-kt1/t lr=lr_0/1+kt快速接近最优解,后期进行精细调整周期性学习率学习率在一个范围内周期性变化,如三角形周期或锯齿形周期这种策略有助于跳出局部最小值,避免在鞍点处停滞研究表明,适当的学习率周期可以提高模型性能并加速收敛批量归一化()Batch Normalization内部协变量偏移问题在深度神经网络中,由于参数更新导致每一层输入分布不断变化,称为内部协变量偏移这种现象会使训练变得困难,因为每一层都需要不断适应新Internal CovariateShift的输入分布算法原理BN批量归一化通过对每一层的输入进行标准化处理,使其均值为,方差为,然后引入可01学习的缩放因子和偏移因子进行线性变换,恢复网络的表达能力计算步骤包括计γβ算批次统计量、标准化、线性变换训练与推理区别训练阶段使用当前小批量的统计量进行归一化,同时累积全局统计量推理阶段使用训练阶段累积的全局统计量进行归一化,确保推理结果的一致性和稳定性优势与局限性优势加速训练收敛、允许使用更高学习率、减少对初始化的敏感性、具有正则化效果局限性对小批量大小敏感、在循环网络中应用困难、可能降低模型表达能力后续改进包括层归一化、实例归一化等变种正则化技术正则化早停(数据增强L1/L2Dropout Early)Stopping正则化在损失函数中添训练过程中随机丢弃一通过对训练数据进行变换L1加参数绝对值之和的惩罚部分神经元,迫使网络学监控验证集上的性能,当(如旋转、缩放、裁剪、项,倾向于产生稀疏解习更加鲁棒的特征可以性能不再提升时停止训练噪声添加等)生成新样本,正则化添加参数平方和看作是多个子网络的集成这是一种简单有效的正则扩大训练集规模这种方L2惩罚项,倾向于产生小而学习,有效减少神经元之化方法,避免了模型在训法不仅增加了数据量,还分散的权重两者都通过间的共适应性,提高泛化练集上过度拟合实践中提高了模型对各种变换的限制模型复杂度来防止过能力推理时需要进行相常与其他正则化技术结合鲁棒性拟合应的缩放调整使用技术详解Dropout集成学习视角相当于训练多个不同子网络的集成贝叶斯学习解释近似贝叶斯推理中的模型平均共适应性打破防止神经元间形成复杂的互依赖关系在训练阶段,以概率随机将神经元的输出置为,迫使网络学习更加鲁棒的特征表示这相当于每次训练一个不同的子网络,最终结果可Dropout p0视为多个子网络的集成,提高了模型的泛化能力从贝叶斯学习的角度看,可以解释为对权重分布的近似贝叶斯推断Dropout在推理阶段,不再随机丢弃神经元,而是将所有神经元的输出乘以保留概率进行缩放,以保持输出期望值不变这种训练与推理阶段的不同处1-p理是的关键实践中,输入层的率通常设置较低,隐藏层的率较高左右通常与其他正则化技Dropout Dropout
0.1-
0.2Dropout
0.5Dropout术结合使用,在大型网络中效果尤为显著第四部分深度学习表示方法表示学习基础表示学习方法探讨表示学习的核心思想和理论基础,理解什么是好的表示以学习各种表示学习的技术和方法,包括自编码器、生成模型、及如何评价表示的质量学习表示与下游任务性能之间的关系,对比学习等了解不同领域(图像、文本、图等)的特定表示以及如何从原始数据中学习有效表示学习方法和最新进展表示应用评估与分析研究表示学习在各个领域的应用,如计算机视觉、自然语言处掌握表示质量的评估方法和分析技术,包括可视化、线性探测、理、推荐系统等探讨如何利用学习到的表示解决实际问题,特征解耦等了解如何判断表示的有效性,以及如何改进表示以及表示迁移的可能性学习的过程表示学习的核心思想从原始数据学习表示表示与任务性能的关系表示学习旨在自动发现能够表征数据本质特好的表示应当能够捕获数据中与任务相关的性的特征,而不是依赖人工设计的特征通信息,同时忽略无关的变化和噪声表示的过多层次的转换,将原始数据映射到更加抽质量直接影响下游任务的性能,优秀的表示象和有意义的特征空间,使得后续任务能够可以简化学习问题,减少所需的标注数据量更加高效地完成好的表示的特点表示学习的评价标准理想的表示应具有抽象性、语义性、解耦性、评价表示质量的方法包括下游任务性能测紧凑性和层次性等特点它应当能够揭示数试、可视化分析、线性可分性测试、表示空据的内在结构,将相似的实例映射到相近的间结构分析等不同的应用场景可能需要不表示,同时对不相关的变化保持不变性同的评价标准词嵌入()Word Embedding表示的局限性分布式表示的优势主流词嵌入模型One-hot传统的编码将每个词表示为一词嵌入采用低维稠密向量表示词语,基包含根据上下文预one-hot Word2Vec CBOW个只有一个维度为,其余维度为的高于分布假设上下文相似的词语,其含测目标词和根据目标词预10Skip-gram维稀疏向量这种表示方法存在维度灾义也相似这种表示具有以下优势测上下文两种模型,通过浅层神经网络难、无法表达词间相似度、无法捕获语学习词向量维度大幅降低通常维
1.50-300义关系等问题结合全局矩阵分解和局部上下文能够捕获词语间的语义相似性GloVe
2.例如,猫和猫咪在表示中完窗口方法,利用词共现统计信息学习词one-hot支持词语间的类比推理
3.全正交,无法反映它们的相似性同时,向量在向量空间中保留语义和句法关系词表大小直接决定了向量维度,导致维
4.扩展,将词表示FastText Word2Vec度过高且计算效率低下为字符的集合,能够处理未登n-gram录词和形态丰富的语言等预训练模型生成上下文相关的BERT动态词表示,能够处理一词多义现象图像表示学习传统特征提取方法手工设计的特征提取器如、等SIFT HOG卷积神经网络特征2自动学习的层次化特征表示预训练模型特征利用大规模数据预训练得到的通用特征生成模型隐空间捕获图像生成过程的潜在表示图像表示学习的发展经历了从手工设计特征到自动学习特征的转变传统方法如、等依赖于人类设计者的先验知识,提取图像的局部描述符或梯度信息这些方SIFT HOG法在特定任务上表现良好,但缺乏通用性和自适应能力深度学习时代,卷积神经网络能够自动学习层次化的图像表示,从低层的边缘、纹理到高层的物体、场景,形成抽象程度递增的特征层次预训练模型如、等ResNet VGG在大规模数据集上训练后,其中间层特征可作为强大的通用特征提取器此外,、等生成模型学习的隐空间表示能够捕获图像的生成过程,支持图像编辑、插值VAE GAN等高级应用卷积神经网络中的表示浅层特征边缘、纹理、颜色的前几层学习简单的视觉元素,如垂直水平边缘、颜色斑块和简单纹理这些低CNN/级特征类似于传统的滤波器或颜色直方图,但是通过学习得到的,能够更好地适Gabor应数据分布中层特征形状、部件网络的中间层组合低级特征,形成更复杂的模式,如形状、角落、物体部件等这一层次的特征已经具有一定的语义信息,但仍保留空间结构,可以识别物体的组成部分高层特征物体、场景深层网络的后几层提取高度抽象的特征,对应完整的物体、场景或概念这些特征具有丰富的语义信息,对输入图像的微小变化不敏感,便于分类和识别任务特征可视化技术通过最大激活、特征反演、等技术可以将不同层次的特征可视化,帮助理DeepDream解网络的内部表示和决策过程这些可视化方法揭示了如何逐层构建复杂的视觉CNN概念自编码器结构与工作原理自编码器由编码器和解码器两部分组成,编码器将输入压缩为潜在表示,解码器尝试从该表示重建原始输入通过最小化重建误差,学习数据的有效表示欠完备自编码器当隐层维度小于输入维度时,网络被迫学习数据的主要结构和特征,实现降维和特征提取这种维度约束防止了简单的恒等映射学习降噪自编码器输入添加噪声,但目标仍是重建原始无噪声数据,迫使网络学习更加鲁棒的特征表示这种方法提高了模型的泛化能力和抗干扰能力变分自编码器引入概率框架,将输入编码为分布而非确定性向量,实现生成能力通过正则化潜在空间,使其符合预定义分布,便于采样和生成变分自编码器()详解VAE概率生成模型视角隐变量的分布假设损失函数的两个部分是一种概率生成模型,它学习数据假设隐变量服从标准正态分布的损失函数由两部分组成VAE VAEz VAE的生成过程,而不仅仅是表示从贝叶,而编码器输出的不是一个确定N0,I重建损失衡量原始输入与重建输出
1.斯推断的角度,试图估计条件概率性向量,而是描述分布的参数均值和VAEμ之间的差异,通常使用均方误差或交,即给定观测数据,推断隐变量方差这种分布假设使得模型具有连pz|x xzσ²叉熵的后验分布由于直接计算后验分布通续的生成能力,能够在潜在空间中进行散度损失衡量编码器输出的分常难以处理,使用变分推断方法,插值和采样操作
2.KLVAE布与先验分布之间的差异,用一个可计算的分布来近似真实后qz|x pzqz|x重参数化技巧是的关键创新,它通VAE迫使隐空间具有规则结构验分布过(其中)的形式,z=μ+σ·εε~N0,I这两部分形成了一种平衡重建损失鼓使得采样过程可微,从而能够通过反向励准确重建,散度鼓励隐空间的规则传播进行端到端训练KL性通过调整它们的权重,可以控制生成质量和多样性的平衡生成对抗网络中的表示的基本原理GAN生成对抗网络由生成器和判别器组成,两者通过对抗训练相互促进生成器从随机噪声生成假样本,判别器尝试区分真实样本与生成样本这种双方博弈的过程最G Dz Gz终使生成器能够产生与真实数据分布相似的样本隐空间的线性插值特性的潜在空间具有良好的线性插值特性,在两个潜在向量₁和₂之间进行线性插值,生成的图像会平滑过渡这种特性使成为图像编辑和属性操作的强大工具研GAN zz GAN究表明,潜在空间中的不同方向对应图像的不同语义特征,如年龄、表情、发型等中的特征分离StyleGAN引入了风格控制机制,将潜在空间映射到中间潜在空间,并在不同分辨率的合成网络层中应用自适应实例归一化这种设计使得不同层次的特征(如粗StyleGAN WAdaIN糙结构、中等细节和精细纹理)可以独立控制,实现了更精细的图像属性操作和更好的特征解耦对比学习无监督表示学习方法对比学习是一种无需标签的表示学习方法,通过比较样本对来学习有效表示它的核心思想是让语义相似的样本在表示空间中靠近,而不相似的样本相互远离这种方法能够充分利用未标注数据,在有限的标注资源情况下学习高质量的表示基本原理与数学定义对比学习定义正样本对(语义相似的样本)和负样本对(语义不同的样本),然后最小化一个对比损失函数,如损失⁺⁺InfoNCE L=-log[expsimx,x/τ/expsimx,x/τ⁻其中是相似度函数,是温度参数,⁺是正样本,⁻是负+Σexpsimx,x/τ]simτx x样本主流对比学习方法使用强数据增强创建正样本对,将批次中的其他样本作为负样本,采用投影SimCLR头和对比损失学习表示维护一个动态更新的样本队列作为负样本库,使用动量MoCo更新编码器,解决批量大小限制跨模态对比学习,将图像和文本配对作为正样CLIP本,学习统一的视觉语言表示空间-数据增强与评估数据增强是对比学习的关键组成部分,通过不同的变换创建保留语义的变体评估对比学习表示质量的方法包括线性探测、少样本学习和迁移学习等,验证表示的判别性和通用性中的表示学习Transformer自注意力机制位置编码的作用的核心是自注意力机制,它能够直接建模序列中任意位置由于自注意力本身不包含位置信息,引入位置编码来注入Transformer Transformer元素之间的依赖关系对于输入序列中的每个元素,自注意力计算其与所序列中元素的位置信息常用的是正弦和余弦函数构成的位置编码,不同有元素(包括自身)的关联度,然后基于这些关联度加权聚合信息这种位置和不同维度使用不同频率的三角函数,使模型能够区分不同位置的元全局建模能力使能够捕获长距离依赖,克服了和素,并理解它们在序列中的相对或绝对位置Transformer RNNCNN的局限性多头注意力的并行特征提取上下文化表示的优势多头注意力机制将注意力空间分割成多个子空间,每个头独立计算注意生成的是上下文相关的表示,即同一个词在不同上下文中Transformer力,然后将结果拼接起来这种设计使模型能够同时关注不同子空间中的会有不同的表示这种动态表示能力使其能够处理多义词、解决指代消解不同模式和特征,增强了表示能力例如,某些头可能关注语法结构,而等复杂语言现象,相比静态词嵌入具有明显优势其他头可能关注语义关系中的表示学习BERT预训练微调范式预训练任务设计多层次表示的特点-采用两阶段学习模式先在大规模使用两个自监督任务进行预训练的不同层捕获不同类型的语言信息BERT BERTBERT无标注文本上进行预训练,再在特定任务掩码语言模型随机遮蔽输入
1.MLM上进行微调这种范式有效利用了海量无中的词元,让模型预测这些被遮底层主要编码词法和句法信息,如词15%•标注数据中的语言知识,同时保持了对下蔽的词元这迫使模型学习双向上下文性、词形等游任务的适应性表示中层捕获短语级别的句法结构和组合•预训练阶段学习通用语言表示,微调阶段下一句预测判断两个句子在文信息
2.NSP则调整这些表示以适应特定任务需求这本中是否相邻这帮助模型捕获句子间高层编码语义和长距离依赖信息,更•种迁移学习方式极大降低了对标注数据的关系抽象和任务相关需求,成为领域的主流方法NLP这些任务不需要人工标注,但能够引导模这种层次化表示使能够同时处理多BERT型学习丰富的语言知识和句法结构种任务,从简单的词法分析到复杂的NLP语义理解研究表明,适当结合不同层的表示能够进一步提升下游任务性能第五部分表示学习应用表示学习已经广泛应用于各个领域,从计算机视觉到自然语言处理,从推荐系统到医学图像分析在每个领域,表示学习都发挥着关键作用,将原始数据转换为更有意义的特征表示,为下游任务提供强大支持本部分将探讨表示学习在迁移学习、多模态学习、图结构数据和强化学习等方面的具体应用,介绍各个领域的特殊需求和解决方案,以及当前研究的前沿进展和挑战通过这些应用实例,我们将看到表示学习如何在实际问题中发挥作用,以及如何根据具体场景选择和设计合适的表示学习方法迁移学习中的表示预训练模型作为特征提取器预训练模型可以直接用作特征提取器,将中间层的激活值作为特征表示,用于下游任务这种方法不需要修改预训练模型的参数,只需在提取的特征上训练一个简单的分类器或回归器这在计算资源有限或目标任务数据较少时特别有效微调策略与冻结层微调是一种更灵活的迁移学习方法,它在预训练模型的基础上,使用目标任务数据调整部分或全部参数常见策略包括完全微调(调整所有参数)、部分微调(只调整后几层)和渐进式微调(逐步解冻更多层)不同任务可能需要不同的微调策略,这取决于源任务与目标任务的相似度和目标数据量领域适应问题当源域和目标域存在明显差异时,简单迁移可能效果不佳,需要特殊的领域适应技术这包括对抗性领域适应(通过对抗训练使特征在不同域间无法区分)、自监督领域适应(利用目标域无标签数据进行自监督预训练)以及中间域训练(使用与源域和目标域都相似的中间域数据进行过渡)等方法度量学习与表示对齐在跨域或跨模态迁移中,度量学习和表示对齐是重要技术通过学习一个度量空间,使得相似样本的表示靠近,不同样本的表示远离,从而实现有效的知识迁移常用方法包括对比学习、三元组损失和原型网络等,这些方法致力于学习更通用和可迁移的表示多模态表示学习跨模态映射与对齐建立不同模态间的语义桥梁模态特定编码器2处理各模态特有的结构和特征共享表示空间3融合多种模态信息的统一特征空间多模态表示学习旨在处理和整合来自不同感知渠道(如视觉、语言、音频)的信息与单一模态相比,多模态学习能够获取更全面、更丰富的世界表示,因为不同模态往往提供互补的信息例如,图像提供视觉特征,文本提供语义和概念描述,声音提供时序和情感信息当前多模态学习的主要方法包括早期融合在特征提取前将原始数据融合;晚期融合各模态独立提取特征后再融合;混合融合在网123络的不同层次进行融合、等模型通过对比学习或生成式学习,建立图像和文本之间的强关联,学习到强大的跨模态表示这些表示CLIP DALL-E能够支持图像搜索、图像描述生成、文本到图像生成等复杂任务,展现了多模态表示学习的巨大潜力图神经网络中的表示图结构数据表示挑战图数据具有非欧几里得结构,节点数量不固定,邻居关系复杂,给传统深度学习模型带来挑战与图像或文本不同,图数据没有固定的网格结构,需要特殊的神经网络架构来处理节点间的关系和图的拓扑结构节点表示学习节点表示学习将图中的每个节点映射到低维向量空间,同时保留节点间的结构关系和属性信息常用方法包括(图卷积网络),通过聚合邻居信息更新节点表示;(图注意力网络),GCN GAT引入注意力机制为不同邻居赋予不同权重;,通过采样和聚合实现归纳式学习GraphSAGE边表示学习边表示学习关注节点对之间的关系,常用于链接预测、关系分类等任务方法包括基于节点表示的函数(如内积、哈达玛积);专门的边特征提取器;基于路径的方法,考虑连接两节点的多跳路径信息边表示对捕获图中的动态关系和交互模式尤为重要图表示学习图表示学习将整个图映射为一个向量,用于图分类、图匹配等任务常用技术包括图池化,通过聚合所有节点信息生成图级表示;图核方法,基于子图同构计算图相似度;图同构网络,GIN设计具有强表达能力的图级表示模型强化学习中的表示状态表示学习在强化学习中,有效的状态表示对于智能体的决策至关重要深度强化学习使用神经网络从原始感知信息(如像素、传感器数据)中提取有意义的状态表示好的状态表示应当捕获环境的关键特征,忽略无关细节,并对动态变化保持敏感策略网络与值函数网络策略网络将状态映射为动作概率分布,值函数网络估计状态或状态动作对的价值这两种网络的中间层表示包含了丰富的环境信息,如状态中的危险区域、奖励相关特征等研究表明,-值函数的梯度本身也是一种有用的表示形式,指示了状态空间中的改进方向表示与泛化能力强化学习中的表示学习直接影响智能体的泛化能力,即在未见过的状态下做出合理决策的能力通过引入自监督学习目标(如预测环境动态、对比学习等)可以显著提升表示质量和泛化性能在复杂环境中,学习不变特征和抽象概念的能力尤为重要模型预测与规划基于模型的强化学习方法学习环境动态模型,用于预测未来状态和规划行动序列这类方法中的状态表示需要捕获环境的因果结构和动态特性,支持多步预测最新研究如表明,MuZero学习隐式环境模型和抽象状态表示,而非直接预测观察结果,可以取得更好的性能自监督学习预测性任务设计预测性任务要求模型预测数据的某些被遮蔽或缺失的部分典型例子包括中的掩码语言模型(预测被遮蔽的词)、图像修复(预测被遮挡的图像区域)、视频帧预测BERT(预测未来帧)等这类任务利用数据的内在结构,迫使模型学习捕获上下文关系和内容依赖性的表示对比性任务设计对比性任务要求模型区分正样本对(语义相关)和负样本对(语义无关)代表方法如、等,通过数据增强创建正样本对,学习不变于特定变换的表示这类SimCLR MoCo方法的关键在于构造有意义的正负样本对,以及设计有效的对比损失函数对比学习已在计算机视觉和自然语言处理中取得显著成功生成性任务设计生成性任务要求模型重建或生成原始数据代表方法包括自编码器、、等这类方法学习数据的生成过程和分布特征,获取的表示往往具有良好的语义结构和生成VAE GAN能力生成性方法与预测性、对比性方法可以互补结合,如(掩码自编码器)结合了掩码预测和重建目标MAE连续表示离散表示vs连续表示的特点离散表示的特点混合表示与应用连续表示将数据映射到实数空间中的向离散表示使用有限集合中的元素(如码现代方法常结合连续和离散表示的优点,量,如、特征等其优本、符号)表示数据,如中的如将输入编码为离散码本索引,Word2Vec CNNVQ-VAE VQ-VAE点包括量化编码其优点包括但在内部使用连续嵌入这种混合方法在图像压缩、语音合成和文本生成等领支持平滑插值和梯度优化表示更加紧凑和稀疏••域表现出色能够捕获细微的语义差异便于解释和理解••选择连续还是离散表示,或两者的结合,适合度量相似性和距离计算可以直接映射到符号和概念••应根据具体任务需求和下游应用决定与神经网络架构天然兼容适合对数据进行符号化推理••例如,需要精确语义建模的任务可能更适合连续表示,而需要符号推理或与规缺点包括表示空间可能难以解释,难缺点包括缺乏平滑过渡,优化困难则系统交互的任务可能更适合离散表示以直接映射到离散概念,可能存在表示(通常需要离散优化技术如Gumbel-退化或塌陷问题或直通估计器),表达能力可Softmax能受限表示学习的评估方法下游任务性能表示空间几何特性与可视化t-SNE UMAP最直接的评估方法是将学习到的分析表示空间的几何特性,如类使用降维技术如和t-SNE UMAP表示应用于各种下游任务,如分内距离、类间距离、流形结构等将高维表示可视化为或散2D3D类、检测、分割等,测量任务性好的表示应当使同类样本聚集,点图,直观评估表示的聚类效果能这种评估方法关注表示的实不同类样本分离可以通过计算和分布特性这些可视化方法能用性,但可能受到特定任务设计表示的夹角余弦相似度、欧氏距够揭示表示空间中的数据结构、的影响常用指标包括准确率、离分布、簇质量等指标来量化这聚类模式和异常点,帮助理解表分数、等,取决于具体些特性示的语义组织F1mAP任务类型线性探测在冻结的表示上训练简单的线性分类器,测试表示的线性可分性这是评估无监督或自监督学习表示质量的标准方法,假设好的表示应使下游任务变得线性可分线性探测的性能反映了表示中保留的有用信息量第六部分前沿研究与实践经验高效学习方法大模型与涌现能力探索数据效率更高、计算成本更低的表示学习技术研究超大规模预训练模型的表示特性和1涌现能力鲁棒与公平表示开发对抗攻击和分布偏移更加鲁棒的表3示方法工程实践优化研究模型压缩、部署优化和工程最佳实多模态统一表示践构建跨模态、跨任务的统一表示框架大型预训练模型中的表示系列模型的表示特点GPT系列模型采用自回归架构,生成的表示具有强烈的单向上下文依赖性研究表明,模型的浅层主要捕获词法和句法信息,中层处理语义关系,深层则关注任务相关的高级推理能GPT GPT力与等双向模型相比,的表示更注重预测和生成,而非理解和判别BERT GPT缩放定律与模型容量大模型遵循幂律缩放定律随着参数量、计算量和数据量的增加,模型性能按照可预测的幂律曲线提升表示容量与模型规模密切相关,更大的模型能够学习更细粒度、更多样化的表示研究表明,表示质量的提升与参数量的对数呈线性关系,这解释了为什么模型规模的增加能持续带来性能收益涌现能力与表示复杂性大模型展现的涌现能力(如少样本学习、链式思考、指令跟随等)与其内部表示的复杂性紧密相关这些能力并非专门训练得到,而是在规模达到临界点后自然涌现分析表明,大模型能够在表示空间中形成概念簇和任务子空间,支持复杂的推理路径和知识整合基础模型的表示迁移性大型预训练模型作为基础模型,其表示具有强大的迁移能力通过提示工程或微调,这些表示可以适应各种下游任务研究发现,基础模型的表示包含丰富的世界知识和推理能力,使其能够在少量示例或纯文本指令的引导下快速适应新任务,显著降低了特定任务训练的需求神经网络压缩中的表示知识蒸馏知识蒸馏通过让小模型(学生)模仿大模型(教师)的行为进行学习,实现在保持性能的同时减小模型体积蒸馏过程中,学生模型不仅学习匹配教师模型的最终输出,还可以学习匹配中间层的特征表示研究表明,教师模型的软标签和特征表示包含比硬标签更丰富的信息,有助于学生模型学习更好的表示量化技术量化将模型参数和激活值从高精度(如位浮点数)转换为低精度表示(如位整数或位量化值)这种压缩不3284仅减少存储需求,还加速计算过程有效的量化需要保持表示的判别信息,同时最小化量化误差先进方法包括量化感知训练、非均匀量化和混合精度量化,这些方法努力在关键层和参数上保持更高精度,以维持表示质量剪枝方法剪枝通过移除不重要的连接或神经元来压缩网络基于重要性评分(如权重幅度、激活值、梯度信息等),剪枝方法识别并移除对最终输出贡献较小的部分结构化剪枝移除整个神经元或卷积核,而非结构化剪枝移除单个连接良好的剪枝策略应当保持网络表示能力,仅移除冗余部分低秩分解与轻量架构低秩分解将高维权重张量分解为低秩因子的乘积,减少参数量和计算量轻量级架构设计如、MobileNet等,通过深度可分离卷积、通道混洗等技术,从架构层面提高表示效率这些方法在设计之初就考虑表ShuffleNet示的有效性和计算效率,实现事半功倍的模型压缩效果可解释性与表示特征归因方法神经元解释特征归因方法解释模型决策与输入特征的关系,如梯度加权类激活神经元解释方法研究单个神经元或神经元组的功能,如特征可视化、映射、集成梯度和值神经元覆盖分析等通过优化输入使特定神经元最大激活,或分析Grad-CAM IntegratedGradients SHAP等这些方法生成热力图或重要性分数,显示哪些输入区域或特征神经元对不同输入的反应模式,理解神经元专门检测的特征或概念对模型预测贡献最大,帮助理解模型的注意力研究表明,高层神经元往往对应语义概念3概念解释表示提炼概念解释方法寻找模型内部表示与人类可理解概念之间的对应关系表示提炼方法从复杂表示中提取简化、可解释的表示形式,如线性如概念激活向量、和等技术,通过分析模探测、决策树提取和原型学习等这些方法尝试用更简单、更透明CAVs TCAVNetDissect型内部激活与外部概念的关联,解释模型看到了什么这种方法弥的模型近似深度表示的关键方面,或将表示映射到具有清晰语义的合了低级特征与高级语义概念之间的鸿沟概念空间,便于人类理解和解释鲁棒表示学习对抗样本与表示稳健性对抗样本是添加了精心设计微小扰动的输入,能够欺骗模型做出错误预测研究表明,标准模型的表示对这些微小扰动高度敏感,反映了表示的脆弱性鲁棒表示学习通过对抗训练、特征去噪和不变性约束等方法,学习对扰动不敏感的表示这种鲁棒表示不仅能抵抗攻击,还往往更加符合人类感知的语义结构领域泛化领域泛化研究如何学习能够适用于未见过领域的表示当测试数据分布与训练数据存在系统性差异时(如不同风格的图像、不同方言的文本),标准模型往往表现不佳鲁棒表示学习通过领域随机化、风格对比学习和不变特征提取等技术,学习跨领域一致的表示,减少对特定领域特征的依赖不变性与等变性表示不变性表示对特定变换(如旋转、平移、亮度变化)保持不变,而等变性表示则以可预测方式变化理想的表示应对语义无关变化保持不变,对语义相关变化保持等变通过数据增强、自监督学习和特殊的正则化约束,可以引导模型学习具有所需不变性和等变性的表示,提高模型的泛化能力和鲁棒性公平与无偏表示公平表示学习旨在减少模型对敏感属性(如性别、种族、年龄)的偏见通过对抗去偏训练、表示正则化和因果干预等方法,学习与敏感属性无关的表示这些方法通常在表示学习过程中添加约束或辅助目标,确保学习到的表示不包含或减少包含可能导致歧视的信息,同时保留预测任务所需的相关信息实践经验总结技术方面推荐做法注意事项激活函数使用作为默认选择注意死亡问题,考ReLUReLU虑或Leaky ReLUGELU损失函数分类任务采用交叉熵损失类别不平衡时考虑加权交叉熵或Focal Loss优化算法小批量随机梯度下降批量大小通常选择32-,根据内存调整128GPU数据预处理标准化输入数据(均值为,使用训练集统计量对验证集0标准差为)和测试集进行标准化1学习率动态学习率调整(如余弦退初始学习率通常需要通过网火)格搜索确定最佳值正则化正则化与不同层可能需要不同的L1/L2Dropout结合使用率(输入层较低)Dropout工程实现考量1框架选择适合研究和快速原型开发,适合生产部署,根据具体需求和团队经验选择考虑生态系统、社区支持和专业领PyTorch TensorFlow/Keras域的工具库2内存优化GPU使用混合精度训练、梯度累积、梯度检查点和模型并行等技术节约内存,支持更大模型或批量合理设置批量大小,避免FP16GPU OOM错误3分布式训练数据并行适合大数据集、小模型场景;模型并行适合小数据集、大模型场景;流水线并行结合两者优势选择合适的通信协议和同步策略至关重要4超参数调优使用网格搜索、随机搜索或贝叶斯优化等方法系统化调优超参数先进行粗略搜索确定大致范围,再进行精细搜索记录实验结果,使用可视化工具分析参数与性能关系研究热点与未来方向深度学习表示方法的研究正在多个方向上快速发展高效自监督学习致力于减少对标注数据的依赖,通过设计更好的预训练任务和对比学习目标,从大量无标签数据中学习通用表示少样本学习与元学习研究如何利用有限样本快速适应新任务,探索更高效的知识迁移机制神经架构搜索自动化设计网络结构,减少人工试错可微分编程将传统算法与神经网络结合,融合符号推理与连续优化的优势大型基础模型的迁移与定制是当前最热门的方向,研究如何有效地将大型预训练模型应用于特定领域和任务,同时降低计算和数据需求这些前沿研究方向预示着深度学习表示方法将朝着更加高效、通用和可解释的方向发展总结与参考文献课程要点回顾推荐阅读与资源本课程系统介绍了深度学习表示方法的理论基础、核心技术和应推荐书目用实践从神经网络基础到高级优化方法,从基本表示学习理论《深度学习》,等著•Ian Goodfellow到前沿研究热点,全面覆盖了表示学习的关键内容《动手学深度学习》,李沐等著•我们探讨了如何设计、训练和评估有效的表示学习模型,以及如《神经网络与深度学习》,邱锡鹏著•何在各个领域应用这些技术解决实际问题特别强调了表示学习在计算机视觉、自然语言处理和多模态学习中的重要作用相关课程与资源计算机视觉的卷积神经网络•CS231n:自然语言处理的深度学习•CS224n:网站最新研究论文与代码•Papers WithCode实验作业将围绕表示学习的核心概念设计,包括自编码器实现、对比学习实验、预训练模型微调等每个实验都配有详细指导和评分标准课程答疑安排在每周五下午,也可通过课程论坛随时提问希望同学们通过本课程掌握深度学习表示方法的核心思想和实践技能,为今后的学习和研究打下坚实基础。
个人认证
优秀文档
获得点赞 0