还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《深度学习算法》欢迎来到《深度学习算法》课程本课程旨在系统地介绍深度学习领域的核心算法和前沿技术我们将从理论基础开始,逐步深入到各种高级模型和实际应用案例在这门课程中,您将学习如何设计、实现和优化各类深度学习模型,掌握从经典神经网络到最新的transformer架构等一系列重要算法课程要求学生具备线性代数、概率论和微积分的基础知识,这些将是我们理解深度学习算法数学原理的重要工具通过项目实践和理论学习相结合的方式,您将获得解决实际问题的能力,为未来在人工智能领域的深入研究或工作应用奠定坚实基础深度学习发展历史感知机时代年代1950-19601958年,Frank Rosenblatt发明了感知机,这是第一个能够学习的人工神经网络模型,为深度学习奠定了基础第一次浪潮AI1956-1974这一时期出现了许多基础理论和算法,但受限于计算能力和数据规模,发展逐渐放缓第二次浪潮AI1980-1987专家系统成为研究热点,但仍未突破认知和学习的核心挑战第三次浪潮至今AI20062012年,AlexNet在ImageNet竞赛中取得突破性进展,标志着深度学习时代的真正到来GPU计算能力、大规模数据集和算法创新共同推动了这一领域的爆发式发展机器学习基础回顾监督学习无监督学习通过标记数据训练模型,包括分类和回在没有标签的数据中发现内在结构,如归问题模型学习输入与目标输出之间聚类、降维和生成模型等任务的映射关系数据集划分强化学习将数据合理划分为训练集、验证集和测通过与环境交互并获得反馈来学习最优试集,以评估模型性能和防止过拟合问策略,广泛应用于游戏、机器人控制等题领域神经网络基础架构输出层产生最终预测结果隐藏层提取和转换特征输入层接收原始数据神经网络的基本单元是神经元,它模拟生物神经元的工作方式每个神经元接收多个输入信号,通过加权求和和非线性激活函数处理后产生输出神经网络正是由大量这样的神经元按层次结构连接而成前向传播是神经网络的信息流动过程,从输入层开始,经过各隐藏层的变换,最终在输出层生成预测值而反向传播是模型学习的关键算法,它通过计算损失函数对各参数的梯度,从后向前逐层调整网络权重损失函数详解均方误差损失交叉熵损失MSE Cross-Entropy主要用于回归问题,计算预测值与真实值差的平方和的平均值最适用于分类问题,特别是多类别分类它度量预测概率分布与真实小化MSE意味着使预测值尽可能接近真实值,但对异常值较为敏分布之间的差异,能有效处理概率预测任务感自定义损失函数Hinge Loss常用于支持向量机和最大间隔分类器,鼓励模型在正确分类的基础针对特定任务,可结合业务需求和问题特点设计损失函数好的自上增大分类边界,提高泛化能力定义损失函数应当可微、能反映任务目标、计算高效激活函数与非线性变换与函数系列函数新型激活函数Sigmoid TanhReLU这两个经典激活函数曾广泛应用于早期神ReLUfx=max0,x因其计算简单且GELU和Swish等新型激活函数在某些任经网络Sigmoid将输出压缩到0,1范有效缓解梯度消失问题而流行但它存在务上表现优异GELU结合了ReLU和围,Tanh输出范围为-1,1它们的共同死亡ReLU现象,即负值输入导致梯度为dropout的特性,在Transformer架构问题是在输入绝对值较大时,梯度接近于零为解决这一问题,出现了Leaky中广泛使用Swish函数零,容易导致梯度消失问题ReLU和PReLU等变体,它们在负区间保fx=x·sigmoidx在模型性能和训练留小梯度稳定性上都有良好表现优化算法基础梯度计算计算损失函数对模型参数的偏导数,确定参数调整方向步长确定学习率控制参数更新的幅度,过大可能导致发散,过小则收敛缓慢参数更新沿梯度反方向更新参数,使损失函数值降低收敛判断当损失变化小于阈值或达到最大迭代次数时停止训练随机梯度下降SGD通过在每次迭代中仅使用一个或一小批样本来计算梯度,提高了计算效率并引入了随机性,有助于跳出局部最小值然而,SGD也面临梯度消失和梯度爆炸等问题,特别是在训练深层网络时高级优化算法动量优化自适应学习率优化器AdamMomentum方法引入物理学中的动量AdaGrad为每个参数维护不同学习Adam结合了动量法和自适应学习率的概念,累积历史梯度作为当前更新方率,根据历史梯度平方和调整优点,同时维护一阶矩估计动量和二向,帮助算法在遇到局部最小值和鞍点RMSProp改进了AdaGrad,通过指数阶矩估计自适应学习率,是目前最流时保持前进方向Nesterov动量进一加权移动平均方式更新累积梯度,避免行的优化算法之一,在大多数深度学习步改进,通过预判参数位置计算梯度,学习率过早衰减任务中表现优异提高收敛速度参数初始化方法零初始化与随机初始化最基础的初始化方法,但存在明显缺陷初始化Xavier/Glorot针对Sigmoid/Tanh激活函数优化的方法初始化He专为ReLU激活函数设计的改进初始化正交初始化与预训练初始化适用于特定网络结构和迁移学习场景合适的参数初始化对神经网络的训练至关重要零初始化会导致对称性问题,使所有神经元学习相同特征;而简单的随机初始化可能引发梯度消失或爆炸Xavier初始化考虑了网络的输入和输出维度,保持方差在反向传播过程中的稳定性He初始化是针对ReLU激活函数的改进版本,考虑到ReLU会使约一半的值变为零,因此相应增大初始化方差对于循环神经网络,正交初始化有助于减缓梯度问题;而在迁移学习中,使用预训练模型的权重进行初始化则能显著加速收敛正则化技术与正则化L1L2L1正则化通过添加权重绝对值之和作为惩罚项,促使模型学习稀疏权重,实现特征选择L2正则化添加权重平方和作为惩罚项,倾向于学习更小且分散的权重值,提高模型泛化能力正则化Dropout训练过程中随机关闭一部分神经元,迫使网络学习更加鲁棒的特征表示可视为隐式集成多个子网络,有效防止过拟合在推理阶段,所有神经元都参与计算,但输出需要相应缩放批量归一化通过对每层的输入进行标准化处理,减少内部协变量偏移问题,加速训练收敛并允许使用更大学习率BatchNorm不仅是一种正则化技术,还改善了梯度流动,使深层网络更易训练数据增强通过对训练数据进行变换如旋转、缩放、裁剪等生成新样本,增大训练集规模和多样性,帮助模型学习更一般化的特征表示,提高对未见数据的泛化能力卷积神经网络基础卷积操作原理池化层机制感受野与网络深度卷积操作是CNN的核心,通过滑动窗口方式池化层通过降采样减小特征图尺寸,降低计算感受野是指输出特征图上一个点对应输入图像在输入特征图上应用可学习的卷积核滤波复杂度,同时提供一定程度的平移不变性最上的区域大小随着网络加深,感受野逐层扩器,提取局部特征模式不同于全连接层,大池化Max Pooling保留区域内的最显著大,使高层特征能够捕获更全局的语义信息卷积层具有参数共享和局部连接特性,大幅减特征,平均池化Average Pooling则保留理解和计算感受野对设计有效的CNN架构至少了参数数量同时保留了空间结构信息区域的平均特征近年来,全局池化和可学习关重要,特别是在目标检测和语义分割任务的池化也得到广泛应用中经典卷积神经网络架构I1LeNet-51998由Yann LeCun提出,用于手写数字识别的开创性CNN架构包含两个卷积层和三个全连接层,奠定了现代CNN的基本框架尽管结构简单,但包含了卷积、池化和非线性激活等核心组件2AlexNet2012由Hinton团队提出,在2012年ImageNet竞赛中取得突破性成绩,标志着深度学习时代的到来创新点包括使用ReLU激活函数、Dropout正则化和GPU并行训练网络包含5个卷积层和3个全连接层,参数量达到6000万3VGGNet2014牛津大学VGG组提出,以简洁统一的结构著称使用小尺寸卷积核3×3堆叠替代大卷积核,增加网络深度同时减少参数VGG-16和VGG-19成为后续研究的重要基准模型,其预训练权重被广泛应用于迁移学习GoogLeNet/Inception2014谷歌团队提出的网络创新性地引入了Inception模块,在同一层中并行使用不同尺寸的卷积核,自动学习最适合的特征尺度通过1×1卷积实现降维,大幅减少计算量同时引入辅助分类器缓解梯度消失问题经典卷积神经网络架构II残差网络ResNet2015年微软研究院提出的ResNet革命性地引入了残差连接跳跃连接,有效解决了深层网络的梯度消失问题通过让网络学习残差映射而非直接映射,使得训练极深网络152层甚至更深成为可能残差块的设计成为后续许多架构的基础组件密集连接网络DenseNet2017年提出的DenseNet进一步强化了特征重用思想,每一层不仅连接到下一层,还直接连接到之后的所有层这种密集连接方式促进了特征传播和重用,减轻了梯度消失问题,同时显著减少了模型参数量,具有更高的计算效率轻量级网络MobileNet针对移动和边缘设备设计的高效CNN架构核心创新是深度可分离卷积,将标准卷积分解为深度卷积对每个通道单独卷积和1×1逐点卷积,大幅降低计算复杂度MobileNetV2引入了倒置残差结构,进一步提高了性能和效率目标检测算法系列R-CNN从R-CNN到Fast R-CNN再到Faster R-CNN,逐步优化计算效率系列YOLO一次性预测框位置和分类,大幅提高检测速度SSD利用多尺度特征图检测不同大小目标目标检测技术大致可分为两阶段和单阶段检测器两阶段检测器如R-CNN系列首先生成区域建议,然后对这些候选区域进行分类和边界框回归Faster R-CNN引入区域建议网络RPN生成候选框,显著提高了检测速度和准确度单阶段检测器如YOLOYou OnlyLook Once和SSDSingle ShotDetector直接预测目标类别和位置,无需区域建议阶段YOLO将图像划分为网格,每个网格预测多个边界框及其置信度;而SSD使用多尺度特征图预测不同尺寸的目标单阶段检测器通常速度更快,但在小目标检测上准确率略低评估目标检测器性能主要使用APAverage Precision和mAPmean AveragePrecision指标,它们综合考虑了检测的精确率和召回率语义分割算法输入图像编码器解码器像素分类原始图像数据提取多层次特征恢复空间分辨率生成分割掩码语义分割是计算机视觉中的一项基础任务,目标是将图像中的每个像素分配到特定的语义类别全卷积网络FCN是语义分割的开创性工作,它将传统分类网络中的全连接层替换为卷积层,使网络能够接受任意尺寸输入并输出相应大小的分割图U-Net采用了对称的编码器-解码器结构,并添加了跳跃连接将编码器的特征图直接传递给解码器,有效融合了低层次的空间细节和高层次的语义信息这一结构在医学图像分割中特别成功,后来扩展到各种领域DeepLab系列则引入了空洞卷积也称膨胀卷积,在不增加参数量的情况下扩大感受野同时,通过空间金字塔池化模块捕获多尺度上下文信息,提高分割准确度,尤其是对于不同尺寸的目标循环神经网络基础序列输入状态更新1文本、时间序列等顺序数据融合当前输入和历史信息时间反向传播输出预测4通过时间步展开网络进行梯度计算基于当前状态生成预测循环神经网络RNN专门设计用于处理序列数据,如文本、语音和时间序列不同于前馈神经网络,RNN具有内部状态记忆,能够存储之前时间步的信息,使其能够捕获序列的时间依赖性然而,简单RNN在处理长序列时面临严重的梯度消失和爆炸问题,难以学习长期依赖关系为解决这一问题,研究人员提出了长短期记忆网络LSTM和门控循环单元GRULSTM通过引入输入门、遗忘门和输出门控制信息流动,能够有效学习长期依赖性GRU则是LSTM的简化版本,合并了某些门结构,参数更少但性能相当与深入分析LSTM GRU门控机制简化设计双向架构LSTM GRURNNLSTM的核心是细胞状态Cell State和三GRU将LSTM的遗忘门和输入门合并为单一在许多序列任务中,未来信息对当前预测同个门控单元遗忘门决定丢弃哪些历史信的更新门,并用重置门替代输出门这种简样重要双向RNN同时从正向和反向处理息;输入门控制新信息的更新;输出门确定化设计减少了参数数量,降低了计算复杂序列,捕获双向依赖性它包含两个独立的下一个隐藏状态输出这三个门共同作用,度,同时在许多任务上性能与LSTM相当循环层可以是简单RNN、LSTM或使LSTM能够长期保存重要信息,同时灵活GRU特别适合数据量较小或计算资源有限GRU,最终融合两个方向的信息生成输更新状态,有效解决了简单RNN的梯度问的场景,训练速度也往往更快出这一架构在自然语言处理和语音识别中题特别有效机制基础Attention注意力机制直观理解注意力机制模拟人类认知过程中的选择性关注能力,允许模型在处理信息时动态聚焦于最相关的部分在序列到序列任务中,它使得模型能够根据当前状态选择性地参考源序列的不同部分,而不是仅依赖于一个固定的上下文向量软注意力与硬注意力软注意力为所有输入元素分配权重,形成加权平均,完全可微,便于反向传播训练硬注意力则只选择一个或几个离散位置关注,通常需要使用强化学习等非梯度方法训练在实践中,软注意力因其训练便利性被更广泛采用自注意力与多头注意力自注意力是序列内部元素之间的注意力计算,使每个位置能够直接关注序列中的所有位置,捕获长距离依赖关系多头注意力通过并行计算多组不同的注意力权重,使模型能够同时关注不同表示子空间中的信息,极大增强了模型的表征能力架构详解Transformer66编码器层数解码器层数标准Transformer编码器的堆叠层数标准Transformer解码器的堆叠层数8512注意力头数模型维度多头注意力机制中的并行头数原始Transformer的隐藏层维度Transformer是一种完全基于注意力机制的序列转换模型,摒弃了传统的循环结构,实现了并行计算其核心部件是多头自注意力机制,使模型能够捕获序列中的长距离依赖关系位置编码是Transformer的关键创新,用于注入序列中的位置信息原始实现使用正弦和余弦函数生成的固定位置编码,后续研究还探索了可学习的位置编码和相对位置编码等变体编码器-解码器之间通过交叉注意力机制交互,解码器能够根据输入序列的相关部分生成输出预训练模型BERT下游任务微调针对特定任务进行模型适应预训练阶段掩码语言模型和下一句预测任务模型架构基于Transformer编码器的双向表示BERTBidirectional EncoderRepresentations fromTransformers由Google在2018年提出,是NLP领域的里程碑模型不同于之前的单向语言模型,BERT通过掩码语言建模MLM实现了双向上下文的学习,使模型能够同时考虑左右文本语境BERT的预训练包含两个任务掩码语言模型随机遮盖输入中的一些token,训练模型预测这些被遮盖的词和下一句预测判断两个句子在文本中是否相邻这种预训练方式使BERT学习到丰富的语言知识和句子关系RoBERTa是BERT的改进版本,移除了下一句预测任务,使用更大批量和更多数据进行训练,取得了更好的性能ALBERT通过参数共享和嵌入分解大幅减少了参数量,同时保持或提高了性能,更适合资源受限场景系列模型GPT1GPT-12018OpenAI首个GPT模型,使用12层Transformer解码器架构,
1.17亿参数,证明了自回归预训练在多种NLP任务上的有效性2GPT-22019扩展到15亿参数,48层Transformer,无需任务特定训练即可生成高质量文本因担忧潜在滥用,OpenAI采取了分阶段发布策略3GPT-320201750亿参数的大型语言模型,展示了强大的少样本学习能力无需微调即可通过任务描述和少量示例执行多种任务,开创了提示工程时代4GPT-42023多模态大模型,能够处理图像和文本输入,展示出更强的推理能力和专业领域知识安全性和控制性也有显著提升,成为当前最先进的商用大语言模型之一预训练模型应用策略完全微调Full Fine-tuning使用特定任务数据调整整个预训练模型的参数这种方法通常能获得最佳性能,但计算成本高,需要足够的任务数据,并可能导致预训练知识的丢失适合数据充足且计算资源丰富的场景特征提取Feature Extraction冻结预训练模型参数,仅将其作为特征提取器,在其上添加任务特定的分类器层这种方法计算效率高,不会改变原有预训练知识,但对特定任务的适应性较弱适合数据量小或预训练模型与目标任务高度相关的情况参数高效微调PEFT通过Adapter、LoRA、提示调优等技术,仅调整少量参数或添加小型模块,在保持大部分预训练参数不变的同时适应下游任务这类方法平衡了性能和效率,特别适合部署多个任务的场景,也更节省存储空间少样本零样本学习/利用大型语言模型的泛化能力,通过精心设计的提示或少量示例引导模型执行新任务,无需传统的参数更新这种方法极大简化了模型部署流程,但性能可能不如专门微调的模型,并且提示设计需要专业知识生成对抗网络基础GAN核心思想训练过程经典架构GAN GANGAN生成对抗网络GAN由Ian Goodfellow于GAN的训练过程是一个极小极大博弈判别DCGANDeep ConvolutionalGAN是早2014年提出,其核心思想是构建两个相互对器最大化区分真假样本的能力,而生成器最小期最成功的GAN架构之一,引入卷积层、批抗的神经网络生成器Generator和判别化判别器识别假样本的能力这个过程理论上量归一化和LeakyReLU激活函数,大幅提高器Discriminator生成器尝试创建逼真会收敛到纳什均衡点,生成器生成的分布接近了训练稳定性和生成质量的假样本,判别器则努力区分真实样本和生成真实数据分布然而,GAN训练在实践中面WGANWasserstein GAN则通过使用的假样本二者通过对抗训练互相提升,最终临诸多挑战,如模式崩溃生成有限种类样Wasserstein距离替代JS散度作为损失函生成器能够产生高质量的合成数据本、训练不稳定、判别器过强导致梯度消失数,解决了训练不稳定和模式崩溃问题,是等问题GAN理论发展的重要里程碑高级模型与应用GAN条件GAN条件GANConditional GAN通过向生成器和判别器同时提供条件信息如类别标签、文本描述等,实现对生成过程的控制这使GAN能够按需生成特定类型的样本,大大拓展了其应用范围代表模型包括Pix2Pix配对图像转换和CGAN基于类别条件的图像生成革新StyleGANStyleGAN由NVIDIA研究团队开发,通过将风格作为潜在空间中的方向进行建模,实现了对生成图像不同方面如姿势、发型、肤色等的精细控制其创新的风格混合技术和自适应实例归一化层,使生成的图像质量达到了前所未有的水平,特别是在人脸生成领域无配对图像转换CycleGAN解决了在没有配对数据的情况下实现图像风格转换的难题通过引入循环一致性损失图像经过两次转换后应回到原始状态,模型能够学习不同域之间的映射关系这使得许多此前需要配对数据的任务变得可行,如照片风格化、季节变换、物体转换等扩散模型Diffusion Models前向扩散过程逐步向数据添加噪声直至纯噪声数学建模通过马尔可夫过程建立概率模型神经网络训练学习逆转噪声过程的去噪模型采样生成从纯噪声开始逐步去噪生成图像扩散模型是近年来在生成建模领域取得突破性进展的新兴技术其核心思想基于热力学中的扩散过程在前向过程中,数据逐渐被破坏直到变成纯噪声;在反向过程中,模型学习如何逐步恢复原始数据分布与GAN相比,扩散模型的训练更加稳定,不存在模式崩溃问题,能够生成更多样的样本DDPM去噪扩散概率模型是基础实现,通过大量小步骤逐渐去噪,但采样速度较慢后续改进如DDIM大幅提高了采样效率,而不损失生成质量Stable Diffusion是一个开创性的扩散模型实现,它在潜在空间而非像素空间操作,极大降低了计算需求结合文本条件控制,它能够根据自然语言描述生成高质量图像,推动了AI艺术创作的普及自编码器与变分自编码器自编码器架构去噪自编码器变分自编码器自编码器是一种无监督学习模型,由编码器去噪自编码器DAE故意向输入添加噪声,变分自编码器VAE将自编码器扩展到概率和解码器两部分组成编码器将输入压缩到训练网络重建原始无噪声数据这种方法迫框架下,编码器输出潜在变量的概率分布而低维潜在空间,解码器尝试从潜在表示重建使模型学习更鲁棒的特征表示,不仅对输入非确定性值通过KL散度项正则化潜在空原始输入通过最小化重建误差,自编码器噪声具有抵抗力,还能捕获数据的本质结间,VAE学习连续、平滑的潜在表示,便学习数据的紧凑表示,常用于降维、特征学构,在数据预处理和特征提取中表现优异于从任意点采样生成新数据相比GAN,习和数据去噪VAE生成多样性更好但细节可能略显模糊深度强化学习基础强化学习核心概念马尔可夫决策过程深度网络Q强化学习是机器学习的一个分支,智能体通过与马尔可夫决策过程MDP为强化学习提供了数学深度Q网络DQN是将深度学习与强化学习结合环境交互来学习最优行为策略核心元素包括框架,包含状态集合S、动作集合A、状态转移概的里程碑工作,通过神经网络近似Q值函数,实状态环境当前情况、动作智能体可执行的操率P、奖励函数R和折扣因子γ五个要素MDP的现从高维感知输入如游戏画面到动作的端到端作、奖励环境对动作的反馈信号以及策略状核心特性是马尔可夫性,即下一个状态仅取决于学习DQN引入了经验回放缓冲区和目标网络两态到动作的映射函数强化学习的目标是找到能当前状态和动作,与历史路径无关通过动态规项关键技术来稳定训练,成功在多种Atari游戏够最大化累积奖励的最优策略划或蒙特卡洛方法可以求解MDP的最优策略中达到人类水平,开创了深度强化学习研究热潮高级强化学习算法策略梯度方法策略梯度算法直接参数化并优化策略函数,而非通过值函数间接得到策略REINFORCE是基础实现,它通过蒙特卡洛采样估计策略梯度,但方差较大,收敛性较差优势策略梯度通过引入基线函数通常是值函数减小梯度估计方差,提高学习效率和稳定性方法Actor-CriticActor-Critic架构结合了策略梯度和值函数逼近的优点,包含两个网络Actor网络负责选择动作,Critic网络评估动作价值并指导Actor学习这种双网络设计既保留了策略梯度的直接优化能力,又利用值函数估计降低方差,是当前最流行的深度强化学习架构之一稳定性改进算法PPO近端策略优化和TRPO信任区域策略优化是针对策略梯度方法稳定性的重要改进它们通过限制每次策略更新的幅度,避免过大的策略变化导致性能崩溃PPO尤其成功,它用简单的截断目标函数近似实现信任区域约束,平衡了实现简单性和算法性能模型基强化学习模型基方法显式学习环境动态模型,用于规划或产生虚拟经验与无模型方法相比,它们通常具有更高的样本效率,能够进行想象式规划,但模型误差可能累积导致次优决策结合模型基和无模型方法的混合架构是当前研究热点图神经网络基础图数据结构与表示学习图卷积网络图注意力网络图是一种通用数据结构,由节点实体和图卷积网络GCN将卷积操作扩展到图结图注意力网络GAT引入注意力机制为不边关系组成,能够表示复杂的关系数构数据,主要基于谱图理论它通过邻居同邻居节点分配不同权重,而非简单的均据图神经网络GNN的核心任务是学习节点的加权平均更新中心节点的表示,实匀聚合这使模型能够关注最相关的邻居节点、边或整个图的表示向量,这些向量现特征在图上的传播和聚合与传统CNN节点,提高表示学习的能力GAT的多头编码了结构和特征信息,可用于下游任务的局部感受野类似,GCN每层只考虑一阶注意力设计进一步增强了模型的表征能力如节点分类、链接预测和图分类邻居,多层堆叠可捕获更远距离的依赖关和稳定性,在多种图学习任务中取得显著系进步知识图谱与图神经网络应用多模态学习基础视觉模态听觉模态图像和视频数据的表示和处理音频和语音信号的特征提取模态融合语言模态4整合多种模态信息的联合表示文本和符号数据的语义理解多模态学习研究如何处理和整合来自不同感知通道的信息,类似人类综合利用视觉、听觉等多种感官理解世界核心挑战在于不同模态数据的异构性,包括统计特性差异、表示空间不同以及跨模态对齐问题视觉-语言多模态表示是该领域的热点研究方向早期方法多采用独立编码器提取各模态特征后进行后期融合,而近期研究如CLIP则采用对比学习方法,通过大规模图像-文本对训练联合编码空间,使相关图像和文本在特征空间中靠近这种方法赋予模型强大的零样本能力,能够理解新的视觉概念深度学习模型压缩模型剪枝模型剪枝通过移除网络中不重要的连接或神经元减小模型规模结构化剪枝移除整个卷积核或神经元,保持规则结构便于硬件加速;非结构化剪枝则移除单个权重,可实现更高压缩率但需特殊硬件支持剪枝后通常需要微调恢复性能,迭代剪枝-微调策略往往效果最佳知识蒸馏知识蒸馏将大型教师模型的知识转移到小型学生模型中学生模型不仅学习匹配硬标签,还学习教师的软标签概率分布,获取类别间相似性等额外信息蒸馏在保持性能的同时显著减小模型体积,特别适合模型部署场景,近年来也扩展到自蒸馏、互蒸馏等变体权重量化量化通过降低权重和激活值的数值精度减少模型大小和计算量将32位浮点数转换为8位整数甚至二值网络,可显著减少内存占用和推理延迟量化感知训练和后训练量化是两种主要策略,前者在训练中模拟量化效果,后者则在预训练模型上直接应用量化,操作更简便但精度损失可能更大神经架构搜索神经架构搜索NAS自动寻找满足特定资源约束的高效网络结构以效率为目标的NAS可以发现比人工设计更优的紧凑架构,如MobileNetV3和EfficientNet搜索过程考虑计算复杂度、参数量和内存占用等多种约束,生成适合特定部署环境的定制化模型神经架构搜索NAS搜索优化高效搜索算法寻找最优架构性能评估2衡量候选架构的准确率和效率搜索空间定义可能的网络结构组合神经架构搜索NAS是自动机器学习的核心技术,旨在减少人工设计神经网络的负担NAS的搜索空间定义了所有可能的网络结构,通常包括操作类型如卷积、池化、连接方式、层数和通道数等宏搜索空间考虑整个网络结构,而细胞搜索空间关注可重复使用的基本模块设计早期NAS方法基于强化学习,控制器网络学习生成高性能架构的策略尽管有效,但计算成本极高,通常需要数千GPU天基于梯度的方法如DARTS将离散搜索转化为连续优化问题,大幅提高效率DARTS通过松弛化使架构参数可微分,能够与网络权重共同优化,但可能受到优化偏差和不稳定性影响为进一步提高效率,ENAS高效神经架构搜索提出参数共享策略,不同架构共用同一组权重,避免反复从头训练ProxylessNAS和Once-for-All等方法则通过路径采样和超网络训练进一步降低了搜索成本,使NAS在有限计算资源条件下变得实用自监督学习方法对比学习掩码预测生成式与判别式方法对比学习的核心思想是学习将相似样本的表示掩码预测任务通过随机遮盖输入的一部分,训自监督学习可分为生成式和判别式两大类生拉近,不相似样本的表示推远在计算机视觉练模型预测这些被遮盖的内容BERT的掩码成式方法如自编码重建和上下文预测直接建模中,通常通过数据增强生成同一图像的不同视语言模型是NLP领域的典型实现,它随机遮盖数据分布,学习的表示更全面但可能包含下游图作为正样本对,其他图像视图作为负样本15%的词元,训练模型从上下文恢复原始词任务不需要的信息判别式方法如对比学习和SimCLR和MoCo是两个代表性框架,在视觉领域,MAE掩码自编码器采用类似思聚类则通过预设的判别任务学习特定特征,通SimCLR使用大批量训练并采用投影头设计,路,遮盖高比例如75%的图像块,训练视觉常在下游任务迁移性上表现更好近期研究趋而MoCo通过动量更新编码器和队列机制维护Transformer重建原始像素,实现了高效的自势是结合两类方法的优势,如SimMIM和数据大量负样本,提高表示质量监督视觉表示学习2vec等统一框架联邦学习与隐私保护本地模型训练各参与方使用本地数据训练模型模型更新上传参与方只共享模型更新而非原始数据服务器聚合中央服务器聚合各方更新形成全局模型全局模型下发更新后的全局模型分发给各参与方联邦学习是一种分布式机器学习范式,允许多方在不共享原始数据的情况下协作训练模型,保护数据隐私同时利用分散数据提高模型性能最基本的联邦学习算法是FedAvg,它通过加权平均各客户端的模型更新来形成全局模型然而,在实践中联邦学习面临诸多挑战,如通信效率、设备异构性和非独立同分布数据等尽管不直接共享数据,联邦学习仍可能泄露隐私信息差分隐私是一种数学严格的隐私保护机制,通过向更新添加精心校准的噪声,限制个体数据对最终模型的影响,防止成员推断等攻击安全多方计算如同态加密和秘密共享则提供更强的隐私保证,允许多方在加密数据上进行联合计算元学习与少样本学习元学习概念算法度量学习方法MAML元学习学会学习旨在通过大量任务的训练,使模型能够模型无关元学习MAML是最有影响力的元学习算法之度量学习是元学习的另一主要范式,通过学习样本间的相快速适应新任务,是少样本学习的核心方法元学习将传一其核心思想是学习一个对任务变化敏感的初始化参似性度量而非直接优化模型参数原型网络在特征空间中统的单一任务学习扩展为跨任务学习,训练过程通常包含数,使得对新任务只需少量梯度更新步骤就能达到良好性为每个类别学习一个原型表示通常是该类别样本的平均嵌元训练和元测试两个阶段在元训练阶段,模型在各种任能MAML采用双层优化结构内循环在各任务上进行短入,新样本根据与各原型的距离进行分类关系网络则学务上学习通用知识;在元测试阶段,评估模型对新任务的期适应,外循环则优化初始参数使得内循环适应后的性能习一个相似度函数,直接预测查询样本与支持样本的相似快速适应能力最大化这种方法具有通用性,适用于各种模型架构和问程度,这种端到端方法能够学习更复杂的相似性概念题类型神经常微分方程Neural ODEs连续深度模型伴随敏感性方法神经常微分方程Neural ODEs将离散的神经网络层视为连续动力系统的欧拉离散化,提出了一种神经ODE的一大创新是反向传播中使用伴随敏感性方法计算梯度,避免了存储中间激活值的内存开全新的深度学习建模范式传统网络通过一系列离散层传递信息,而Neural ODEs则定义了表示随销传统反向传播需要保存前向传播中每层的输出,而伴随方法仅需求解另一个ODE,大幅降低了时间连续演化的微分方程这种连续视角揭示了残差网络与常微分方程数值解之间的内在联系,为内存需求这使得训练极深或连续模型变得可行,同时保持了计算效率深度模型提供了理论基础自适应计算连续归一化流与固定层数的传统网络不同,Neural ODEs允许自适应计算深度数值求解器可根据问题复杂度动Neural ODEs在生成模型领域的一个重要应用是连续归一化流CNF传统归一化流要求变换是可态调整积分步数,简单样本使用较少步骤,复杂样本则使用更多步骤,实现计算资源的高效分配逆的且雅可比行列式易于计算,而基于ODE的流模型通过连续变换实现概率密度建模,无需显式这种自适应特性使模型能够处理不同复杂度的输入,提高泛化能力计算雅可比行列式,为复杂分布建模提供了更灵活的框架因果推断与深度学习相关性与因果关系结构因果模型因果表示学习相关性描述两个变量的统计关联,而因果关系结构因果模型SCM是表示因果关系的数学因果表示学习旨在发现数据的因果机制,学习则表明一个变量的变化直接引起另一个变量的框架,通常用有向无环图DAG表示变量间能够在不同环境中保持稳定的特征不变风险变化传统机器学习模型主要捕获数据中的相的因果依赖每个节点代表一个变量,边表示最小化IRM和域适应都是这一领域的重要方关模式,但这些模式在分布变化时可能失效直接因果影响SCM不仅描述观测分布,还法,它们寻找在多个环境中表现一致的预测规因果推断研究如何从观测数据识别真正的因果定义了干预和反事实分布,使我们能够推理未则这些方法有助于训练在分布偏移下仍然可关系,使模型能够回答如果...会怎样的干预观测到的情况因果发现算法如PC和GES算靠的模型,对于需要泛化到新环境的应用特别问题,提高泛化能力和鲁棒性法则尝试从观测数据中恢复潜在的因果图结重要构贝叶斯深度学习贝叶斯神经网络变分推断蒙特卡洛Dropout贝叶斯神经网络BNN将贝叶斯推断与深度学习结变分推断是近似贝叶斯后验的主要方法,它将后验蒙特卡洛Dropout是一种简单有效的不确定性估计合,不再学习确定的权重值,而是推断权重的后验推断转化为优化问题,寻找简单参数化分布如高斯方法,理论上可解释为变分推断的特例在推理阶分布这使得模型能够量化预测的不确定性,区分分布中最接近真实后验的分布贝叶斯神经网络中段保持Dropout激活,对同一输入进行多次前向传数据噪声偶然不确定性和知识缺失认知不确定常用的变分推断算法包括平均场近似和Bayes by播,生成多个预测结果这些预测的方差提供了模性尽管理论上具有吸引力,但精确的后验推断在Backprop,它们通过最小化KL散度与真实后验的型不确定性的度量,而平均值则作为最终预测,类复杂网络中通常难以计算,需要采用近似方法差异,同时保持计算效率似于贝叶斯模型平均这种方法易于实现,几乎不增加训练成本可解释人工智能XAI可解释性需求随着AI系统在关键领域如医疗、金融和司法的应用,对模型决策过程的理解变得至关重要可解释AI旨在使人类能够理解、信任并在必要时质疑AI系统的决策可解释性不仅有助于发现和纠正模型偏见,也是满足法规要求如欧盟GDPR的解释权的必要条件特征可视化技术CAM类激活映射和Grad-CAM等技术通过生成热力图揭示CNN在图像分类中关注的区域这些方法利用网络的激活值或梯度信息,直观展示模型决策的视觉依据Grad-CAM尤其灵活,可应用于各种CNN架构,生成类别特定的注意力图,帮助诊断模型是否关注正确的图像区域局部近似方法LIME局部可解释模型无关解释通过在预测点附近训练简单的可解释代理模型如线性模型或决策树来近似复杂模型的局部行为这种方法能够为单个预测提供直观解释,展示各特征对预测的贡献SHAP则基于博弈论的Shapley值,为每个特征分配一个公平的贡献值,兼具理论基础和实用性反事实解释反事实解释回答为使模型产生不同预测,输入需要如何改变的问题这种解释形式与人类思维方式相符,提供了具体的行动建议例如,对于被拒绝的贷款申请,反事实解释可能指出如果您的债务收入比降低10%,申请将被批准,为用户提供明确的改进方向对抗样本与模型鲁棒性深度学习硬件加速并行计算专用架构边缘部署GPU TPUAI图形处理器GPU是深度学习最常用的硬件加速张量处理单元TPU是谷歌设计的AI专用芯片,将深度学习模型部署到资源受限的边缘设备需要器,其大量并行计算单元非常适合矩阵运算现针对TensorFlow操作进行了优化TPU采用脉特殊的优化策略模型量化降低参数精度、知代深度学习框架如PyTorch和TensorFlow优化动阵列架构高效执行矩阵乘法,内置高速缓存减识蒸馏压缩知识到小模型和架构裁剪移除冗余了CUDA编程接口,使研究人员能够轻松利用少内存访问,在低精度计算中尤为高效与通用部分是常用技术专用边缘AI芯片如GoogleGPU加速NVIDIA的Tensor Core等专用硬件GPU相比,TPU在特定深度学习工作负载上提供Edge TPU、Intel Movidius和NVIDIA进一步提高了矩阵乘法性能,特别是在混合精度更高的性能功耗比,但编程灵活性较低,主要通Jetson系列提供能效优化的推理能力,适合智能训练中,大幅提升了训练吞吐量过云服务形式提供手机、机器人和IoT设备等场景分布式深度学习训练数据并行模型并行模型复制到多个设备,每个设备处理不同数将模型分割到多个设备,每个设备负责模型据批次,定期同步梯度适合大数据集但模的不同部分适合模型过大无法装入单个设型相对较小的场景,实现简单,扩展性好,备内存的情况,但设备间通信开销大,实现是最常用的分布式训练方式复杂度高流水线并行通信优化模型按层分割,不同设备负责不同层的计梯度压缩、异步更新和高效集合通信等技术算,数据像流水线一样流经各设备结合了降低设备间数据传输开销,提高分布式训练数据并行和模型并行的优势,适合超大规模效率,对大规模集群特别重要模型训练,如GPT-
3、PaLM等混合精度训练是现代深度学习的重要加速技术,它结合FP16半精度和FP32单精度计算,在保持模型精度的同时显著提高训练速度和内存效率关键技术包括FP16权重存储、损失缩放防止梯度下溢和主权重副本确保数值稳定性在支持Tensor Core的硬件上,混合精度可提供2-3倍的训练加速深度学习编程框架PyTorch TensorFlowJAXPyTorch以其动态计算图和直观的Python接口TensorFlow
2.x通过Eager Execution实现了JAX是一个相对较新的框架,由Google研究团在研究社区广受欢迎其定义即运行的编程模类似PyTorch的即时执行模式,同时保留了静态队开发,结合了NumPy的简洁API与XLA编译器式允许使用标准Python控制流程构建神经网络,图的性能优势Keras作为高层API提供简洁的的高性能它的核心特性包括自动微分、即时编便于调试和原型设计TorchScript提供了将模模型构建接口,而TensorFlow译和并行加速,特别适合科学计算和研究探索型转换为静态图以加速生产部署的能力,而生态ExtendedTFX则提供了完整的生产级机器学习JAX的函数式编程范式使模型代码更加纯净和可系统扩展如torchvision和huggingface则提供流水线TensorFlow的部署生态系统非常完组合,有助于实现复杂的训练方法,如元学习和了丰富的预训练模型和数据集善,包括TF Serving、TF Lite和TF.js等,覆盖嵌套优化服务器、移动和Web部署场景计算机视觉前沿进展视觉神经辐射场Transformer Swin Transformer NeRFVisionTransformerViT将NLP领域成功的SwinTransformer改进了原始ViT的设计,NeRF是三维场景表示的革命性技术,它使用全Transformer架构引入计算机视觉,挑战了引入了层次化表示和移位窗口注意力机制通连接网络表示场景的体积密度和颜色辐射场CNN长期以来的主导地位ViT将图像分割成过在不同尺度上计算特征,以及限制注意力计给定空间中的坐标和观看方向,NeRF预测相应固定大小的块patch,将这些块视为序列输算在局部窗口内进行,Swin更好地适应了视觉的颜色和透明度,通过沿视线积分这些值生成入到标准Transformer中尽管缺乏CNN的归任务的需求这种设计不仅提高了计算效率,逼真渲染这种方法能从稀疏2D图像重建高质纳偏置如平移不变性,但在大规模数据预训还使模型能够捕获多尺度特征,显著提升了目量3D场景,实现前所未有的照片级视角合成,练下,ViT展现出卓越的性能,在多项视觉任务标检测和语义分割等密集预测任务的性能在AR/VR和计算摄影领域有广泛应用前景上超越了传统CNN自然语言处理前沿进展175B540B参数量参数量GPT-3PaLM目前最大的公开商用语言模型之一谷歌研发的超大规模语言模型32K
8.6B最新上下文窗口训练数据RLHFGPT-4支持的最大标记数量人类反馈数据点数量级估计大规模语言模型LLM的爆发式发展极大改变了NLP研究和应用格局从GPT-3到PaLM再到GPT-4,模型规模持续增长,能力边界不断拓展这些模型展现出惊人的少样本学习能力,仅通过任务描述和少量示例即可完成各种语言任务,无需传统的模型微调思维链Chain-of-Thought提示是大模型推理能力的重要突破,通过引导模型生成中间推理步骤,显著提升了复杂问题的解决能力指令调优技术将模型与人类价值观对齐,使LLM能够理解并执行自然指令,而RLHF基于人类反馈的强化学习通过收集人类偏好并用强化学习优化模型输出,进一步提高了模型输出质量和安全性多智能体强化学习合作设置竞争设置混合设置多个智能体协同工作实现共同智能体之间互相竞争,各自追结合合作与竞争元素,如团队目标,如团队游戏和协作机器求最大化自身利益,如对抗性间竞争或存在部分利益冲突的人合作环境中,智能体需要游戏和经济市场模拟竞争环合作这类环境最接近复杂的学习理解彼此意图,协调行境中,智能体需要预测对手策现实世界场景,智能体需要在动,共享信息和资源,类似人略并作出对应调整,训练过程合作与竞争中找到平衡,决定类团队合作训练目标通常是通常涉及博弈论概念如纳什均何时合作何时竞争最大化团队总体收益衡通信学习智能体学习有效通信策略,包括何时通信、通信什么内容以及如何解释接收到的信息在部分可观察环境中尤为重要,多智能体通信可以自发形成类似语言的协议MADDPG多智能体深度确定性策略梯度是一种Actor-Critic框架的多智能体算法,它实现了集中式训练与分布式执行在训练阶段,Critic网络可访问所有智能体的观察和动作信息,而Actor网络仅基于本地观察做决策这种设计在保持执行时分散性的同时,解决了非稳态环境和部分可观察性问题多智能体强化学习广泛应用于自动驾驶车队协调、智能电网管理、金融市场模拟、物流优化和多机器人系统等领域随着算法和计算能力的进步,大规模多智能体系统包含数百至数千智能体的研究也取得了显著进展,为复杂社会行为建模和集体智能研究提供了新工具深度学习伦理与安全AI数据偏见与公平性深度学习模型从训练数据中学习,会继承并可能放大数据中的历史偏见这可能导致系统对特定群体产生不公平结果,如招聘算法性别歧视或刑事风险评估系统的种族偏见减轻偏见的方法包括多样化训练数据、对抗去偏技术和公平性约束训练隐私保护深度学习系统可能从训练数据中记忆敏感信息,或通过逆向工程泄露训练集内容成员推断攻击可确定特定样本是否用于训练模型,这在医疗等敏感领域尤为严重差分隐私、联邦学习和安全多方计算等技术为AI系统提供隐私保护,同时各国数据保护法规如GDPR也在规范AI数据使用安全风险AI系统面临多种安全风险,包括对抗攻击、数据投毒和后门攻击等当AI控制关键基础设施时,这些漏洞可能导致严重后果防御措施需综合考虑技术安全性如算法鲁棒性、操作安全性如访问控制和系统安全性如失效保护机制4伦理设计负责任的AI开发需要遵循透明度、责任制、可解释性和人类监督等核心原则各国和国际组织正在制定AI伦理准则和监管框架,许多企业也建立了内部AI伦理委员会和审查机制从设计阶段考虑伦理问题,并持续监测AI系统的社会影响,是确保AI造福人类的关键步骤行业应用案例分析总结与未来展望新兴研究方向自主学习系统与神经符号融合能力拓展2多模态理解、常识推理与创造性思维基础理论可解释性、鲁棒性与数学原理《深度学习算法》课程系统地介绍了从基础神经网络到前沿大模型的关键技术与理论我们学习了卷积网络、循环网络、Transformer架构和各类生成模型等核心算法,以及优化、正则化等基础训练技术同时,我们探讨了模型压缩、联邦学习和可解释性等实用技术,为深度学习在实际应用中的部署奠定基础深度学习的未来发展趋势包括基础模型的规模与能力继续增长;多模态融合实现更全面的世界理解;自监督学习减少对标注数据的依赖;神经符号方法结合学习与推理;边缘AI使智能计算更加分布式;以及更加注重能效、隐私和公平的负责任AI研发建议学生通过参与开源项目、复现经典论文、解决实际问题来继续深化学习最后,随着深度学习从学术研究转向产业应用,行业与学术的界限越来越模糊企业研究实验室发表开创性论文,而学术机构也越来越关注实际应用我们期待这种融合将加速创新,推动AI技术的普惠发展,为人类社会创造更大价值。
个人认证
优秀文档
获得点赞 0