还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习导论欢迎来到深度学习课程!本课程将带领大家探索深度学习的奇妙世界,从基础理论到前沿应用,全面了解这一改变世界的技术深度学习作为人工智能的核心技术,正在各个领域掀起革命性变革无论是智能手机中的语音助手,还是自动驾驶汽车,亦或是医疗诊断系统,深度学习的身影无处不在在接下来的学习中,我们将共同探索神经网络的奥秘,解锁的无限可能AI让我们一起踏上这段充满挑战与惊喜的学习之旅!课程概述课程目标学习内容掌握深度学习的核心理论与算课程涵盖深度学习理论基础、法,包括神经网络基础、卷积主流模型架构、优化技巧、前神经网络、循环神经网络等关沿研究方向和实际应用案例键技术培养实际应用能力,通过理论学习与编程实践相结能够独立构建和训练深度学习合的方式,全面提升深度学习模型,解决实际问题能力考核方式平时作业占,包括算法实现和模型训练;期中项目占,要求解30%20%决特定问题;期末考试占,涵盖理论知识;最终项目占,自选30%20%课题进行深入研究本课程采用理论与实践相结合的教学方法,学生将有机会参与讨论、完成编程作业,并通过项目展示自己的学习成果我们鼓励创新思维,培养解决实际问题的能力什么是深度学习?深度学习使用多层神经网络自动学习特征机器学习从数据中学习模式和规律人工智能模拟人类智能的系统深度学习是机器学习的一个分支,而机器学习又是人工智能的一个子领域人工智能是研究如何让计算机模拟人类智能的学科,机器学习则是人工智能的一种实现方法,通过算法让计算机从数据中自动学习深度学习是基于人工神经网络的一类机器学习方法,其特点是使用多层神经元网络,通过大量数据训练,自动学习特征表示与传统机器学习不同,深度学习无需人工设计特征,而是通过多层网络结构自动学习数据的层次化特征表示深度学习的发展历程1943年McCulloch-Pitts神经元1958年感知器1986年反向传播算法Warren McCulloch和Walter Pitts提出了第一个Frank Rosenblatt发明了感知器,这是一种简David Rumelhart、Geoffrey Hinton和Ronald数学模型来描述神经元的行为,为神经网络的单的二元分类器,能够学习线性可分的模式Williams推广了反向传播算法,解决了多层神发展奠定了理论基础这一简单模型能够实现感知器引入了权重和学习算法的概念,是现代经网络的训练问题这一突破使得训练复杂神逻辑运算,开启了计算智能的探索神经网络的原型经网络成为可能,为神经网络的进一步发展铺平了道路神经网络的早期发展经历了从理论到实践的探索过程从最初的神经元数学模型,到能够学习的感知器,再到解决多层网络训练的反向传播算法,每一步都是关键的突破深度学习的发展历程(续)2006年深度置信网络Geoffrey Hinton提出了深度置信网络和预训练方法,解决了深层网络的训练困难问题这一技术突破重新激发了学术界对深度神经网络的兴趣,开启了深度学习复兴的序幕2012年AlexNetKrizhevsky、Sutskever和Hinton开发的AlexNet在ImageNet比赛中大幅领先其他方法,证明了深度卷积神经网络的强大性能这一成功标志着深度学习革命的正式开始,引发各领域应用热潮近年来的突破从GPT系列到自监督学习,深度学习持续取得突破计算能力提升、大规模数据集和算法创新推动了模型规模和性能的指数级增长,使AI在各领域展现出前所未有的能力2006年至今的发展可以称为深度学习的黄金时代从解决训练问题的深度置信网络,到引爆视觉革命的AlexNet,再到近年来层出不穷的创新模型,深度学习正以前所未有的速度改变着世界深度学习的应用领域计算机视觉自然语言处理•图像分类与识别•文本分类与情感分析•目标检测与跟踪•机器翻译•图像分割与语义理解•问答系统•人脸识别与验证•文本生成与摘要语音识别•语音转文字•说话人识别•语音助手系统•语音情感识别计算机视觉是深度学习最成功的应用领域之一,卷积神经网络在图像处理任务中表现出色,广泛应用于安防、医疗和自动驾驶等场景自然语言处理技术则推动了机器翻译、智能客服和内容分析等应用的发展而在语音识别领域,深度学习使智能语音助手和实时翻译成为可能深度学习的应用领域(续)推荐系统自动驾驶•个性化内容推荐•环境感知与理解•协同过滤•路径规划•用户兴趣建模•行为预测•商品相似度计算•决策控制生物信息学•蛋白质结构预测•基因表达分析•药物开发•疾病诊断深度学习在推荐系统中的应用大大提升了用户体验,从视频平台到电商网站,都依靠深度学习实现个性化推荐自动驾驶技术则通过深度学习处理复杂的道路环境,实现感知、决策和控制的全流程智能化在生物信息学领域,深度学习正在解决蛋白质折叠等长期难题,加速药物研发进程AlphaFold等模型的突破性成果展示了人工智能在科学研究中的巨大潜力神经网络基础感知器输入层加权求和激活函数输出接收特征向量x₁,x₂,...,x计算z=Σwᵢxᵢ+b应用非线性变换y=fz产生最终结果ₙ感知器是神经网络的基本构建单元,由Warren McCulloch和Walter Pitts首先提出,后由Frank Rosenblatt改进感知器接收多个输入信号,对它们进行加权求和,然后通过激活函数产生输出激活函数引入非线性特性,使神经网络能够学习复杂的函数关系常见的激活函数包括阶跃函数、Sigmoid函数和ReLU函数等然而,单层感知器只能学习线性可分的问题,无法解决XOR等非线性可分问题,这也是多层神经网络出现的动机多层感知器()MLP网络结构输入层、一个或多个隐藏层和输出层组成的前馈神经网络前向传播信息从输入层流向输出层,计算每层的激活值反向传播误差从输出层反向传递,计算梯度并更新权重多层感知器是一种前馈神经网络,由多层神经元组成,包括输入层、一个或多个隐藏层和输出层与单层感知器不同,MLP能够学习非线性映射关系,解决更复杂的问题前向传播是信息从输入层流向输出层的过程每个神经元接收前一层所有神经元的输出,进行加权求和并应用激活函数反向传播则是训练过程中的关键步骤,通过计算损失函数对各层权重的梯度,从后向前传播误差信号,并使用梯度下降法更新网络参数激活函数函数函数函数Sigmoid TanhReLUσx=1/1+e^-x tanhx=e^x-e^-x/e^x+e^-x ReLUx=max0,x将输入映射到区间,曾广泛用于神将输入映射到区间,是的当输入为正时输出等于输入,否则输出0,1-1,1Sigmoid经网络优点是输出可解释为概率值;缩放版本优点是输出为零中心,有助为零优点是计算简单、加速收敛、缓缺点是存在梯度消失问题,且输出不是于训练;缺点仍然存在梯度消失问题解梯度消失;缺点是可能导致神经元零中心的死亡现象激活函数的选择对神经网络的性能有重要影响现代深度学习中,及其变体(如、等)因其优越的性能而ReLU LeakyReLU ELU成为主流选择,特别是在深层网络中对于不同任务和网络结构,可能需要尝试不同的激活函数以获得最佳结果损失函数均方误差()交叉熵MSE HingeLossL=1/nΣy-ŷ²L=-Σy·logŷL=max0,1-y·ŷ计算预测值与真实值差的平方和平均值,测量两个概率分布的差异,是分类问题支持向量机中常用的损失函数,用于最广泛用于回归问题对异常值敏感,的首选损失函数二元交叉熵用于二分大间隔分类只有当分类不够自信(间MSE惩罚较大误差当预测值接近真实值时,类,分类交叉熵用于多分类交叉熵在隔小于)时才产生损失,鼓励模型更1梯度变小,可能导致训练变慢正确标签概率低时给予更大惩罚,促使加确信正确类别主要用于二分类问题,模型更加确信正确类别特别是线性分类器损失函数定义了模型预测与真实标签之间的差距,是神经网络训练的优化目标选择合适的损失函数对于模型性能至关重要,应根据具体任务特点进行选择除了上述常见损失函数外,还有许多专门针对特定任务设计的损失函数,如(处理类别Focal Loss不平衡)和(图像分割)等Dice Loss优化算法梯度下降法批量梯度下降使用整个数据集计算梯度,然后更新参数θ=θ-η∇Jθ优点是计算稳定,每次迭代能确保损失函数减小;缺点是计算成本高,对大数据集不友好,且容易陷入局部最小值随机梯度下降法(SGD)每次只使用一个样本计算梯度并更新参数优点是计算速度快,能跳出局部最小值,适用于大数据集和在线学习;缺点是收敛路径嘈杂,可能在最优解附近震荡小批量梯度下降法结合两者优点,每次使用一小批样本(mini-batch)计算梯度优点是计算效率和参数更新稳定性的良好平衡,减少内存需求,便于并行计算;现已成为深度学习的标准优化方法优化算法的核心目标是找到使损失函数最小化的模型参数在实践中,小批量梯度下降法通常是首选,其批量大小是一个重要的超参数较小的批量能提供更多的正则化效果,但也增加了训练的不稳定性;较大的批量则提供更准确的梯度估计,但可能导致泛化性能下降高级优化算法Momentum引入动量概念,累积过去梯度方向,加速收敛并减少震荡特别适合处理狭长的损失曲面和小但一致的梯度区域,帮助跳出局部最小值AdaGrad自适应学习率方法,为每个参数调整不同的学习率频繁更新的参数学习率减小,不常更新的参数学习率增大,使稀疏特征得到更有效的学习Adam结合了Momentum和RMSProp的优点,既保留了历史梯度信息,又实现了参数自适应学习率计算高效,内存需求小,适用于大多数非凸优化问题,是当前最流行的优化器高级优化算法通过引入动量和自适应学习率等机制,解决了传统梯度下降法的一些局限性Momentum通过累积过去梯度加速训练过程;AdaGrad通过调整每个参数的学习率提高学习效率;Adam则结合了两者的优点,成为深度学习中最常用的优化器之一选择合适的优化器对于模型训练效率至关重要实践中,Adam通常是一个不错的起点,但对于特定问题,其他优化器可能表现更好研究还在持续探索更有效的优化方法过拟合问题什么是过拟合?过拟合的危害识别过拟合过拟合是指模型在训练数据上表现极佳,过拟合的模型在实际应用中会产生不可通过比较训练集和验证集上的性能差距但在新数据上表现不佳的现象模型过靠的预测,降低系统性能在关键领域来识别过拟合当训练误差持续下降而度学习了训练数据中的噪音和细节,丧如医疗诊断或金融风控,过拟合可能导验证误差开始上升时,通常表明模型已失了泛化能力类似于学生死记硬背考致严重后果过度复杂的模型也增加了经开始过拟合学习曲线和交叉验证是试题目,却不理解背后的原理计算成本和部署难度发现过拟合的有效工具过拟合是深度学习中最常见的问题之一,尤其在模型复杂度高而训练数据有限时更为明显现代深度学习模型往往具有数百万甚至数十亿参数,使得过拟合风险大大增加因此,掌握识别和解决过拟合的方法对于构建可靠的深度学习系统至关重要解决过拟合的方法正则化早停法Dropout通过在损失函数中添加惩训练过程中随机关闭一部监控验证集上的性能,当罚项,限制模型参数的大分神经元,防止神经元之验证误差开始上升时停止小和复杂度L1正则化间的共适应每次更新参训练通过避免过度训练,(Lasso)促进稀疏性,数时使用不同的网络结构,防止模型对训练数据过度L2正则化(Ridge)防止相当于集成多个模型的效拟合,是一种简单而有效权重过大,共同减少模型果,有效减少过拟合风险的技术的有效复杂度,提高泛化能力除了上述方法外,增加训练数据、数据增强、批量归一化和模型集成等技术也能有效缓解过拟合在实践中,通常需要结合多种方法来获得最佳效果选择合适的模型复杂度也很重要——模型应该足够复杂以捕捉数据中的模式,但又不至于学习噪声解决过拟合是深度学习实践中的核心挑战,需要深入理解数据特性、模型架构和正则化技术,并通过反复实验找到最佳平衡点卷积神经网络()概述CNN输入层卷积层接收原始图像数据提取局部特征全连接层池化层综合特征进行分类降维并保留主要特征卷积神经网络()是一类专门用于处理网格结构数据(如图像)的深度神经网络它的主要特点是通过卷积操作捕捉局部特征,并通CNN过权重共享大幅减少参数数量,提高计算效率和抗平移性的基本结构包括卷积层、池化层和全连接层卷积层负责特征提取,通过滑动窗口应用卷积核提取局部特征;池化层降低特征图维度,CNN提高计算效率并增强模型对位置变化的鲁棒性;全连接层则整合这些特征进行最终决策的基本组件卷积层CNN卷积操作卷积核步长和填充卷积操作是通过滑动窗口方式,用卷积卷积核是一组可学习的权重,通常为小步长控制卷积核移动的距离,影响输出核(滤波器)与输入局部区域做点积运型矩阵(如或)不同卷积核特征图的大小填充则在输入边界添加3×35×5算这种操作能有效捕捉局部特征,如可以检测不同类型的特征浅层网络的像素(通常为零),帮助保持空间维度边缘、纹理和形状等,构成的核心卷积核通常学习简单特征(如边缘),并处理边界信息填充不添加额CNN valid机制深层网络则学习更复杂的特征(如物体外像素,填充保持输入输出尺寸same部件)相同卷积层是的核心组件,通过局部连接和权重共享两个关键机制大幅降低参数数量对于一个的图像,全连接网络需要CNN28×28个参数(假设有个输出),而的卷积核仅需要个参数,无论输入图像多大28×28×10=7840105×55×5=25卷积层的参数包括卷积核数量(决定特征图数量)、卷积核大小、步长和填充方式这些参数的选择对网络性能有重要影响,需要根据具体任务特点进行调整的基本组件池化层CNN最大池化平均池化池化的作用在每个池化窗口中选择最大值作为输出计算池化窗口内所有值的平均值作为输池化层主要有三大作用降低特征图维最大池化保留区域内最显著的特征,对出平均池化提供区域内特征的整体情度,减少计算量和参数数;提供一定程纹理和边缘等高频信息敏感它是况,对背景等低频信息敏感在需要考度的平移不变性,增强模型鲁棒性;扩CNN中最常用的池化方式,特别适合提取显虑区域整体特性的场景中表现良好,如大感受野,使网络能感知更大区域的信著特征的任务全局特征提取息,理解更复杂的模式池化层通常紧随卷积层之后,对特征图进行下采样以减少计算复杂度和控制过拟合常见的池化窗口大小为,步长为,这样2×22可以将特征图在每个维度上缩小一半近年来,一些研究表明池化层可以被带步长的卷积层替代,许多现代架构减少了池化层的使用全局平均池化(对整个特征CNN图取平均)则成为连接卷积层和全连接层的流行方式,可以显著减少参数数量经典架构CNN LeNet-5输入层32×32灰度图像,专为手写数字识别设计第一卷积层6个5×5卷积核,生成28×28×6特征图第一池化层2×2池化窗口,输出14×14×6特征图第二卷积层16个5×5卷积核,输出10×10×16特征图第二池化层2×2池化窗口,输出5×5×16特征图全连接层120个神经元,连接到输出层的10个类别LeNet-5是由Yann LeCun于1998年提出的开创性CNN架构,最初用于手写数字识别任务它首次成功地将卷积神经网络应用于实际问题,开创了深度学习在计算机视觉领域的应用尽管结构相对简单,LeNet-5引入了CNN的核心设计思想通过卷积层提取特征,通过池化层降维,最后通过全连接层进行分类这一架构模式影响了后续几乎所有的CNN设计,成为深度学习的重要里程碑经典架构CNN AlexNet网络结构AlexNet包含5个卷积层和3个全连接层,总计6000万参数首次使用ReLU激活函数替代传统Sigmoid,大幅加速训练过程采用重叠池化增强特征提取能力,并引入局部响应归一化提高泛化性能技术创新引入Dropout正则化技术,随机关闭50%的神经元,有效防止过拟合使用数据增强(翻转、裁剪和颜色变换)扩充训练样本首次在GPU上大规模并行训练,利用两块GTX580并行加速计算,开创了深度学习硬件加速的先河ImageNet竞赛中的表现2012年ImageNet挑战赛中,AlexNet以
15.3%的Top-5错误率远超第二名(
26.2%),引起学术界轰动这一突破证明了深度学习在大规模视觉识别任务中的强大潜力,标志着计算机视觉领域的范式转变,掀起深度学习热潮AlexNet由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton设计,是深度学习复兴的关键转折点它不仅在技术上取得突破,更重要的是重新激发了学术界对神经网络的兴趣,推动了深度学习的快速发展经典架构CNN VGGNet网络结构特点卷积核的优势深度与性能的关系3×3VGGNet以其简洁一致的设计理念著称,小卷积核具有多重优势两个3×3卷积VGGNet证明了网络深度对性能的重要整个网络仅使用3×3卷积核和2×2池化层的感受野等同于一个5×5卷积层,但影响,较深的VGG-19比VGG-16表现窗口,但层数更深(层)通过参数数量更少();更多的非更好但随着深度增加,也出现了梯度16-1918vs.25堆叠多个卷积层而非使用大卷积核,线性层()增强了网络表达能力;消失爆炸等训练难题,为后续ReLU/ResNet实现了更深层次的特征提取网多层小卷积能学习更复杂的特征,提高等架构的出现埋下伏笔的成功VGG VGG络分为个卷积块,每块包含个卷积模型准确性这种设计显著提高了参数验证了深度优先的设计思路,推动了52-4层和个池化层利用效率向更深方向发展1CNN由牛津大学开发,在年比赛中获得第二名尽管参数量庞大(约亿),但由于VGGNet VisualGeometry Group2014ILSVRC
1.38结构规整、易于理解,成为迁移学习和特征提取的热门基础网络,至今仍被广泛应用VGG经典架构CNN GoogLeNetInception模块网络in网络(NiN)结构•并行使用多种尺寸的卷积核(1×1,3×3,•利用1×1卷积增加网络深度5×5)•在不增加参数的情况下提高非线性表达能力•添加最大池化路径增强特征多样性•使用1×1卷积降维,减少计算量•增强跨通道特征交互,提升特征提取能力•将多路径结果拼接,形成丰富特征表示•降低模型复杂度,提高计算效率1×1卷积的作用•在保持空间维度的同时减少通道数量•引入额外非线性变换,增强表达能力•大幅减少参数和计算量•实现跨通道信息的整合与重组GoogLeNet(也称Inception v1)由Google团队开发,在2014年ILSVRC比赛中获得冠军其核心创新是Inception模块,通过并行使用不同尺寸的卷积核,能够同时捕捉不同尺度的特征网络总共22层,但参数量仅有500万,远少于同期的AlexNet(6000万)和VGGNet(
1.38亿)GoogLeNet还引入了辅助分类器帮助训练深层网络,缓解梯度消失问题其高效设计使其成为移动设备等资源受限环境的理想选择经典架构CNN ResNet深度学习困境随着网络深度增加,出现退化问题更深的网络不仅难以降低训练误差,甚至表现不如浅层网络这并非过拟合,而是深层网络难以优化所致传统深层网络反向传播时梯度容易消失,导致浅层参数难以更新残差学习残差学习通过学习输入和输出之间的差异(残差),而非直接学习映射关系假设理想映射为Hx,ResNet学习残差Fx=Hx-x,实际输出为Fx+x当最优映射接近恒等变换时,学习残差比学习完整映射更容易跳跃连接跳跃连接是实现残差学习的关键,将输入直接添加到输出这种短路连接不引入额外参数和计算复杂度,却能有效解决深层网络的训练问题跳跃连接还允许梯度直接流向浅层,有效缓解梯度消失问题ResNet由微软研究院的何恺明团队于2015年提出,一举将CNN深度推进到152层,获得ILSVRC竞赛冠军ResNet引入的残差学习思想彻底解决了深层网络训练困难的问题,是深度学习领域的重大突破ResNet的成功证明了深度是核心的观点,启发了后续DenseNet、SENet等架构如今,残差连接已成为深度网络设计的标准元素,在各类计算机视觉任务中广泛应用目标检测概述目标检测任务定义挑战与应用评价指标、IoU mAP目标检测是计算机视觉的核心任务之一,目标检测面临多样化尺度、遮挡、光照交并比()衡量预测框与真实框的IoU需要同时完成两个子任务定位(找出变化等挑战其应用十分广泛,包括自重叠度,计算两框交集与并集的比值目标在图像中的位置)和分类(识别目动驾驶(识别车辆、行人)、安防监控平均精度均值()综合评估检测器mAP标的类别)检测结果通常以边界框(行为分析)、零售(商品识别)、医在各类别上的性能,考虑精度与召回率()表示,包含目标位置、疗(病灶检测)和工业检测(缺陷识别)的平衡常用的评测标准包括bounding boxPASCAL尺寸和类别信息等关键领域()和(多阈VOC IoU=
0.5COCO IoU值)目标检测算法主要分为两大类两阶段检测器(如系列)先提取候选区域再进行分类,精度高但速度较慢;一阶段检测器R-CNN(如、)直接预测边界框和类别,速度快但精度相对较低近年来,两类方法的差距不断缩小,各有优势和适用场景YOLO SSD随着深度学习技术的发展,目标检测性能持续提升,正朝着更高精度、更快速度和更低资源消耗的方向发展系列R-CNNR-CNNRegion-based CNN,首个成功的深度学习目标检测方法使用选择性搜索生成约2000个候选区域,对每个区域提取CNN特征,然后用SVM分类虽然精度高,但计算冗余严重,训练复杂,推理速度慢(约47秒/图像)Fast R-CNN改进R-CNN的主要弱点,先提取整图特征再映射区域,大幅提升速度引入ROI池化层,使不同大小的区域产生固定尺寸特征,支持端到端训练多任务损失函数同时优化分类和边界框回归,速度提升约25倍(约2秒/图像)Faster R-CNN用区域提议网络(RPN)替代选择性搜索,实现了全卷积网络检测系统RPN与检测网络共享特征,生成高质量候选区域,大大加快检测速度(约
0.2秒/图像)整个系统可端到端训练,成为两阶段检测器的典范和众多变体的基础R-CNN系列代表了目标检测的重要发展历程,从最初的多阶段流程逐步优化为端到端可训练的网络架构Faster R-CNN提出的区域提议网络(RPN)是一个重要贡献,它证明了深度网络可以高效地生成高质量目标候选区域尽管后来出现了更快的一阶段检测器,Faster R-CNN仍是精度与速度权衡的代表性架构,在需要高精度的应用中广泛使用,如医学图像分析和卫星影像检测等领域系列YOLOYOLOv1首次提出You OnlyLook Once的一阶段检测理念,将检测视为单一回归问题将图像分为S×S网格,每个网格预测B个边界框及其置信度和C个类别概率实现了约45FPS的实时检测,但对小目标和密集目标的检测能力有限YOLOv2/YOLO9000引入批量归一化、锚框、多尺度训练等改进,精度和速度双提升采用Darknet-19骨干网络,加入残差连接YOLO9000能识别超过9000个类别,通过分层分类和联合训练实现,开创了大规模目标检测的先河YOLOv3及后续版本使用更深的Darknet-53骨干网络和多尺度预测,显著提升小目标检测能力特征金字塔结构允许在不同分辨率上检测目标后续YOLOv4-v8进一步优化,引入各种先进技术,如Mosaic数据增强、CSPNet和Transformer结构等,持续引领检测领域发展YOLO(You OnlyLook Once)系列是最成功的一阶段目标检测器之一,以其极高的检测速度和不断提升的精度著称YOLO将目标检测重新定义为回归问题,避开了传统的滑动窗口和区域提议方法,实现了真正的端到端训练和推理YOLOv3在各种实时应用中表现出色,成为实际部署的热门选择随着YOLOv4-v8的发展,YOLO系列不断缩小与两阶段检测器的精度差距,同时保持速度优势,展现了一阶段检测方法的巨大潜力语义分割任务定义(全卷积网络)FCN U-Net语义分割是计算机视觉中的一项基础任年提出的开创性工作,第一个端到专为医学图像分割设计的经典架构,呈2015务,目标是为图像中的每个像素分配一端的分割网络将分类网络中的全形结构包含编码器路径(下采样)FCN U个类别标签与目标检测不同,语义分连接层替换为卷积层,保留空间信息和解码器路径(上采样),并在相应层割提供精确的目标轮廓,实现像素级的通过反卷积(转置卷积)上采样恢复分之间添加跳跃连接这种设计能够同时场景理解然而,语义分割不区分同类辨率,并融合不同层次的特征图,实现保留上下文信息和精细特征,在有限数目标的不同实例粗略定位和精细边界的平衡据条件下也能取得优异性能语义分割在自动驾驶(道路场景理解)、医学影像(器官或病变区域分割)、卫星图像分析(土地利用分类)和增强现实(场景解析)等领域有广泛应用近年来的发展方向包括实时分割(如和)和基于的方法(如和BiSeNet ENetTransformer SETR)SegFormer与语义分割相关的任务还有实例分割(区分同类不同实例)和全景分割(结合语义和实例分割)这些技术共同构成了计算机视觉系统理解复杂场景的基础循环神经网络()概述RNN输入处理状态更新逐时间步接收序列数据融合当前输入和历史信息状态传递输出生成将更新后的状态传递到下一时间步基于当前状态产生预测循环神经网络(RNN)是专门用于处理序列数据的神经网络架构,能够捕捉数据中的时序依赖关系不同于传统前馈网络,RNN引入了隐藏状态(hiddenstate)概念,作为存储历史信息的记忆,使网络能够处理任意长度的序列输入RNN的核心优势在于参数共享机制——相同的权重在各个时间步重复使用,大大减少了模型参数数量这使得RNN能够处理变长序列,并泛化到训练时未见过的序列长度RNN按输入和输出的结构可分为一对
一、一对多、多对一和多对多等不同类型,适应各种序列处理任务长短期记忆网络()LSTM遗忘门决定丢弃哪些信息输入门决定更新哪些信息单元状态长期记忆的载体输出门决定输出哪些信息长短期记忆网络(LSTM)是一种特殊的RNN架构,由Hochreiter和Schmidhuber于1997年提出,专门设计用来解决普通RNN难以学习长期依赖关系的问题LSTM的核心创新是引入了细胞状态(cellstate)和三个控制门遗忘门、输入门和输出门遗忘门控制历史信息的保留程度;输入门决定新信息的更新程度;单元状态作为信息高速公路,允许相关信息长期传播;输出门则控制当前状态的输出内容这种精心设计的门控机制使LSTM能在长序列中保持梯度流动,有效解决了梯度消失问题,成功捕捉长距离依赖关系门控循环单元()GRU的结构与的比较应用场景GRU LSTM门控循环单元()是的简化相比有更少的参数和计算量广泛应用于自然语言处理、时间GRU LSTM GRU LSTMGRU版本,由等人于年提出(约),训练速度更快,在小数据序列预测、语音识别等领域在资源受Cho201475%仅有两个门更新门和重置门集上可能不易过拟合而的三门限环境(如移动设备)中,是理GRU LSTMGRU更新门决定保留多少历史信息和融合多结构提供更精细的记忆控制,在复杂任想选择对于实时应用和较短序列处理,少新信息;重置门控制历史信息对当前务上可能表现更好二者表现差异通常的高效性尤为有利而对于要求GRU计算的影响程度与不同,不大,具体选择取决于任务特点和资源捕捉复杂长期依赖关系的任务,如长文LSTMGRU没有单独的细胞状态,直接将历史信息约束在许多实验中,在小数据本生成或复杂时序建模,可能更GRU LSTM和当前输入融合为新的隐藏状态集上表现更好,而在大数据集上为适合LSTM略胜一筹的出现丰富了循环神经网络家族,为不同应用场景提供了更多选择实践中,和的选择并没有绝对答案,往往需GRU GRULSTM要针对具体任务进行实验比较有时两种架构的混合使用也能带来性能提升自然语言处理基础词嵌入Word2Vec GloVe词嵌入是将词汇映射到低维由Google团队于2013年提出斯坦福开发的词嵌入方法,稠密向量空间的技术,是大的高效词嵌入方法,包含两结合全局矩阵分解和局部上多数NLP任务的基础通过种模型架构Skip-gram预下文窗口方法的优点学习词的分布式表示,词嵌测上下文词,CBOW预测目GloVe通过构建词-词共现矩入能够捕捉词与词之间的语标词Word2Vec利用浅层阵,直接优化全局词共现统义和句法关系,使相似词在神经网络,通过大规模文本计,使训练更加高效相比向量空间中相近这种连续语料训练,使词向量具备惊Word2Vec,GloVe更能捕捉表示克服了传统one-hot编码人的语义特性,如国王-男全局语料信息,在类比任务的维度灾难和稀疏性问题人+女人≈王后Word2Vec等评估中表现优异,成为另的出现大大加速了NLP的发一种广泛使用的预训练词向展量词嵌入技术彻底改变了NLP领域,为文本的计算机表示提供了强大的基础近年来,随着深度学习技术的发展,特别是大型预训练语言模型的出现,静态词嵌入已逐渐被上下文相关的动态词嵌入所取代,如ELMo、BERT和GPT系列模型生成的表示序列到序列模型()Seq2Seq编码器将输入序列压缩为上下文向量状态传递将编码器最终状态传递给解码器解码器基于上下文向量生成输出序列注意力机制动态关注输入序列的相关部分序列到序列(Seq2Seq)模型是一种用于将一个序列映射到另一个序列的架构,最初由Google团队于2014年提出传统Seq2Seq模型由编码器和解码器两部分组成,编码器将输入序列编码为固定维度的上下文向量,解码器则基于该向量生成输出序列注意力机制是Seq2Seq的重要改进,解决了传统模型信息瓶颈问题它允许解码器在生成每个输出时关注输入序列的不同部分,大幅提升长序列处理能力Seq2Seq广泛应用于机器翻译、文本摘要、对话系统等领域,是现代NLP的基础架构之一模型Transformer自注意力机制多头注意力位置编码的核心创新,允许模型直多头注意力将输入投影到多个子空间,由于自注意力本身不包含位置信息,Transformer接计算序列中任意两个位置之间的关系并行计算多组注意力,最后合并结果引入位置编码来保留序列Transformer自注意力通过查询、键和值三这使模型能够同时关注不同表示子空间顺序原始使用正弦和余Q KV Transformer个矩阵计算,每个位置可以关注序列的信息,捕捉更丰富的特征关系例如,弦函数生成的固定位置编码,不同位置中所有位置,捕捉长距离依赖公式为有些注意力头可能关注句法结构,而其和维度对应不同频率的波后续研究也,他头则关注语义关系,增强了模型的表提出了可学习的位置编码和相对位置编AttentionQ,K,V=softmaxQK^T/√dV其中是缩放因子达能力码等变体,进一步提升了位置信息的表√d达能力由团队在年论文中提出,彻底摒弃了循环和卷积结构,完全基于注意力机制构Transformer Google2017Attention isAll YouNeed建这一设计实现了高度并行化计算,大幅提升了训练效率,同时在捕捉长距离依赖方面表现出色的成功引发了领域的范式转变,催生了、等强大模型,并逐渐扩展到计算机视觉等其他领域如今,Transformer NLPBERT GPT已成为深度学习中最具影响力的架构之一Transformer模型BERT预训练与微调双向编码•预训练阶段在大规模无标注语料上学习通•同时考虑上下文的左侧和右侧信息用语言表示•使用Transformer编码器堆叠,每层双向自注•微调阶段针对特定下游任务添加输出层并意力微调参数•捕捉更全面的上下文依赖关系•显著降低特定任务的数据需求和训练成本•超越传统单向模型或浅层拼接的表示能力•实现知识迁移,提高模型泛化能力掩码语言模型•随机掩盖15%的输入词元,模型预测被掩盖的原始词•解决双向训练中的信息泄露问题•被掩盖词中80%用[MASK]替换,10%随机替换,10%保持不变•同时训练下一句预测任务,学习句间关系BERT(Bidirectional EncoderRepresentations fromTransformers)由Google AI团队于2018年提出,是NLP领域的里程碑式模型BERT通过双向深度上下文表示,在多个基准测试中刷新了记录,推动了预训练语言模型的蓬勃发展BERT的成功之处在于其强大的预训练-微调范式,以及深度双向上下文建模能力基础版BERT包含
1.1亿参数(12层),大型版本包含
3.4亿参数(24层)除原始英文版外,还有多语言BERT和针对特定语言的变体,如中文BERT、RoBERTa和ALBERT等改进版本也相继出现系列模型GPTGPT-12018年由OpenAI推出,包含
1.17亿参数,使用12层Transformer解码器首创预训练+微调的NLP范式,在多个任务上取得当时最先进结果预训练阶段使用标准语言模型目标,GPT-2通过预测下一个词学习语言表示尽管取得突破,但规模有限,生成能力尚显基础2019年发布,参数规模扩大至15亿,结构基本沿用GPT-1但深度和宽度增加使用更多样化的网络文本训练,显著提升了生成质量和通用性首次展示了零样本学习能力,无需任务特定训练即可执行多种任务因生成逼真文本的能力,引发了AI伦理讨论,最初仅部分GPT-3开放2020年问世,参数量飞跃至1750亿,是当时最大语言模型结构与前代相似,但规模效应带来质变展示出惊人的少样本学习能力,仅通过任务描述和少量示例即可完成复杂任务能够生成高质量文章、对话、代码和创意内容,开启大型语言模型新时代通过API商业化,不开源模型权重GPT(Generative Pre-trained Transformer)系列代表了生成式预训练模型的发展历程,从GPT-1的初步探索到GPT-3的规模化突破,展示了模型规模扩大带来的涌现能力与BERT的双向架构不同,GPT系列使用单向自回归架构,更适合文本生成任务随着GPT-4等更大规模模型的出现,以及微调技术的发展,大型语言模型展现出通用人工智能的潜力,能够理解和生成人类语言、编写代码、解决问题,甚至展示出推理能力,引领NLP进入新的发展阶段生成对抗网络()概述GAN随机噪声生成初始输入生成器创造逼真样本判别器区分真假样本对抗训练双方不断提升能力生成对抗网络(GAN)是由Ian Goodfellow于2014年提出的创新生成模型框架,被称为近十年来机器学习领域最有趣的想法GAN由两个神经网络组成生成器(Generator)负责从随机噪声创造逼真样本;判别器(Discriminator)则试图区分真实样本和生成样本这两个网络通过对抗训练相互提升生成器努力欺骗判别器,判别器则努力提高鉴别能力理论上,这种博弈最终达到纳什均衡,生成器能产生与真实数据分布一致的样本GAN的训练过程类似于伪造者与鉴定专家的较量,通过不断博弈提升双方能力经典模型GANDCGAN WGANCycleGAN深度卷积生成对抗网络,首个成功将卷积解决了训练中的模周期一致性实现了无需配对数据的跨Wasserstein GAN GANGAN神经网络应用于的架构引式崩溃和梯度消失问题通过使用域图像转换它同时训练两对,实现GAN DCGANGAN入批量归一化、使用全卷积网络取代池化,距离(地球移动距离)替代双向转换(如照片油画)关键创新是Wasserstein↔并设计了稳定的网络结构指南它将散度,提供了更稳定的梯度和有循环一致性损失转换后再转回原域应接GAN JSWGAN的训练稳定性和生成质量提升到新高度,意义的损失指标它移除了原始中的近原始图像这一约束使模型能够学习保GAN首次实现了可控的高质量图像生成,并展输出层,使用权重裁剪确保留内容的有意义映射,而非随机映射sigmoid示了潜在空间的有趣性质,如向量算术和约束进一步改进,在风格迁移、季节变换、物体Lipschitz WGAN-GP CycleGAN平滑过渡用梯度惩罚替代权重裁剪,提供更平滑的转换等任务中表现出色训练过程除了上述经典模型,家族还包括众多创新变体系列在高分辨率人脸生成上取得突破;条件()和增加GAN StyleGANGAN CGANInfoGAN了可控性;实现了由文本生成高质量图像;大幅提升了生成质量和多样性;而通过渐进式训练生成高分辨率图StackGAN BigGANProGAN像的发展代表了生成模型的重要进步,为计算机视觉、图形学和创意应用开辟了新可能,也为人工智能创造力的讨论提供了新视角GAN变分自编码器()VAE编码器将输入映射到潜在分布参数(均值μ和标准差σ)而非确定点,引入概率建模这种随机性使VAE能够生成多样化样本,并提供更平滑的潜在空间,有利于插值和操作重参数化技巧VAE的关键创新,通过引入外部随机性(ε~N0,1)并计算z=μ+σ*ε,实现随机采样的同时保持梯度流动这一技巧解决了随机节点不可导的问题,使得整个网络可以通过反向传播进行端到端训练解码器将从潜在空间采样的点重构为原始数据空间的样本VAE训练同时优化重构损失和KL散度,平衡重构质量和潜在空间正则化这种双重目标使VAE学习有意义的、结构化的潜在表示变分自编码器(VAE)由Kingma和Welling于2013年提出,是一种结合变分推断和深度学习的生成模型与标准自编码器不同,VAE不仅学习压缩表示,还学习概率分布,使其成为真正的生成模型,能够产生全新样本相比GAN,VAE的优势在于训练稳定、理论基础扎实、潜在空间结构良好,便于插值和属性操作然而,VAE生成的样本往往比GAN更模糊,因为其优化重构损失而非直接优化感知质量两种模型各有优势,VAE在表示学习和结构化生成方面表现出色,而GAN则以生成高保真样本见长强化学习基础智能体(Agent)环境(Environment)学习决策并与环境交互的实体提供状态并响应智能体的行动奖励(Reward)行动(Action)环境对行动的反馈信号智能体可以执行的操作强化学习是一种机器学习范式,智能体通过与环境交互并从反馈中学习与监督学习不同,强化学习不依赖于标注数据,而是通过试错过程自主探索最优策略强化学习基于马尔可夫决策过程(MDP)理论,通过优化累积奖励来学习决策策略是智能体的行为函数,将状态映射到行动;价值函数估计状态或状态-行动对的长期回报,指导智能体决策Q-learning是一种经典的无模型强化学习算法,通过学习动作价值函数Qs,a来找到最优策略,广泛应用于游戏、控制和机器人等领域深度强化学习(深度网络)策略梯度方法方法DQN Q Actor-Critic由开发,首次成功将深度学直接优化策略函数而非通过价值函数间结合策略梯度和价值函数方法的优点DeepMind习与强化学习结合使用深度神经接学习算法使用蒙特卡(策略网络)负责选择动作,DQN REINFORCEActor网络近似函数,实现了端到端学习洛采样估计策略梯度;结合优(价值网络)评估动作质量并指导QA2C/A3C Critic核心创新包括经验回放缓冲区(打破样势函数降低方差;通过约束策略改进首次将扩TRPO ActorDDPG Actor-Critic本相关性)和目标网络(稳定训练)更新步长保证单调改进;简化展到连续动作空间;通过多种技巧PPO TD3在游戏上取得超人表现,开创了深,通过剪裁目标函数实现稳定高减少过估计;引入最大熵框架,鼓Atari TRPOSAC度强化学习时代效训练,成为当前最流行的策略梯度方励探索这类方法在机器人控制等连续法之一动作任务中表现卓越深度强化学习通过深度神经网络增强了强化学习的表示能力,使其能够处理高维感知输入(如图像)和复杂决策问题它突破了传统强化学习在状态空间表示方面的局限,实现了从原始感知到行动的端到端学习深度强化学习已在游戏、机器人控制、自动驾驶、推荐系统等领域取得重大突破然而,它仍面临样本效率低、探索利用权衡、-泛化能力和稳定性等挑战,是当前最活跃的研究方向之一和AlphaGo AlphaZero蒙特卡洛树搜索MCTS是AlphaGo系列的核心搜索算法,通过四个步骤迭代构建决策树选择(从根节点选择最有前景的路径)、扩展(添加新节点)、模拟(随机对弈至终局)和反向传播(更新路径上节点价值)在AlphaGo中,神经网络辅助MCTS提高搜索效率,指导探索更有前景的路径自我对弈AlphaGo Zero和AlphaZero的关键创新,完全摒弃了人类对弈数据,仅通过与自身对弈生成训练样本系统从随机策略开始,不断自我对弈并用胜负结果更新网络这种自举学习方式使模型超越人类知识限制,发现全新策略随着训练进行,策略网络和价值网络不断改进,形成良性循环通用游戏AIAlphaZero将AlphaGo Zero的方法扩展到多种棋类游戏,使用完全相同的算法和网络架构征服围棋、国际象棋和日本将棋这证明了其惊人的通用性和适应能力仅通过游戏规则,无需任何领域知识,AlphaZero能在几小时内达到超人水平,展示了强大的通用学习能力AlphaGo及其后续版本代表了深度强化学习的巅峰成就2016年,AlphaGo战胜世界冠军李世石,震惊世界AlphaGo Zero随后出现,仅通过自我对弈完全超越原版AlphaGo最终,AlphaZero将这一方法推广到多种游戏,成为通用游戏AI的典范这些成就的意义远超游戏本身,展示了AI自我提升的潜力,以及摆脱人类先验知识后可能达到的高度AlphaGo系列的创新方法也启发了科学研究、药物发现和蛋白质折叠等领域的重大突破迁移学习迁移学习的概念预训练模型的使用微调技巧迁移学习是将在一个任务(源使用在大规模数据集(如有效微调需要一系列技巧使任务)上学到的知识应用到另ImageNet、COCO)上预训练用较小学习率防止破坏预训练一个相关任务(目标任务)的的模型作为起点是最常见的迁特征;分层微调,先调整高层技术它解决了深度学习中的移学习形式预训练模型已学再逐步解冻底层;早停以防过数据饥饿问题,特别是当目标习了通用特征,如边缘、纹理拟合;正则化技术如权重衰减任务的标注数据有限时迁移和形状,可作为强大的特征提和Dropout;数据增强扩充有限学习基于共享表示的思想,利取器在计算机视觉中,样本;渐进式大小调整适应不用不同任务间的共性,避免从ResNet、VGG等预训练模型广同分辨率需求对小数据集,零开始学习泛用作骨干网络;在NLP中,有时只微调分类器而冻结特征BERT、GPT等预训练语言模型提取部分效果更佳也成为标准做法迁移学习已成为深度学习的标准实践,大幅减少了训练时间和数据需求在图像分类、目标检测、语义分割等视觉任务中,预训练模型能将训练时间从数周缩短至数小时,并在小数据集上取得出色性能当源任务和目标任务差异过大时,可能出现负迁移现象,导致性能下降针对这一问题,领域适应(Domain Adaptation)等技术被开发出来,专门处理源域和目标域分布不一致的情况随着自监督学习的发展,预训练模型的质量和通用性正在不断提高小样本学习N-way K-shot问题原型网络MAML(模型无关元学习)小样本学习的标准设定,指从个新类别基于距离度量的小样本学习方法在嵌入寻找对新任务敏感的模型初始化,N MAML中每类仅有个标注样本(通常)进行空间中,计算每个类别样本的平均向量作使其仅需少量更新即可适应新任务训练K K≤5学习这种低数据条件模拟人类快速学习为原型,然后将查询样本分类到最近的过程是学习如何学习在内循环中,模能力,要求模型高效利用有限信息评估原型所属类别这种简单优雅的方法在多型快速适应各个任务;在外循环中,更新时,通常在未见过的类别上测试,检验模个小样本任务上表现出色原型网络依赖初始参数使得所有任务适应后的性能最大型对新概念的泛化能力,而非简单记忆良好的特征表示,通常使用元学习训练编化适用于各种模型架构,且在多MAML码器,使其生成的特征空间有利于小样本种领域展示了强大的小样本学习能力分类小样本学习研究如何使系统能像人类一样,从少量例子中快速学习新概念这一领域结合了迁移学习、元学习和表示学习等方法,旨在AI打破传统深度学习对大量标注数据的依赖除了原型网络和,匹配网络、关系网络和等方法也取得了显著成果近年来,预训练语言模型展示了惊人的少样本能力,MAML Reptile等模型仅通过任务描述和少量示例就能适应新任务,为小样本学习开辟了新方向GPT-3自监督学习自监督学习的原理对比学习•利用数据本身创建监督信号,无需人工标注•学习区分相似和不相似样本的表示•设计预训练任务(前置任务)让模型学习有用表•正样本对通常由数据增强变体创建示•拉近相似样本表示,推远不同样本表示•前置任务解决难度适中,既有挑战性又可解•InfoNCE损失是常用的对比目标函数•学习到的表示可迁移到下游任务,大幅减少标注•有效的负样本选择对性能至关重要需求SimCLR模型•谷歌提出的简洁而强大的对比学习框架•对同一图像应用不同随机增强创建正样本对•使用大批量和温度参数优化对比损失•投影头将表示映射到对比空间•证明简单架构配合正确训练策略可达到SOTA自监督学习是近年来深度学习最活跃的研究方向之一,旨在减少对标注数据的依赖,利用海量无标注数据学习通用表示在计算机视觉中,早期方法使用拼图、旋转预测和着色等前置任务;而在NLP领域,掩码语言模型和下一句预测等方法已取得巨大成功对比学习的兴起使自监督表示质量大幅提升,MoCo、SimCLR和BYOL等方法在多个下游任务中接近甚至超过了监督预训练最近的研究还探索了掩码自编码(如MAE)和教师-学生蒸馏等非对比方法,进一步拓展了自监督学习的边界联邦学习本地训练数据保留在原始设备上,每个参与者在本地数据上训练模型这避免了敏感数据的集中存储和传输,大幅降低隐私泄露风险局部训练利用分散的计算资源,同时保持数据的私密性模型聚合参与者上传模型更新(如梯度或权重)而非原始数据中央服务器通过聚合函数(如加权平均)合并这些更新,生成全局模型FedAvg是最常用的聚合算法,在通信效率和模型性能间取得平衡模型分发聚合后的全局模型分发回所有参与者,作为下一轮本地训练的起点这个过程反复迭代,使模型逐步改进,同时保持数据隐私整个系统形成闭环,实现协作学习而无需数据共享联邦学习是一种分布式机器学习范式,允许多方在保护数据隐私的前提下协作训练模型它最早由Google提出,用于改善移动设备上的键盘预测,如今已发展为隐私保护AI的重要技术联邦学习解决了数据孤岛问题,使不同组织或设备能够共同构建更强大的模型联邦学习面临多种挑战非独立同分布数据导致的统计异质性;设备性能和连接性差异带来的系统异质性;以及通信效率、模型收敛性等问题为增强隐私保护,联邦学习常与差分隐私、安全多方计算和同态加密等技术结合使用,构建更全面的隐私保护机制模型压缩与加速知识蒸馏模型剪枝量化由Hinton提出的技术,将复杂教师模型的知识移除神经网络中不重要的连接或神经元,减少参降低模型权重和激活值的数值精度,如从32位转移到简单学生模型学生不仅学习硬标签,还数数量和计算量结构化剪枝移除整个卷积核或浮点数降至8位整数甚至1-2位量化感知训练在模仿教师的软输出(概率分布),获取类间相似神经元,产生规则结构便于硬件加速;非结构化训练过程中模拟量化效果,提高量化模型精度性等丰富信息蒸馏温度参数控制软标签的平滑剪枝移除单个权重,实现高压缩率但需特殊硬件基于权重聚类的量化可实现更精细的位分配二度,平衡中间特征蒸馏和响应蒸馏可进一步提升支持常用标准包括权重大小、激活值、重建误值化和三值化是极端情况,大幅减少存储需求和效果这种方法产生的小模型往往比直接训练的差等剪枝后通常需要微调恢复性能,迭代剪枝计算量,但可能导致较大精度损失量化是移动同等规模模型性能更好-微调策略可达到更高压缩率和边缘设备部署的关键技术随着深度学习模型规模不断增长,模型压缩与加速技术变得日益重要这些技术使大型模型能够部署在资源受限的环境中,如移动设备、物联网设备和实时系统不同压缩技术可以组合使用,如先剪枝再量化,获得更大的压缩比例除了上述方法,轻量级网络设计(MobileNet、ShuffleNet等)、低秩分解、早期退出机制和动态计算等技术也为模型加速提供了多种路径硬件感知优化则考虑特定硬件平台特性,进一步提升实际性能神经架构搜索()NASNAS的概念搜索空间搜索策略神经架构搜索是自动设计最优神经网络架定义可能的网络架构集合,包括操作类型早期使用强化学习()或进化算法NAS RL构的技术,旨在减少人工设计的时间和经(卷积、池化等)、连接模式、层数和宽探索架构空间,代价是需要训练数千个模验需求传统神经网络设计依赖专家经验度等宏搜索空间允许完全灵活的架构设型梯度优化方法将架构参数与模型权重和试错,而将这一过程自动化,能够计,但空间巨大;而基于单元的搜索空间联合优化,大幅提高效率随机搜索和贝NAS发现人类设计者可能忽略的创新架构(如)构建固定单元并重复堆叠,叶斯优化在某些情况下也显示出惊人效果NASNet处于(自动机器学习)的核心,大幅减小搜索空间超网络方法(如近期发展如一次性,通过预测架构性NAS AutoMLNAS实现了从数据到模型的自动化流程)使用权重共享减轻训练负担,提能进一步加速搜索,使设计周期从数月缩DARTS高搜索效率短至数小时已取得显著成功,在图像分类、目标检测和语义分割等任务上发现的架构超越了手工设计的网络、和NAS EfficientNetMobileNetV3等自动设计的网络已成为业界标准然而,大规模仍面临巨大的计算需求,推动研究向更高效的方法发展NASNet NAS未来研究方向包括多目标优化(同时考虑精度、速度、能耗等)、硬件感知设计(针对特定硬件平台优化)、迁移学习(跨任务和数NAS据集重用搜索知识)以及更可解释的搜索机制,以理解自动发现的架构为何有效可解释性AI可解释性的重要性LIME(局部可解释性模型)Grad-CAM随着在关键决策领域应用增加,理解模通过扰动输入特征并观察对预测的影专为设计的可视化技术,使用梯度信AI LIMECNN型决策过程变得至关重要可解释性帮助响,构建复杂模型的局部近似它生成对息流生成粗略位置图,突显图像中对预测建立信任(用户需要理解为何做出特定决特定预测的解释,而非整体模型解释最相关的区域它利用最后一个卷积层特策);满足监管要求(如解释权对任何模型适用,无需了解内部结构征图的梯度加权平均,生成类别激活图GDPR LIME);促进调试和完善(了解错误原因);对于图像,标识对分类最重要的超像提供直观可解释的热力图,显LIME Grad-CAM发现偏见和不公正;以及促进科学发现素;对文本,突显关键词;对表格数据,示模型在看哪里,帮助理解的决策CNN(模型洞察可能启发新理论)展示各特征的贡献权重依据和验证其关注合理特征可解释性方法大致分为两类内在可解释模型(如决策树和线性模型)在本质上可解释;事后解释方法(如和)则分析AI LIMEGrad-CAM已训练的黑盒模型根据解释范围,又可分为全局解释(整体模型行为)和局部解释(特定预测解释)除上述方法外,(基于博弈论的特征贡献计算)、特征可视化(最大化特定神经元激活)、对抗例子(找到改变预测的最小变化)SHAP和概念激活向量(识别高级概念表示)等技术也在不断丰富可解释性的工具箱随着系统影响扩大,可解释性研究将持续成为核心关AI AI注点对抗样本对抗样本的定义生成方法•通过添加人类难以察觉的微小扰动,导致模型错误分•FGSM(快速梯度符号法)单步攻击,计算损失对输类的样本入的梯度,沿梯度方向添加扰动•扰动通常限制在小范围内,如ε-球内(L∞,L2或L0范数•PGD(投影梯度下降)迭代版FGSM,多次小步更约束)新并投影回约束集•对人眼看似相同,但能使高精度模型完全失效•DeepFool寻找最小扰动使样本越过决策边界•揭示了深度学习模型与人类感知的根本差异•CW攻击优化特定目标函数,生成高质量对抗样本•黑盒攻击无需访问模型梯度,通过查询或迁移攻击生成对抗样本防御策略•对抗训练将对抗样本纳入训练过程,提高模型鲁棒性•防御蒸馏使用软标签训练,平滑决策边界•输入变换通过各种预处理(量化、去噪、JPEG压缩等)破坏对抗扰动•梯度遮蔽设计防止攻击者获取有用梯度的机制•检测方法识别并拒绝可能的对抗样本对抗样本的存在揭示了深度学习模型的根本脆弱性,对AI系统在安全关键领域的应用构成挑战研究表明,对抗样本还具有令人惊讶的迁移性,能够攻击不同架构的模型,甚至适用于物理世界这一现象激发了对模型泛化和鲁棒性的深入思考在攻防博弈中,新的攻击方法不断出现,而防御策略往往被更强的攻击击败目前,对抗训练是最有效的防御方法,但它增加了计算成本,并可能影响标准样本的性能研究人员正在探索基于不同理论基础的防御方法,包括来自认证鲁棒性和分布外泛化的方法深度学习中的伦理问题隐私保护算法偏见深度学习模型可能无意中记忆训练数据中的敏深度学习模型可能反映并放大训练数据中的社感信息对抗性攻击可能提取这些信息,如成会偏见,导致对特定群体的歧视性结果例如,员推断攻击能确定特定样本是否用于训练模在招聘、贷款、刑事司法等领域的自动化决策型也可能泄露个人特征,影响匿名化效果解系统中发现的性别、种族偏见偏见可来自样决方案包括差分隐私(添加统计噪声)、联邦本选择、标签偏差和特征选择等多个环节减学习、同态加密和安全多方计算等隐私保护技轻策略包括平衡数据、公平性约束、对抗减偏术和后处理校正等安全性考虑AI系统的安全性涉及多个层面对抗攻击可能导致自动驾驶等关键系统误判;数据投毒攻击通过污染训练数据植入后门;深度伪造技术可生成逼真的虚假媒体内容,造成安全隐患强化学习系统可能出现意外的奖励黑客行为,追求目标但偏离预期应对方法包括鲁棒训练、红队测试和形式化验证等随着AI系统在社会中的深入应用,伦理考量变得日益重要透明度和可解释性是解决信任问题的关键——用户有权了解AI如何做出影响他们的决策AI系统开发者需要考虑其技术的社会影响,避免强化不平等或造成伤害监管与治理是确保AI负责任发展的重要机制多个国家和组织正在制定AI伦理准则和法规,如欧盟的AI法案行业自律、多方参与的治理机制和伦理审查流程也在不断发展教育培养对AI伦理的理解和责任感同样重要,深度学习教育应包含伦理维度深度学习框架PyTorchPyTorch的特点基本操作动态计算图由(现)开发,采的核心是张量()操作,的动态计算图允许在运行时构建PyTorch FacebookMeta PyTorchTensor PyTorch用动态计算图设计,支持即时执行支持丰富的数学运算和神经网络功能数和修改网络,特别适合研究探索和复杂模()这种设计使代码直据处理使用和类实现型开发支持条件分支和循环等控制流,eager executionDataset DataLoader观易调试,执行流程与代码一致,高效数据加载和预处理模型构建可通过使得变长序列处理和动态模型结构实现变Python便于理解提供强大的加速继承实现自定义网络,或使用得简单此设计在调试时可立即看到中间PyTorch GPUnn.Module和自动微分功能,同时保持风格的内置层快速搭建优化器如、结果,降低了开发难度Python SGDAdam灵活性和可读性等封装在模块中,便于实现各种训练optim算法生态系统日益壮大,包括(计算机视觉)、(自然语言处理)、(音频处理)等领域专用库PyTorch TorchVisionTorchText TorchAudio和等高级封装进一步简化了模型开发流程,提高生产力和支持将模型部署到移动设备PyTorch LightningFastai PyTorchMobile TorchServe和生产环境在学术界特别受欢迎,大部分研究论文实现使用此框架随着的发布,引入了编译器优化和更强的分布式训练能力,PyTorch PyTorch
2.0进一步提升了性能和易用性,巩固了其在深度学习框架中的领先地位深度学习框架TensorFlowTensorFlow
2.x的特点TensorFlow由Google开发,
2.x版本引入了即时执行模式,使API更直观易用,同时保留了静态图的高性能优势TensorFlow提供完整的生态系统,涵盖模型开发、训练、部署全流程其分布式训练能力尤为突出,支持多GPU、多机训练和TPU加速,适合大规模模型训练Keras APIKeras成为TensorFlow
2.x的官方高级API,提供简洁直观的模型构建接口其Sequential API支持快速堆叠层构建线性网络;Functional API允许构建多输入输出的复杂网络;而自定义Model类则提供最大灵活性Keras预置丰富的层类型、损失函数和优化器,大幅减少样板代码,加速开发静态图与动态图TensorFlow
2.x支持两种执行模式默认的即时执行提供灵活性和易用性;而通过@tf.function装饰器可将代码转换为静态图,获得更高性能静态图通过预编译优化计算路径,减少执行开销,支持更多后端优化,适合生产部署;动态图则便于实验和调试,适合研究和开发阶段TensorFlow的生产部署能力非常强大,TensorFlow Serving提供高性能模型服务;TensorFlow Lite支持移动和嵌入式设备部署;TensorFlow.js允许在浏览器和Node.js环境中运行模型;TensorFlowExtendedTFX提供全栈MLOps解决方案,实现端到端机器学习流水线TensorBoard是TensorFlow生态中的可视化工具,支持训练过程监控、梯度分析、模型图可视化和嵌入向量投影等功能,有助于理解模型行为和调试问题TensorFlow Hub提供预训练模型共享和复用,加速应用开发在工业界和生产环境中,TensorFlow拥有广泛应用模型训练技巧学习率调度批量归一化梯度裁剪•学习率衰减随时间或步数逐渐降低学习率,初期•规范化每层输入分布,减轻内部协变量偏移问题•限制梯度范数不超过阈值,防止梯度爆炸大步收敛,后期小步精调•加速训练收敛,允许使用更高学习率•保持梯度方向不变,仅调整幅度•热重启周期性降低再增大学习率,跳出局部最小•增加网络稳定性,减轻对参数初始化的敏感度•对RNN等深层循环网络尤为重要值•提供轻微正则化效果,提高泛化性能•增强训练稳定性,特别是在处理长序列时•学习率预热从极小值缓慢增加,稳定早期训练•在推理时使用训练阶段估计的统计量•可以按全局或单个参数应用裁剪•余弦退火沿余弦曲线平滑调整学习率,减少震荡•一循环策略先增后减,快速找到最优区域除了上述技巧,有效的深度学习训练还涉及多个方面权重初始化(Xavier/He初始化)影响信号传播;优化器选择和超参数设置直接关系到收敛速度和质量;学习率预热对大批量训练至关重要;权重衰减(L2正则化)控制模型复杂度;梯度累积允许使用更大的等效批量大小随机梯度下降的批量大小选择也很关键大批量提供更准确的梯度估计但可能陷入尖锐最小值,较小批量虽然估计噪声大但提供隐式正则化效果混合精度训练(如FP16和FP32混合使用)可大幅提升计算效率和内存利用率,使更大模型和批量成为可能模型评估与调试交叉验证学习曲线分析TensorBoard的使用交叉验证是评估模型泛化能力的重要技术K学习曲线展示训练和验证性能随训练进度的TensorBoard是强大的可视化工具,支持实时折交叉验证将数据分为K份,轮流使用K-1份变化,是诊断模型问题的强大工具如果训监控训练指标、梯度分布、参数变化等关键训练和1份验证,获得更可靠的性能估计分练误差和验证误差都高,表明欠拟合,应增信息标量面板跟踪损失和准确率变化;分层抽样确保每折数据类别分布一致;时间序加模型复杂度;如果训练误差低但验证误差布面板展示权重和梯度统计特性;图形面板列数据则应使用滚动预测交叉验证,保持时高,表明过拟合,应加强正则化;理想情况可视化模型结构;嵌入投影查看高维表示;间顺序交叉验证有助于选择最佳模型和超下两条曲线应随训练收敛并保持较小差距配置文件分析推断性能瓶颈各框架都支持参数,减轻对特定数据划分的敏感性梯度范数和更新幅度变化也可提供优化过程TensorBoard或类似工具,使复杂模型的行为洞察更透明可理解调试深度学习模型需要系统方法首先确保数据处理正确(检查数据分布、标准化方法);然后用简单模型建立基准,逐步增加复杂度;实施可控变化原则,每次只修改一个方面以理解影响监控激活值和梯度分布有助于识别层饱和或梯度消失问题深度学习训练常见问题包括学习率不当(过大导致发散,过小导致停滞);批量归一化层统计量不稳定;梯度爆炸或消失;权重初始化不当;以及优化器超参数设置不合理等有效的日志记录和可视化是诊断这些问题的关键工具,帮助研究者从失败中学习并改进模型深度学习在计算机视觉中的前沿进展自监督视觉表示学习无需人工标注,从图像本身学习有效表示对比学习方法如SimCLR和MoCo通过数据增强创建正样本对,学习区分相似和不相似样本;掩码图像建模(如MAE)在图像补全中展现强大能力;DINO和CLIP等方法通过教师-学生框架和多模态学习进一步提升表示质量3D视觉神经辐射场(NeRF)利用坐标网络表示3D场景,支持新视角渲染;点云处理网络如PointNet++处理非结构化3D数据;3D重建网络能从单视图或多视图恢复3D形状;深度估计和SLAM技术结合深度学习取得显著进步,为AR/VR和机器人视觉奠定基础视频理解时空卷积网络有效提取动态特征;Transformer架构如TimeSformer和ViViT适应长时间依赖建模;SlowFast网络通过双路径处理视频;无监督视频表示学习减少标注需求;密集视频预测任务如动作预测、视频生成和视频编辑展现深度学习在视频领域的强大能力视觉Transformer(ViT)体系结构正在改变计算机视觉格局,在多个任务上超越传统CNN基于Transformer的检测器(如DETR)实现端到端目标检测;分割Transformer突破传统分割方法限制;而MLP-Mixer等纯MLP架构则探索非卷积非注意力的新范式生成模型成为视觉领域最活跃的研究方向之一扩散模型(如DALL-E、Stable Diffusion和Imagen)展示惊人的文本到图像生成能力;视频生成模型实现逼真动态内容创建;神经风格迁移和图像到图像转换等技术则为创意表达提供新工具,重新定义视觉内容创作的可能性深度学习在自然语言处理中的前沿进展大规模语言模型GPT系列、PaLM和LLaMA等模型规模达到数千亿参数,展现出惊人的涌现能力这些模型不仅掌握语言生成,还表现出推理、常识理解和上下文学习能力指令微调和RLHF等技术进一步提升模型对齐程度,使大模型能更好地理解人类意图和价值观,为通用人工智能奠定基础多模态学习CLIP等模型通过对比学习将视觉和文本联合表示,实现零样本转移;大型多模态模型如GPT-4将文本、图像甚至音频理解统一到单一框架;多模态生成模型能根据文本描述生成图像、视频或音频,实现跨模态内容创作;多模态问答系统能理解并回答关于不同形式内容的问题,为更自然的人机交互开辟道路跨语言迁移多语言预训练模型如XLM-R和mT5支持100多种语言,统一表示空间;无监督机器翻译减少对平行语料的依赖;跨语言知识迁移使低资源语言受益于高资源语言的数据和模型;零样本和少样本跨语言迁移实现新语言的快速适应;代码生成和理解也成为语言模型的重要能力,模糊了自然语言和编程语言的界限语言模型参数高效微调方法如LoRA、Adapter和Prompt Tuning等成为研究热点,它们仅更新少量参数即可适应特定任务,大大降低计算成本模型蒸馏和量化技术使大型语言模型能够在资源受限设备上运行,扩大应用范围尽管取得巨大进展,NLP仍面临挑战幻觉生成(模型产生虚假信息)、安全对齐、长文本理解、常识推理和计算效率等问题需要解决研究方向包括检索增强生成、思维链提示、因果推理和模块化架构等,旨在构建更可靠、高效的语言理解和生成系统深度学习在语音技术中的前沿进展端到端语音识别文本到语音合成多说话人分离传统语音识别系统由声学模型、发音词典和神经TTS模型如Tacotron、FastSpeech和从混合音频中分离出个体声音是语音处理的语言模型组成,架构复杂现代端到端系统VITS生成自然、表现力丰富的语音这些模重要任务深度聚类和排列不变训练等技术如Conformer、Whisper和Wav2Vec
2.0直接型采用序列到序列架构,结合注意力机制,显著提升多说话人分离性能时频掩码预测从音频映射到文本,显著简化架构自监督有效建模文本和语音之间的复杂关系非自和波形域直接分离是主要技术路线最新研预训练模型能从大量无标签音频中学习表示,回归模型显著提升生成速度,支持实时应用究如音视频联合分离利用唇动等视觉线索辅大幅提升低资源场景性能这些系统支持实声音克隆技术允许从少量样本学习说话人声助分离过程这些技术为会议转录、远场语时转录、多语言识别和说话人分离,准确率音特征,个性化TTS系统最新进展包括情感音识别和助听设备等应用提供关键支持接近或超过人类水平控制、风格迁移和多语言支持语音自编码器如HuBERT和wav2vec系列展示了自监督学习在语音领域的强大潜力这些模型从大量无标注音频中学习通用表示,为各种下游任务提供基础,特别有利于低资源语言和方言处理跨语言和跨领域的语音表示学习也取得重要进展,推动语音技术全球化应用语音技术与多模态学习结合产生新的研究方向音视频联合学习利用视觉信息增强语音理解;多模态情感分析结合语音、文本和视觉线索理解情绪;唇读系统仅从视频理解对话内容;语音到手势生成使虚拟形象更自然这些技术为增强现实、虚拟现实和人机交互提供新可能深度学习在医疗健康领域的应用医学图像分析深度学习在放射学、病理学和皮肤科等多个领域取得突破性进展卷积神经网络和Transformer在X光、CT、MRI和病理切片等医学图像分析中展现超人性能,支持肿瘤检测、器官分割和疾病分类U-Net等分割架构为医学图像分割设立标准;自监督学习解决医学数据标注稀缺问题;多模态融合整合不同成像技术信息,提高诊断准确性疾病预测利用电子健康记录(EHR)和生物标志物数据进行疾病风险评估和预后预测循环神经网络和Transformer处理时序医疗数据,预测住院病人状况变化和再入院风险;深度学习模型整合基因组、临床和生活方式数据,构建个性化风险预测模型;多任务学习和迁移学习应对医疗数据稀疏性挑战,提高罕见疾病预测能力药物发现深度学习正在革新药物研发流程图神经网络预测分子性质和药物-靶点相互作用;生成模型如VAE和GAN设计新分子结构,加速先导化合物发现;AlphaFold等蛋白质结构预测模型解决生物学长期难题,支持结构导向药物设计;强化学习优化多步合成路径,提高药物合成效率;自然语言处理技术从科学文献中提取生物医学知识,辅助药物重定位深度学习在医疗健康领域面临独特挑战数据隐私与安全需要联邦学习等隐私保护技术;模型可解释性对临床采纳至关重要,需要开发医学专用解释方法;数据标注稀缺促进弱监督和自监督方法发展;医疗数据偏差与分布差异需要鲁棒性技术应对;监管合规要求专门的模型验证与评估标准医疗人工智能正走向临床实践,从研究原型到获得FDA批准的商用系统为实现真正价值,需要多学科合作,将深度学习技术与医学专业知识、伦理考量和临床工作流程无缝集成,推动精准医疗和普惠医疗的双重发展深度学习的未来展望通用人工智能跨领域智能系统与人类认知能力接近神经符号结合融合深度学习与符号推理优势可扩展架构支持高效规模化和分布式训练深度学习面临的可扩展性挑战涉及多个方面计算资源需求呈指数增长,限制了继续扩大模型规模的可能性;数据效率低下,需要海量数据才能有效学习;能耗问题日益突出,大模型训练的碳足迹引发可持续性担忧应对这些挑战的方向包括硬件创新如神经形态计算和专用AI加速器;算法优化提高参数利用效率;绿色AI技术降低能耗神经符号AI是一个有前景的研究方向,旨在结合深度学习的感知能力和符号AI的推理能力这种结合可以增强模型的可解释性、因果推理和常识理解,并减少对大规模数据的依赖通过引入归纳偏置和结构化知识,神经符号系统有望实现更强的泛化能力和样本效率,朝着通用人工智能迈进课程总结与展望60+10+5+学时核心算法实战项目理论与实践紧密结合从基础到前沿全面覆盖培养实际应用解决问题能力在这门课程中,我们从神经网络的基本概念开始,系统学习了深度学习的核心理论、算法和应用场景通过对卷积神经网络、循环神经网络、生成对抗网络等经典架构的深入探讨,以及对Transformer、大型语言模型等前沿技术的介绍,建立了深度学习的全面认识我们还讨论了优化技术、正则化方法、模型压缩等实用技巧,帮助大家在实际项目中取得更好效果深度学习是一个快速发展的领域,持续学习至关重要推荐关注顶级会议如NeurIPS、ICML、ICLR等发表的最新研究;参与Kaggle等平台的竞赛提升实践能力;阅读《深度学习》(Goodfellow等著)、《动手学深度学习》等经典教材;探索开源项目如Hugging Face、PyTorch生态和TensorFlow生态,不断扩展知识边界希望大家能将所学运用到实际问题中,创造出改变世界的AI应用!。
个人认证
优秀文档
获得点赞 0