还剩29页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
高级机器学习欢迎来到高级机器学习课程本课程将深入探讨机器学习的前沿技术与理论,包括深度学习、自然语言处理、计算机视觉、图神经网络等多个领域的高级概念和方法我们将从基础理论出发,逐步深入到复杂模型的设计与应用无论你是希望在学术研究中取得突破,还是想在工业界应用最新技术,本课程都将为你提供坚实的理论基础和实践经验让我们一起踏上这段探索人工智能前沿的旅程课程概述课程目标本课程旨在帮助学生掌握机器学习的高级理论和技术,培养学生独立设计和实现复杂机器学习系统的能力,并了解人工智能领域的前沿研究方向通过理论学习和实践项目,学生将能够应对实际问题中的复杂场景学习内容课程内容涵盖深度学习基础、高级机器学习技术、自然语言处理进阶、计算机视觉进阶、图神经网络、模型解释性与可信AI、大规模机器学习以及前沿研究方向八大模块,每个模块都包含关键理论和实际应用先修要求学生需具备机器学习基础知识,熟悉Python编程及常用机器学习库(TensorFlow或PyTorch),了解基本的统计学和线性代数概念建议已修读过机器学习入门或深度学习基础等相关课程第一部分深度学习基础基础知识1深度学习基础部分将回顾神经网络的基本概念,包括网络结构、前向传播与反向传播算法等内容,为后续高级主题打下坚实基础网络架构2我们将探讨多种典型的深度学习架构,包括卷积神经网络CNN和循环神经网络RNN等,了解它们的结构特点、优势及适用场景优化技术3深入学习各种优化算法和正则化技术,掌握如何有效训练深度神经网络,避免过拟合等常见问题,提高模型的泛化能力神经网络回顾感知机多层感知机12感知机是神经网络的基本单多层感知机MLP由输入层元,模拟生物神经元的工作、一个或多个隐藏层和输出方式它接收多个输入,通层组成,能够学习非线性模过加权求和并应用激活函数式隐藏层之间的连接使网生成输出尽管单个感知机络能够捕捉数据中的复杂关只能解决线性可分问题,但系,通过增加网络深度可以它是构建复杂神经网络的基提高模型的表达能力石激活函数3激活函数引入非线性特性,常用的包括Sigmoid、Tanh、ReLU及其变体ReLU修正线性单元因其计算效率高且能有效缓解梯度消失问题,已成为深度学习中最流行的激活函数之一反向传播算法链式法则反向传播算法基于微积分中的链式法则,计算复合函数的导数在神经网络中,它用于计算损失函数相对于网络中每个参数的梯度,实现高效的梯度计算这一数学基础使得深度神经网络的训练成为可能梯度下降梯度下降是优化神经网络参数的基本方法,通过沿着损失函数的负梯度方向调整参数,使损失函数逐步减小根据每次更新使用的样本数量,可分为批量梯度下降、随机梯度下降和小批量梯度下降学习率学习率决定了参数更新的步长,是影响模型训练效果的关键超参数学习率过大可能导致算法无法收敛,过小则可能陷入局部最小值或收敛过慢学习率调度策略如学习率衰减和暖启动可以提高训练效果优化算法(随机梯度下降)SGD Adam随机梯度下降是最基本的优化算法AdamAdaptive Moment,每次使用一个小批量数据计算梯Estimation结合了动量法和度并更新参数SGD的随机性有助RMSprop的优点,维护梯度的一阶于跳出局部最小值,但路径往往呈矩动量和二阶矩非中心化方差的锯齿状,收敛较慢动量法指数移动平均值,自适应调整每个Momentum是SGD的一种改进,参数的学习率Adam收敛快,对通过累积过去的梯度来平滑更新路超参数不敏感,是当前最流行的优径化算法之一RMSpropRMSprop通过对梯度平方的指数移动平均值进行归一化,解决了AdaGrad中学习率单调递减的问题它为不同的参数动态调整学习率,对频繁更新的参数使用较小的步长,对不频繁更新的参数使用较大的步长过拟合与正则化正则化正则化L1L2DropoutL1正则化(Lasso正则化)通过在损失L2正则化(Ridge正则化)在损失函数Dropout是一种强大的正则化技术,在函数中添加参数绝对值之和的惩罚项,中加入参数平方和的惩罚项,使参数值训练过程中随机丢弃一部分神经元(促使部分参数变为精确的零,从而实现向零靠近但不会精确等于零这种方法设置为零),迫使网络学习更鲁棒的特特征选择L1正则化能产生稀疏解,增通过限制模型复杂度减轻过拟合,对所征这相当于训练多个不同网络的集成强模型的可解释性,特别适用于高维数有特征的权重进行平滑处理,适合处,且计算成本低在测试阶段,所有神据分析理特征间存在多重共线性的情况经元都被保留,但输出需要按dropout率缩放卷积神经网络CNN池化层池化层对特征图进行下采样,减小空间维度,卷积层降低计算量并提取主要特征常用的池化方法全连接层包括最大池化(保留区域内最大值)和平均池化(计算区域内平均值)池化层增强了模型卷积层是CNN的核心组件,通过卷积操作提取全连接层通常位于CNN的最后几层,将前面提对输入微小变化的鲁棒性,有助于实现平移不输入数据的空间特征卷积核(滤波器)在输取的特征映射到最终的分类或回归结果每个变性入上滑动,执行点积操作生成特征图不同的神经元与上一层的所有神经元相连,综合所有卷积核可以检测不同的特征,如边缘、纹理或空间信息做出决策由于参数数量庞大,全连更复杂的模式卷积操作具有参数共享和局部接层往往是网络中最容易过拟合的部分,常需连接的特性,大大减少了参数数量应用dropout等正则化技术213架构CNNLeNet AlexNetVGGNetLeNet是由Yann LeCun在1998年提出的AlexNet由Hinton团队设计,在2012年VGGNet以简洁性和一致性著称,由牛津早期CNN架构,最初用于手写数字识别ILSVRC竞赛中大获成功,标志着深度学大学VGG实验室开发它使用小尺寸它包含两个卷积层和三个全连接层,奠习时代的开始它比LeNet更深,包含53×3卷积核堆叠多层,而非使用更大的定了现代CNN的基本结构尽管规模小个卷积层和3个全连接层,引入了ReLU激卷积核VGG-16和VGG-19分别包含16和,但LeNet已展示了CNN在图像识别中的活函数、Dropout和数据增强等创新19层,结构规整且易于理解,成为许多强大潜力,为后续研究铺平了道路AlexNet首次证明了深度卷积网络在大规后续研究的基础架构VGGNet的缺点是模视觉识别任务中的巨大优势参数量大,计算开销高架构(续)CNNResNet InceptionDenseNetResNet(残差网络)由微Inception由Google团队DenseNet(密集连接网络软研究院的何恺明团队提开发,又称GoogLeNet,)更进一步强化了特征重出,解决了深度神经网络特点是引入了Inception用的思想,每一层接收所中的梯度消失/爆炸问题模块,在同一层中并行使有前面层的特征图作为输它通过引入跳跃连接(用不同大小的卷积核(入这种密集连接模式增skip connection)创建残1×
1、3×
3、5×5)和池强了特征传播,减轻了梯差块,允许信息直接从前化操作,然后将结果拼接度消失问题,并大幅减少层传递到后层这种结构这种设计能捕捉不同尺了参数数量DenseNet结使得训练超深网络(如度的特征,同时通过1×1构紧凑,抗过拟合能力强ResNet-
50、ResNet-101卷积减少计算复杂度,优,在图像分类任务中表现甚至ResNet-152)成为可化了性能与效率的平衡出色能,显著提高了模型性能循环神经网络RNN基本结构RNN1标准RNN包含循环连接,使网络能够保持时间相关的上下文信息RNN的隐藏状态在每个时间步都会更新,同时考虑当前输入和前一时刻的隐藏状态这种循环结构使RNN特别适合处理序列数据,如文本、语音和时间序列长短期记忆网络LSTMLSTM通过引入门控机制解决了基本RNN的长期依赖问题它包含遗忘门、输入门和输出门,2以及一个内部记忆单元(cell state)这些组件协同工作,使网络能够学习长期依赖关系,有选择地记住或忘记信息,大大提高了处理长序列的能力门控循环单元GRUGRU是LSTM的简化版本,合并了LSTM的遗忘门和输入门为更新门,3并添加了重置门GRU参数更少,计算更高效,同时保持了处理长期依赖的能力在许多任务中,GRU能达到与LSTM相似的性能,但训练速度更快,是一种受欢迎的替代方案序列到序列模型Transformer1完全基于注意力机制的架构注意力机制2解决长距离依赖问题结构Encoder-Decoder3序列转换的基础框架序列到序列(Seq2Seq)模型最初为机器翻译设计,已广泛应用于文本摘要、对话系统和语音识别等任务基础的Encoder-Decoder结构使用RNN分别编码输入序列和生成输出序列,编码器将输入压缩为固定长度的向量,解码器则根据该向量生成目标序列注意力机制通过在解码过程中动态关注输入序列的不同部分,克服了传统Seq2Seq模型处理长序列时的信息瓶颈它计算解码器当前状态与编码器所有状态的相关性,生成注意力权重分布,大大提高了模型性能Transformer模型彻底抛弃了循环结构,完全依赖自注意力机制和位置编码来处理序列数据它引入了多头注意力和残差连接等创新,支持高度并行计算,成为现代NLP模型的基础架构Transformer的成功开启了BERT、GPT等预训练模型的时代第二部分高级机器学习技术在掌握了深度学习基础后,我们将探索更高级的机器学习技术这一部分将介绍生成模型如GAN和VAE,这些模型能够生成全新的数据;深度强化学习,使智能体能够通过与环境交互学习最优策略;以及元学习和迁移学习,让模型能够高效地适应新任务和新领域这些先进技术代表了机器学习领域的前沿发展方向,正在推动人工智能向更具创造性、适应性和智能性的方向发展通过学习这些方法,你将能够解决更复杂、更具挑战性的实际问题生成对抗网络GAN基本原理2博弈论的零和博弈训练过程1交替优化两个网络判别器和生成器3两个网络相互对抗学习生成对抗网络GAN是由Ian Goodfellow在2014年提出的深度生成模型框架,通过两个神经网络的对抗训练来生成逼真的数据生成器试图创造与真实数据相似的虚假样本,而判别器则尝试区分真实样本和生成的样本随着训练进行,两个网络不断提升各自的能力GAN的数学基础是极小极大博弈,目标是找到纳什均衡点,即生成器生成的数据分布与真实数据分布一致训练过程中常见的挑战包括模式崩溃(生成器只产生有限种类的样本)和训练不稳定性(振荡而不收敛)尽管训练困难,GAN在图像生成、图像转换、超分辨率重建等领域取得了惊人成果,为计算机视觉和创意AI开辟了新的可能性近年来,各种改进的GAN变体不断涌现,极大地拓展了应用范围变体GANDCGAN WGANCycleGAN深度卷积生成对抗网络DCGAN是第一个Wasserstein GANWGAN通过引入CycleGAN实现了无需配对数据的跨域图像将CNN架构成功应用于GAN的模型它引Wasserstein距离(也称地球移动距离)作转换,如将照片转换为莫奈风格绘画,或入了一系列架构指南,如使用批归一化、为衡量生成分布与真实分布差异的指标,将马变成斑马它的核心是循环一致性损去除全连接层、使用ReLU和LeakyReLU解决了传统GAN训练中的梯度消失和模式失,即经过两次转换后的图像应接近原图激活函数等,显著提高了GAN的训练稳定崩溃问题WGAN提供了有意义的损失度CycleGAN的出现极大拓展了图像风格转性和生成图像质量DCGAN成为许多GAN量,使训练过程更加稳定,并简化了网络换的应用场景,特别是在缺乏配对训练数变体的基础架构架构选择,成为GAN研究的重要里程碑据的情况下变分自编码器VAE自编码器回顾原理重参数化技巧VAE自编码器是一种无监督学习方法,通过将输入变分自编码器将潜在空间建模为概率分布,通重参数化技巧是VAE的关键创新,它将随机采压缩到低维潜在空间(编码)然后重建原始输常是高斯分布编码器输出分布的参数(均值样操作转换为确定性函数加随机噪声,使得梯入(解码)来学习有效的数据表示传统自编和方差),而非确定性编码VAE通过变分推度能够通过网络反向传播具体实现是从标准码器学习的是确定性映射,缺乏生成能力,无断方法优化两个目标重建损失和KL散度正则正态分布采样噪声ε,然后计算z=μ+σ·ε,法在潜在空间中采样生成新数据化项,后者促使潜在分布接近标准正态分布这允许网络通过随机采样节点进行端到端训练强化学习基础MDP Vs马尔可夫决策过程值函数和策略函数马尔可夫决策过程MDP是强化学习的数学框值函数评估状态或状态-动作对的价值,分为状架,包含状态集合S、动作集合A、状态转移概态值函数Vs和动作值函数Qs,a策略函数π率P、奖励函数R和折扣因子γMDP满足马尔定义智能体在各状态下采取动作的概率分布可夫性质,即未来状态仅依赖于当前状态和动策略可以是确定性的状态→动作或随机的状作,与历史路径无关态→动作概率分布QQ-learningQ-learning是一种无模型强化学习算法,直接估计最优动作值函数Q*s,a,无需知道环境动态它通过TD时序差分学习更新Q值Qs,a←Qs,a+α[r+γmaxaQs,a-Qs,a],其中α是学习率,γ是折扣因子深度强化学习DQN PolicyGradient深度Q网络DQN是将深度学习与Q-策略梯度方法直接优化策略函数,而learning相结合的算法,由非通过值函数间接优化它使用梯度DeepMind团队开发,在Atari游戏中上升方法最大化期望回报,适合处理取得了突破性成果DQN使用神经网连续动作空间和随机策略络近似Q函数,引入了经验回放和目REINFORCE是最基本的策略梯度算标网络两项关键技术经验回放打破法,通过蒙特卡洛采样估计梯度,但样本相关性,提高学习稳定性;目标方差较大,通常结合基线函数如值网络缓慢更新,减少训练振荡函数来减小方差方法Actor-CriticActor-Critic结合了策略梯度和值函数逼近的优点,包含两个网络Actor网络学习策略,Critic网络评估策略价值Critic提供的值函数估计作为Actor更新的基线,减少方差同时保持无偏性A3C、DDPG、PPO和SAC等现代算法都采用了Actor-Critic架构,在不同任务中取得了显著成果元学习少样本学习模型无关元学习算法MAML Reptile少样本学习Few-shot Learning旨在从极少量MAMLModel-Agnostic Meta-Learning是一Reptile是MAML的简化版本,避免了计算二阶标记样本中学习新任务,模拟人类快速学习的种通用元学习框架,旨在学习一个对新任务快导数的复杂性它通过在每个任务上执行多步能力常见范式包括N-way K-shot分类,即使速适应的模型初始化训练包括两个嵌套优化SGD,然后将初始参数向任务特定最优参数移用K个样本学习区分N个类别技术路线包括基循环内循环在单个任务上快速适应,外循环动尽管计算效率更高,Reptile在许多任务上于度量学习的方法如Matching Networks、更新初始参数以提高跨任务适应能力MAML能达到与MAML相当的性能它基于的洞见是Prototypical Networks和基于优化的方法如不依赖于特定模型架构,可应用于监督学习、任务特定最优参数之间的共同成分对应着良MAML强化学习等多种场景好的初始化点迁移学习基本概念1迁移学习利用源域的知识解决目标域的问题,特别适用于目标域数据有限的情况根据源域和目标域的关系,可分为归纳式迁移学习、无监督迁移学习和迁移式迁移学习成功的迁移学习需要解决特征空间不一致、边缘分布差异和条件分布差异三大挑战微调2微调Fine-tuning是最常用的迁移学习技术,先在大规模数据集上预训练模型,然后在目标任务数据上调整部分或全部参数常见策略包括仅更新最后几层、使用较小学习率更新所有层、逐层解冻等微调大大减少了训练时间和数据需求,在计算机视觉和NLP中广泛应用域适应3域适应Domain Adaptation处理源域和目标域分布不同的情况,目标是学习域不变的表示常用方法包括基于距离的方法如MMD、CORAL,对抗性方法如DANN、ADDA以及基于重建的方法这些技术在跨域图像分类、情感分析和自动驾驶等领域表现出色第三部分自然语言处理进阶自然语言处理NLP是人工智能的核心领域之一,致力于使计算机理解和生成人类语言近年来,NLP技术取得了飞速发展,从基于统计的方法过渡到深度学习方法,特别是预训练语言模型的出现,彻底改变了NLP研究和应用格局在这一部分,我们将探讨词嵌入技术、预训练语言模型(如BERT和GPT)的原理与应用、文本生成技术,以及机器翻译和问答系统等高级应用通过学习这些前沿技术,你将能够开发出更智能、更自然的语言处理系统词嵌入技术Word2Vec GloVeFastTextWord2Vec由Google团队于2013年提出GloVeGlobal Vectors由斯坦福大学开FastText是Facebook研究院开发的词,通过浅层神经网络将单词映射到低维发,结合了全局矩阵分解和局部上下文嵌入模型,扩展了Word2Vec,将每个稠密向量空间它基于分布式假设,即窗口方法的优点它基于词共现统计信词表示为子词n-gram字符向量的和相似语境中出现的词语语义相近息,训练过程优化的目标是使词向量的这种设计使FastText能够处理词表外Word2Vec包含两种架构CBOW上下点积与词共现概率的对数成正比与OOV单词,并更好地表示形态丰富的文预测目标词和Skip-gram目标词预Word2Vec相比,GloVe更好地利用了语言如土耳其语、芬兰语FastText测上下文,其中Skip-gram对低频词效全局统计信息,在词类比任务中表现优还能处理拼写错误,支持在大规模文本果更好Word2Vec捕获了丰富的语义异,同时计算效率也较高上高效训练,在文本分类任务中表现尤关系,支持词向量代数运算为出色预训练语言模型1ELMo2GPT3BERTELMoEmbeddings fromLanguage GPTGenerativePre-trained BERTBidirectionalEncoderModels是第一代上下文敏感的词嵌入模型Transformer系列由OpenAI开发,采用单Representations fromTransformers由,由AllenNLP团队于2018年提出它使用向Transformer解码器架构,通过自回归语Google AI于2018年提出,使用双向双向LSTM预训练语言模型,为每个单词生言建模预训练GPT首创了预训练+微调Transformer编码器架构,通过掩码语言建成依赖于整个句子的表示ELMo的创新在的范式先在大规模文本上无监督预训练,模和下一句预测两个任务预训练BERT的于将深层网络中不同层的表示结合起来,捕再在下游任务上微调GPT-2和GPT-3显著核心创新是真正的双向上下文表示,使模型获从语法到语义的不同层次信息ELMo标扩大了模型规模和训练数据,后者拥有能同时考虑单词的左右上下文BERT在多志着NLP从静态词嵌入向上下文化表示的转1750亿参数,展示了惊人的少样本学习能个NLP基准测试中取得突破性进展,开创了变力和文本生成质量预训练语言模型的新时代及其变体BERTRoBERTa ALBERTDistilBERTRoBERTaRobustly OptimizedBERT ALBERTALite BERT旨在减少BERT的参数DistilBERT由Hugging Face团队开发,通过Approach由Facebook AI提出,通过优化量并提高训练效率它采用两种参数减少技知识蒸馏将BERT压缩为更小模型它移除了BERT的训练方法而非架构来提升性能主要术跨层参数共享和将词嵌入矩阵分解为两token类型嵌入和池化层,保留BERT的一半改进包括更长时间训练、更大批量、更多个小矩阵此外,ALBERT用句子顺序预测替层数训练过程中,DistilBERT同时优化语言数据、移除下一句预测任务、动态掩码替代代下一句预测作为预训练任务尽管参数大建模损失、蒸馏损失和余弦嵌入相似度损失静态掩码这些优化使RoBERTa在多项任务幅减少约1/18,ALBERT在多项任务上表现最终模型保留了BERT97%的性能,同时体上超越原始BERT,证明了精心设计的训练过仍优于原始BERT,同时训练速度更快积减小40%,推理速度提高60%,为资源受程对模型性能的重要性限场景提供了实用解决方案进阶TransformerXLNet2排列语言建模Transformer-XL1段级递归机制T53统一文本到文本框架Transformer-XL解决了标准Transformer处理长序列的限制,引入了段级递归机制和相对位置编码它在处理当前文本段时重用前一段的隐藏状态,创建了跨段连接,有效扩大了注意力跨度,大大提高了长文本建模能力和推理效率在语言建模任务上,Transformer-XL比标准Transformer表现更好,尤其对长期依赖关系的捕捉XLNet结合了自回归模型如GPT和自编码模型如BERT的优势,提出了排列语言建模目标它随机排列句子中的单词,依次预测每个位置,同时考虑双向上下文,克服了BERT的输入噪声和独立性假设问题XLNet还整合了Transformer-XL的创新,在多个NLP基准上超越BERTT5Text-to-Text TransferTransformer将所有NLP任务统一为文本到文本的格式,如将分类问题转换为分类文本?到标签的映射T5通过大规模实验比较了不同预训练目标、架构和训练策略,发现模型规模、数据量和多任务学习对性能影响显著T5的统一框架简化了部署流程,成为通用NLP系统的代表文本生成束搜索采样技术12束搜索是文本生成中常用的解码策为克服束搜索的局限,多种采样方略,它在每一步保留k个最可能的法被开发温度采样通过调整输出部分序列(束宽),并基于这些序分布的锐度控制随机性;Top-k采列继续扩展相比贪心搜索,束搜样仅从概率最高的k个词中选择;索通过考虑多个可能路径,生成质Top-p采样(核采样)从累积概率量更高的文本然而,束搜索倾向达到阈值p的最小词集中选择这于产生短且通用的文本,因为长序些技术在保持文本连贯性的同时增列的条件概率乘积通常较小,这是加多样性,在开放式生成任务中表其主要局限性之一现优异语言模型解码策略3高级解码策略结合多种技术提高生成质量长度惩罚缓解束搜索对短序列的偏好;重复惩罚降低重复生成概率;对比解码促使模型生成与人类文本风格更一致的内容;引导式解码允许通过外部条件控制生成方向这些策略对创建流畅、连贯且符合特定风格的文本至关重要机器翻译进阶无监督机器翻译无监督机器翻译突破性地实现了仅使用单语语料库(没有平行语料)构建翻译系统核心技多语言翻译术包括跨语言词嵌入建立初始映射;去噪自编码重建噪声句子;对抗训练使模型无法区分2翻译源语言;反向翻译生成伪平行数据进行迭多语言翻译系统在单一模型中支持多种语代训练这为低资源语言提供了可行解决方案言对的翻译,共享参数提高低资源语言的性能这类系统通常采用特殊的语言标记1指示源语言和目标语言,或使用语言嵌入文档级翻译向量表示不同语言最新研究表明,大规模多语言模型能学习通用语言表示,促进3文档级翻译超越传统的句子级翻译,考虑更广语言间知识迁移泛的上下文,更好地处理指代消解、词汇连贯性等跨句现象研究方向包括设计能处理长序列的架构、开发特定于文档的注意力机制,以及整合话语结构知识尽管挑战重重,文档级翻译正成为提升翻译自然度的关键方向问答系统抽取式问答抽取式问答系统从给定文档中提取答案片段,不生成新内容典型架构包括文档检索模块和答案抽取模块答案抽取通常建模为标注任务预测答案的起始和结束位置SQuAD等基准测试的出现推动了抽取式QA的快速发展典型模型如BiDAF、QANet和基于BERT的方法在准确性和效率上不断取得突破生成式问答生成式问答系统通过理解问题语义后生成自然语言答案,适用于开放域问答、复杂问题解释等场景近期研究方向包括检索增强生成RAG,结合检索系统和生成模型的优势;融合结构化知识如知识图谱;以及利用大型语言模型进行少样本学习生成式QA在综合回答、灵活性和个性化方面具有明显优势多跳推理多跳推理是问答系统的高级形式,需要从多个信息片段中推理出答案如回答谁导演了《泰坦尼克号》的主演参演的第一部电影?需要先确定主演,然后找到其首部电影,最后识别导演HotpotQA等多跳数据集推动了该领域发展研究重点包括图结构推理、实体追踪和显式推理路径生成,旨在提高系统透明度和可解释性第四部分计算机视觉进阶计算机视觉是人工智能的重要分支,致力于使计算机理解和处理视觉信息近年来,深度学习的应用彻底革新了计算机视觉领域,使机器在图像分类、目标检测、场景理解等任务上接近或超越人类表现在这一部分,我们将深入探讨目标检测、图像分割、图像生成等高级计算机视觉任务,以及3D视觉和视频理解等前沿方向这些技术广泛应用于自动驾驶、医疗诊断、增强现实等领域,对推动人工智能与现实世界的深度融合具有重要意义目标检测系列系列R-CNN YOLOSSDR-CNN系列是基于候选区域的两阶段目YOLOYou OnlyLook Once系列是单SSDSingle ShotMultiBox Detector标检测框架最初的R-CNN使用选择性阶段检测器的代表,将检测视为回归问是另一种重要的单阶段检测器,使用多搜索生成区域提议,然后用CNN提取特题,直接从完整图像预测边界框和类别尺度特征图进行检测,捕捉不同大小的征进行分类Fast R-CNN通过共享计算概率YOLOv1以速度闻名但精度较低物体它预定义不同纵横比的默认框,和RoI池化提高效率Faster R-CNN引YOLOv2-v5通过引入锚框、多尺度特通过回归调整边界框位置SSD与入区域提议网络RPN,实现端到端训征、注意力机制等不断提升性能YOLO相比,在小物体检测上表现更好练,是最具影响力的目标检测模型之一YOLOv4/v5达到了速度与精度的最佳平改进版本如DSSD引入了上下文信息,平衡了准确性和效率衡,在实时应用中广受欢迎,RetinaNet引入了Focal Loss解决类别不平衡问题语义分割系列FCN U-Net DeepLab全卷积网络FCN是语义分割的开创性工作,U-Net最初为医学图像分割设计,因其U型结DeepLab系列是最先进的语义分割模型,其首次实现端到端的像素级分类FCN将分类构得名它包含下采样路径编码器捕获上下核心创新是空洞卷积膨胀卷积,在不增加参网络中的全连接层替换为卷积层,使网络能文和上采样路径解码器精确定位,两者通过数的情况下扩大感受野DeepLabv3引入了处理任意尺寸输入并输出相应大小的分割图跳跃连接相连U-Net的关键创新是这些跳跃空洞空间金字塔池化ASPP模块,捕获多尺FCN还引入了跳跃连接,结合深层语义信连接,保留了空间信息,使精细分割成为可度上下文DeepLabv3+结合了编码器-解码息和浅层精细定位信息尽管结构简单,能U-Net在小样本条件下表现出色,已扩展器架构和ASPP,进一步提高边界精度最新FCN奠定了现代语义分割的基础到多种领域,衍生出3D U-Net、Attention U-版本集成了Transformer模块,代表了语义分Net等变体割的发展前沿。
个人认证
优秀文档
获得点赞 0