还剩33页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习算法欢习习课课将带领迎学深度学算法程!本程您深入探索人工智能域中最前沿术习图识别语语识别领的技深度学已经在像、自然言处理、音等多个域取进们得了突破性展,正在改变我的生活和工作方式来课们将础开习习在接下的程中,我从基概念始,逐步学各种深度学模型的应络积络环络们还将原理和用,包括神经网、卷神经网、循神经网等我探讨习领应进来趋深度学在不同域的实际用案例,以及最新的研究展和未发展势课程概述基础理论1习络础数传损数深度学核心概念、神经网基、激活函、前向和反向播、失函以及各种优化算法核心模型2积络环络卷神经网CNN、循神经网RNN、LSTM、GRU、Transformer、GAN等主流模型架构前沿应用3计觉语语识别疗诊断驾驶算机视、自然言处理、音、推荐系统、医和自动等实应场际用景高级话题4习习习习压缩释迁移学、few-shot学、元学、联邦学、模型与可解性等深度学习前沿研究方向什么是深度学习?定义特点习习习深度学是机器学的一个分支深度学的主要特点是自动特征层络来过层,它使用多神经网模拟人提取能力,通多次的抽象表脑习过过数训数习来的学程,通大量据示,从原始据中学到越越练来现杂计自动提取特征和模式,实复的特征,无需人工设特征杂问题复的解决应用范围习应计觉语语识别疗诊深度学已广泛用于算机视、自然言处理、音、医断驾驶领现、金融分析、自动等多个域,展出强大的潜力深度学习与机器学习的区别机器学习深度学习传习计对简单数习过层络习统机器学需要人工设特征,模型相,通常在据量深度学通多神经网自动学特征,无需人工特征工程时现树数进训练数续不大表良好常见算法包括SVM、决策、随机森林等它利用海量据行,随着据量增加,性能通常持提升习难维结数习结数现过机器学的泛化能力有限,以处理高度、非构化据,如深度学在处理非构化据方面表卓越,能够通端到端学图语习过对领专习杂问题计训练时习像、音和文本等学程相固定,通常需要域家参解决复它的算量大,间长,但能够学到更杂与特征工程复的特征表示和模式深度学习的历史发展1940-1960年代1970-1980年代1990-2000年代2006年至今络论础络习习计神经网的早期理基形成神经网的第一次低谷与复兴支持向量机等其他机器学方法深度学爆发期算能力提升络数进1943年,McCulloch和Pitts提1969年,Minsky和Papert指出崛起,神经网再次陷入低谷、大据可用性增加和算法改单层导时开习热出了人工神经元模型;1958年,感知机的局限性,致研究同,LeCun等人发了用于手推动了深度学潮2012年,这滞写数识别积络竞赛Rosenblatt发明了感知机,是停;1986年,Rumelhart等人字的卷神经网AlexNet在ImageNet中取得训练络现传为来标习第一个可的神经网模型重新发反向播算法,推动了LeNet-5,后的突破奠定基巨大成功,志着深度学革命层络础开多神经网的发展的始神经网络基础多层结构连接方式学习过程络层隐过带权络过传神经网由输入、神经元之间通重神经网通前向播层层组隐连传连计预测过藏和输出成的接递信息全算值,通反向层数络络传计藏的量定义了网接网中,每个神经元播算法算梯度并更层内层权预测的深度,神经元的与上一的所有神经元新重,逐步减小数络宽连积络误量决定了网的度相;而在卷网等值与真实值之间的差络习结连终习数深度网能够学更特殊构中,接方式,最学到据中的杂数复的据表示遵循特定的模式模式人工神经元模型输入信号接收来人工神经元接收自其他神经元或外部输入的多个信号,每个输入信号都有一对应权该个的重,表示输入的重要性加权求和对权进项许神经元所有加输入行求和,并加上一个偏置(bias)偏置允数轴激活函沿水平移动,增加模型的灵活性激活函数变换权过线数进转换线络习加和通非性激活函行,引入非性能力使网能够学杂数复模式常用的激活函包括Sigmoid、ReLU、tanh等输出信号传递过数结为传给层经激活函处理后的果作神经元的输出,递下一的神为络终这过传经元或作网的最输出个程模拟了生物神经元的信号递机制激活函数函数函数函数Sigmoid TanhReLU LeakyReLU数将数将过负区Sigmoid函输入映射到Tanh函输入映射到-1,1ReLURectified LinearUnit LeakyReLU通在间引围内络围缩数为计0,1范,早期神经网中范,是Sigmoid的放版本函fx=max0,x,算入小斜率,解决了ReLU的神为简单缓问题问题为广泛使用但它存在梯度消失它的输出以零中心,有助且有效解梯度消失经元死亡它的形式问题较较时续层习导,在输入大或小,于后的学,但仍存在梯然而,它可能致神经元fx=maxαx,x,其中α是一导训练难问题现数为梯度接近于零,致困度消失死亡象,即某些神经元永个小正,通常
0.01远不会被激活前向传播隐藏层计算2数层传隐层层执据从输入递到各个藏,每行加权数计求和和激活函算输入层处理1数传络层输入据被入网的输入,每个输入特对应征一个输入神经元输出层生成隐层传给层最后一个藏的输出递输出,生成网3络预测结的果传络计过数层层层将们对应权前向播是神经网的算程,据从输入流向输出每个神经元接收上一所有神经元的输出,它与的重相乘并求和,再加上项过数偏置,最后通激活函得到输出数层为数权项以学形式表示,第l第j个神经元的输出a_j^l=f∑_i w_ji^l a_i^l-1+b_j^l,其中f是激活函,w_ji^l是重,b_j^l是偏置计层开层层过称为传算从第一始,逐向前直到输出,整个程前向播反向传播算法计算输出误差将络预测标签较计损数损数网的输出与真实比,算失函值常用的失函包括均误损数方差、交叉熵等,不同的任务适用不同的失函计算输出层梯度计损数对层损对这算失函输出每个神经元的梯度,表示失输出的敏感度个梯赖选损数导数层数导数度依于所失函的和输出激活函的反向传递误差链则将误传隐层层误过权利用式法,差梯度向前递到每个藏后一的差通重和数导数传层计层数激活函的递到前一,算每参的梯度更新网络参数计习络权根据算得到的梯度和学率,更新网中的重和偏置通常使用梯度下降调数损数或其变种算法,沿着梯度的反方向整参,减小失函损失函数均方误差交叉熵损失MSE误归问题问题标损均方差是回中最常用的交叉熵是分类中的准失损数计预测数失函,算值与真实值函,衡量两个概率分布的差异对对为差的平方平均值MSE异常值于二分类,公式-为误ŷŷ很敏感,因差平方会放大大[y·log+1-y·log1-]为误问的偏差公式MSE=交叉熵比均方差更适合分类为题为ŷ1/n∑y-²,其中y真实值,因它能提供更强的梯度信为预测ŷ,值号损失Huber损结绝对误对鲁Huber失合了MSE和平均差MAE的优点,异常值更棒对误项对误线项它于小差使用平方,于大差使用性,能有效减少异常归问题值的影响,适用于存在噪声的回优化算法概述一阶优化方法1计简单基于梯度信息的优化算法,如SGD及其变种,算高效二阶优化方法2阵顿敛计杂利用Hessian矩信息的方法,如牛法,收更快但算复自适应优化方法3数历调习根据参史梯度自动整学率的方法,如Adam、RMSProp等习过络数来损数应敛问题深度学中的优化算法旨在通迭代更新网参最小化失函一个好的优化器能快速收、避免局部最小值陷阱,并且在各种络现稳和网架构上表定现简单敛阶敛内计应不同的优化算法有各自的优缺点梯度下降类方法实但可能收慢;二方法收快但存和算成本高;自适方法平衡了性能和效习践选择数对训练关率,因此在深度学实中被广泛采用合适的优化器和超参模型至重要随机梯度下降()SGD1基本原理2更新规则数为随机梯度下降是梯度下降法的SGD的参更新公式θ=一种变体,每次只使用一个或θ-η∇Jθ;x,y,其中θ是模计数习一小批样本算梯度并更新参型参,η是学率,数损数关相比于批量梯度下降使用∇Jθ;x,y是失函于参数计数习全部据算梯度,SGD的每的梯度学率是SGD最重计规数数导步算量小,适合大模据要的超参,太大可能致震线习荡则敛集和在学,太小收太慢3优缺点计SGD的优点是算效率高,可以跳出局部最小值,具有更好的泛化能敛径杂荡对数力缺点是收路嘈,可能在最小值附近振,且所有参使习难数态问题用相同学率,以处理稀疏据或病条件的动量方法动量原理数学表达式对标进鉴项数为动量方法是准SGD的改,它借了物理学中物体运动的概动量方法引入一个速度v,参更新公式传虑当时虑念统SGD每次更新只考前梯度,而动量方法同考之时积v=γv-η∇Jθ前的梯度方向,类似于小球在斜坡上滚动累的动量这敛荡θ=θ+v种方法能够加速SGD在正确方向上的收,并抑制振在遇态标数时别数习积到高曲率、病条件的目函,动量方法特有效其中γ是动量系(通常取
0.9),η是学率速度v累了梯数权数度方向的指加平均,使得参更新更加平滑算法AdaGrad自适应学习率梯度累积为数调习对频AdaGrad每个参自动整学率,积数历12数较习对频AdaGrad累每个参史梯度的平方和,繁更新的参使用小的学率,不繁调习频数积较数较习训练用于整学率繁变化的参会累更新的参使用大的学率,使更加导习稳大的梯度平方和,致其学率下降更快定和高效局限性适用场景断积别数语AdaGrad的主要缺点是梯度平方和不累AdaGrad特适合处理稀疏据,如自然导习单调终词习43,致学率递减,最变得非常小,言处理任务中的向量学它能更有效地导训练过这问题续习为这获较可能致早停止个在后的学不常见特征,因些特征会得大RMSProp和Adam中得到了解决的更新步长算法RMSProp算法背景更新规则数来调习RMSPropRoot MeanSquare Propagation是Geoffrey RMSProp使用梯度平方的指移动平均值整学率应习习Hinton提出的一种自适学率方法,旨在解决AdaGrad学过问题对数单独调E[g²]_t=β·E[g²]_t-1+1-β·g_t²率度衰减的它保留了AdaGrad每个参整学习时习过过率的优点,同避免了学程早停止的缺点θ_t+1=θ_t-η/√E[g²]_t+ε·g_t数为当其中β通常取
0.9,ε是一个小常防止分母零,g_t是前梯这积度种方式下,梯度累不会无限增长优化器AdamAdam的优势1结应习合动量和自适学率的最佳特性一阶矩估计2数跟踪梯度的指移动平均(动量)二阶矩估计3数跟踪梯度平方的指移动平均偏差修正4时计问题解决初始化估值偏向零的结习仅储数AdamAdaptive MomentEstimation优化器合了动量方法和RMSProp的优点,是目前最流行的深度学优化器之一它不存了梯度的指衰减平均还储数值(类似动量),存了梯度平方的指衰减平均值(类似RMSProp)过计阶计阶计应调数习还阶Adam算法通算梯度的一矩估(均值)和二矩估(未中心化的方差),自适地整每个参的学率它引入了偏差修正机制,使得初始计数现习践选段的估更加准确Adam优化器在大多情况下表良好,是深度学实中的首优化器之一卷积神经网络()简介CNN1设计灵感2核心特性积络觉关键卷神经网受人类视系统CNN的两个特性是局部感觉层权启发,模拟了视皮的局部受野和重共享局部感受野连关感受野机制不同于全接网使每个神经元只注输入的一络过区权则处理整个输入,CNN通局小部分域;重共享大大连权数数计部接和重共享处理具有网减少了参量,提高了算结数图时络格构的据,如像效率和泛化能力,同使网具有平移不变性3主要优势传连络图维数时显势相比统全接网,CNN在处理像等高据具有著优数训练习层参更少、更高效、泛化能力更强CNN能自动学空间次特级缘纹级状征,从低特征(如边、理)到高特征(如形、物体部件)的基本结构CNN输入层1图数为维张宽数接收原始像据,通常表示三量(高度×度×通道)对图数为对图数为于彩色像,通道3(RGB);于灰度像,通道1卷积层2积计积使用多个卷核在输入上滑动算,提取局部特征每个卷核生成图缘纹这激活层一个特征,捕捉不同的模式(如边、理等)是CNN的核心3组件对积层应线换数这卷输出用非性变,通常使用ReLU激活函增加了网络习杂的表示能力,使其能学更复的模式池化层4图计杂减小特征尺寸,降低算复度,并提供一定程度的平移不变性们别区内全连接层常用方法包括最大池化和平均池化,它分保留域的最大值或5平均值将层进终归这层前面提取的特征扁平化,并行最的分类或回些类似传络连层于统神经网,每个神经元接到前一的所有输出输出层6产络终预测对数生网的最于分类任务,通常使用Softmax激活函;对归线数于回任务,可能使用性激活函卷积层卷积操作超参数设置积层过积称滤数进积层计数积围卷通卷核(或波器)在输入据上行滑动窗口操卷设涉及多个超参卷核大小决定感受野范;步长积组习权区进额作每个卷核包含一可学的重,与输入的局部域行控制滑动窗口移动的距离;填充决定是否在输入边界添加外像积计应图数数点算,生成相的特征素,以保持输出尺寸;通道确定提取的特征量数积为这数选择络计较积学上,卷操作可表示yi,j=∑∑wm,n·xi+m,j+n些参的直接影响网的性能和算效率大的卷核积权项围较积关细节+b,其中w是卷核重,b是偏置,x是输入,y是输出特捕捉更大范的模式,而小的卷核注特征图征池化层最大池化平均池化图区计区最大池化取输入特征中每个域平均池化算每个域的平均值,显这数这的最大值,保留最著的特征提供输入据的平滑表示种方缘区内种操作能够突出重要特征,如边法能够保留域的背景信息,适纹应对虑或理的最强响,位置变化具合需要考整体特征分布的情况鲁践对有一定的棒性最大池化在实平均池化噪声有一定的抑制作用应别纹关键现中用最广泛,特适合处理理,但可能会弱化特征的表缘对和边等高比度特征池化的作用层图维计数数池化的主要功能包括降低特征的空间度,减少算量和参量;对鲁过提供一定程度的平移不变性,使模型输入的微小位移更加棒;控制拟过维杂合,通降减少模型的复度,提高泛化能力全连接层结构特点功能作用连层层连层络全接中的每个神经元与前一的所在CNN架构中,全接通常位于网连连络结将积层层维有神经元相,形成完全接的网12末端,卷和池化提取的低特这结习为终归构种构能够学输入特征的全局征映射最的分类决策或回值,实组现标转换合,整合空间信息从特征表示到任务目的优化策略计算开销为轻连层计负过连层数计减全接的算担和拟合风全接包含大量参,算成本高,术权则导过43险,常采用Dropout技、重正化容易致拟合一个有n个输入和m现连连层权等方法在某些代CNN架构中,全个输出的全接需要n×m个重参层层进数这络导数接被全局平均池化替代,以一步,在大型网中可能致参爆炸数数减少参量经典架构CNN LeNet-5历史背景积络计LeNet-5由Yann LeCun等人于1998年提出,是最早的卷神经网之一,最初设用写数识别当时计资现为来于手字任务在算源有限的情况下,它展了卓越的性能,后的础CNN发展奠定了基网络结构层组层积层层连LeNet-5由7成输入、两个卷C1,C
3、两个池化S2,S
4、两个全层层为图过层换终接F5,F6和输出输入32×32灰度像,通逐特征提取和变,最输别出10个类的概率分布设计特点现权LeNet-5引入了代CNN的核心概念局部感受野、重共享和下采样它使用数现了sigmoid激活函和平均池化,与代CNN使用ReLU和最大池化有所不同络结简数约为网构洁而高效,总参量6万历史意义证识别别对LeNet-5成功明了CNN在模式任务中的有效性,特是于具有空间结数应识别习构的据它的成功用于美国邮政系统的支票,是深度学早期的续里程碑成就,影响了后所有CNN架构的发展经典架构CNN AlexNet突破性成就1AlexNet由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton在2012年提出,在规觉识别战赛显势获将错误ImageNet大模视挑ILSVRC中以著优胜,Top-5率从
26.2%降至标习开
15.3%,志着深度学革命的始网络架构2积层连层数约较积AlexNet包含5个卷和3个全接,总参量6000万它使用了大的卷核(11×11络结显习杂、5×
5、3×3)和交叠池化网构明深于LeNet-5,能够学更复的特征表示关键创新3项创数传数训练缓AlexNet引入了多新使用ReLU激活函代替统的Sigmoid函,加速并解梯度问题应术过数术扩训练计消失;用Dropout技减少拟合;采用据增强技充集;使用GPU并行算训练过加速程历史影响4习热计觉转证积络AlexNet的成功引发了深度学潮,推动了算机视研究的向它明了深度卷网在规觉带习应进大模视任务中的强大能力,动了深度学在工业界的广泛用,并促了GPU在人工智领能域的普及经典架构CNN VGGNet设计理念计过简VGGNet由牛津大学Visual GeometryGroup在2014年提出,其设理念是通化络结来对络积简单网构研究深度性能的影响VGG网使用统一的小型卷核和的堆叠策证络关键略,明了深度是网性能的因素网络结构层层VGGNet有多个变体,最常用的是VGG16
(16)和VGG19
(19)每个变体都使积过积积渐图用3×3卷核和2×2最大池化,通重复的卷+卷+池化模块逐增加特征深时维度,同减小空间度结构特点积积线VGGNet的主要特点是使用多个小卷核(3×3)替代大卷核,一方面增加了非换数数数积层性变次,增强模型表达能力;另一方面减少了参量,如两个3×3卷的感积层数受野等同于一个5×5卷,但参更少优缺点分析结简现预训练VGGNet构洁优雅,易于理解和实,泛化能力强,模型被广泛用于迁移学习显数约储开销计杂但其缺点也明参量巨大(
1.38亿),存大;算复度高,尤其连层导较是前几个全接,致推理速度慢经典架构CNN GoogLeNet模块网络架构创新Inception创称层数仅为GoogLeNet(2014年)的核心新是Inception模块,它并行GoogLeNet(也Inception-v1)共有22,参量500积远仅还使用多种尺寸的卷核(1×
1、3×
3、5×5)和池化操作,捕万,少于VGGNet它不引入了Inception模块,采用了过积进维计项创计辅缓问题捉不同尺度的特征通1×1卷行降,大幅减少算量多新设引入助分类器解梯度消失;使用全局平络时过数连层数过,使网能够同利用多尺度信息而不增加多参均池化替代全接,大幅减少参;采用dropout防止拟合径计许络Inception模块的并行路设允网自动决定哪些特征尺度络应证络计过计更重要,增强了网的适性和表达能力每个模块输出的特征GoogLeNet明了网设的重要性,通精心设的架构,图维数计时在通道度上拼接,形成丰富的特征表示可以在减少参和算量的同提高性能它在ILSVRC2014比赛获军错误仅习中得冠,Top-5率
6.7%,展示了深度学的强大潜力经典架构CNN ResNet梯度消失问题残差连接深层架构络残习随着神经网深度增加,梯度在ResNet引入差学框架,使ResNet拥有多个变体,包括传过连反向播程中可能变得极小,用跳跃接(skip connectionResNet-
18、
34、
50、101和导浅层络难习这让传续层层们数致网以有效学)输入信息直接递到后152版本它使用不同量问题传这络习残个限制了统CNN的深度,使网学的是输入与输出的差块,但核心思想相同更络残颈使更深的网反而性能下降之间的差映射,而不是直接映深的ResNet通常采用瓶设简习难计积维维射,大大化了学度,使用1×1卷降和升,进一步提高效率突破性成就竞赛ResNet在ILSVRC2015中获错误胜,Top-5率降至
3.57%约,首次超越人类水平(5%)证络它明了极深网的可行性,问题为现解决了深度退化,成代计础CNN设的基,并启发了众多续后研究循环神经网络()简介RNN序列数据处理记忆机制环络专计过内状态隐状态循神经网门设用于处理RNN通部(藏)数语时为记忆储序列据,如文本、音和间作,存之前序列的信数馈络这环连络序列据不同于前神经网息种循接使网能够保独历现对立处理每个输入,RNN在处理持史信息,实上下文的感当时虑隐状态时前输入考之前的信息,能知藏在每个间步更新时赖关历记忆够捕捉序列中的序依系,融合新输入和史参数共享时数这数RNN在所有间步使用相同的参,种参共享机制大大减少了模型数数时这数参量,使其能够处理任意长度的序列同,也反映了序列据时时现的某种间不变性,即相同的模式可能在不同间点出的基本结构RNN输入层数时单词语频帧时接收序列据的每个间步输入,如文本中的、音中的音或间序列中观测维数的值输入向量的度根据具体任务和据表示而定隐藏层当时隐状态计当时隐状态计处理前输入和前一间步的藏,算前间步的新藏算公式为权h_t=tanhW_hx·x_t+W_hh·h_t-1+b_h,其中W_hx、W_hh是阵项重矩,b_h是偏置输出层当隐状态时产标根据前藏生成输出输出可以在每个间步生(如序列注任务),也产计为可以只在序列末尾生(如情感分类任务)输出算公式y_t=fW_hy·h_t+b_y环连络训练过RNN的核心是其循接,使网能够处理任意长度的序列输入在程中,RNN使用通过时传将误时传间的反向播BPTT算法,差沿间方向反向播标赖问题传时然而,准RNN存在长期依——随着序列长度增加,梯度在反向播可能消失或爆炸,导络难习赖关这问题进致网以学长距离依系一在LSTM和GRU等改模型中得到了解决长短期记忆网络()LSTM遗忘门输入门1弃当时进记忆单决定丢哪些信息,根据前输入和前一间决定更新哪些信息,控制新信息入元2隐状态步的藏输出一个0-1之间的值的程度输出门记忆单元4记忆单状态隐储过选择3决定输出哪些信息,控制元向藏存长期信息,通门控机制性更新和保状态转换的持信息络为标赖问题计过细许络时记忆LSTMLong Short-Term Memory网是解决准RNN的长期依而设的它通精的门控机制控制信息流,允网长间重记关这计习赖关要信息并忘不相信息种设使LSTM能有效学长序列中的长距离依系细状态传带贯络过遗选择细LSTM的核心是胞cell state,它像送一样穿整个网通三个门(忘门、输入门和输出门),LSTM可以性地添加或删除状态这许时内缓问题络习赖关胞中的信息种机制允梯度在长间间隔保持,有效解了梯度消失,使网能够学到更长距离的依系门控循环单元()GRU简化设计门控机制简GRUGated RecurrentUnit是LSTM的化版本,由Cho等人GRU包含两个门更新门update gate和重置门reset gate遗为状态将于2014年提出它合并了LSTM的忘门和输入门一个更新更新门决定保留多少前一的信息;重置门决定如何新输时将细状态隐状态为状态简状态结门,同胞和藏合并一个,大大化了入与前一合络结网构更新门公式z_t=σW_z·x_t+U_z·h_t-1数训练许与LSTM相比,GRU参更少,速度更快,在多任务上性当这计计重置门公式r_t=σW_r·x_t+U_r·h_t-1能相种设平衡了模型的表达能力和算效率,尤其适合计资场选状态̃算源有限的景候h_t=tanhW·x_t+U·r_t⊙h_t-1终状态̃最h_t=1-z_t⊙h_t-1+z_t⊙h_t双向RNN正向处理1开结标过对当隐状从序列始到束的准RNN处理,捕捉去信息前的影响正向RNN的藏态当时只包含前间步之前的信息反向处理2结开来对当隐状从序列束到始的逆向RNN处理,捕捉未信息前的影响反向RNN的藏态当时包含前间步之后的信息结果合并3将隐状态过正向和反向RNN的藏合并,通常通拼接或求和,形成包含双向上下文的完整这表示种表示包含序列中的全局信息过时获双向RNNBidirectional RNN通同从前向后和从后向前处理序列,取更完整的上下文信息许语当词时赖词在多自然言处理任务中,前的含义同依于前面和后面的,因此双向处理能够提供更丰富的上下文表示结这双向RNN可以与任何RNN变体合,如双向LSTMBiLSTM和双向GRUBiGRU,些模型在序列标识别译现时场注、命名实体和机器翻等任务中表优异然而,双向RNN不适用于需要实处理的景,为获进因它需要取完整序列才能行处理注意力机制传统方法的局限1编码码结颈问题器-解器构中的信息瓶注意力的核心思想2选择关关性注输入序列中的相部分注意力计算流程3键对数计权查询、值和注意力分的算与加译编码时问题传编码码将压缩注意力机制最初在神经机器翻中提出,用于解决长序列的信息丢失统器-解器模型整个输入序列成固定长度的向这时颈许码态关当内选择量,在处理长序列会造成信息瓶注意力机制允解器动地注输入序列的不同部分,根据前生成的容性地利用源序列信息计骤计当键对这应数权注意力算通常包含三个核心步算前查询与所有之间的相似度或能量;些能量值用softmax函,得到注意力重;使用这权对进权这赖为现习关键组些重值行加求和,得到上下文向量种机制极大增强了模型处理长距离依的能力,成代深度学架构的件架构Transformer论弃传Transformer是由Google在2017年文Attention isAll YouNeed中提出的革命性架构,它完全基于注意力机制,舍了统的环积结编码码组层循和卷构Transformer由器和解器成,两者均由多个相同堆叠而成创许时虑仅仅Transformer的核心新是自注意力Self-Attention机制,它允模型在处理序列考所有位置,而不是相邻位置多头注进编码顺意力Multi-Head Attention一步增强了模型从不同表示子空间提取信息的能力位置Positional Encoding解决了序列问题馈络残连则训练稳序信息的,而前网和差接增强了模型的表达能力和定性模型BERT1预训练与微调范式2双向上下文表示3预训练任务设计单语过预训练阶码语BERTBidirectional Encoder不同于之前的向言模型,BERT通BERT段包含两个任务掩码语现Representations from掩言模型MLM任务实真正的双言模型MLM,随机掩盖输入中15%的预训练调编码时虑词语标记预测们预测Transformers采用+微的向上下文模型可以同考并它;下一句NSP,阶规标侧语断这两段方法首先在大模无注文本左右两的上下文,捕捉更丰富的义判两个句子在文本中是否相邻两预训练习语针这习词级级语上,学通用言表示;然后信息种双向表示能力是BERT性能优个任务使BERT能够学和句的对进调许关键特定下游任务行微,允模型适异的因素之一言表示应问各种NLP任务,包括分类、答和序标列注等。
个人认证
优秀文档
获得点赞 0