还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
公开课教学课件zcs课程导览课程目标学习路径课语论践数础应渐进习内论践结本程旨在帮助学生掌握自然言处理的核心理和实技能,建立系从学基到前沿用,循序地学各模块容,理与实相识为来应坚础术认统化的NLP知体系,未深入研究或行业用打下实基合,构建完整的NLP技知理论基础核心技术应用实践数础语论语库语图词术译检学基、形式言、自动机理、料言模型、概率模型、分技、句法分机器翻、文本分类、情感分析、信息语问构建析、义分析索、答系统第一章绪论自然语言处理的定义1主要研究方向语计语现译自然言处理(NLP)是算机科学、人工智能与言学的交叉学科,研究如何实人•机器翻计语进论与算机之间使用自然言行有效通信的各种理和方法检•信息索发展历程•文本挖掘问纪译历规则计习•答系统从20世50年代的机器翻起步,经了基于、基于统到深度学的三个主要发阶阶对话展段,每个段都有其特点和里程碑式的成果•系统的开拓者之一NLP员导师语领资宗成庆教授,中国科学院自动化研究所研究,博士生,自然言处理域的深专计语誉为内习养家他的《统自然言处理》教材被国NLP学的经典之作,培了一代又一代NLP研究人才译语对宗教授长期从事机器翻、自然言理解等方向的研究,中文信息处理有着深入的研贡语领究和突出献,是中国自然言处理域的奠基人之一第二章数学基础概率论与统计基础线性代数与矩阵运算数学工具在NLP中的应用换论应•条件概率与贝叶斯定理•向量空间与基变•信息在NLP中的用论•随机变量与概率分布•特征值与特征向量•优化理与梯度下降数计检验阵术计•参估与假设•矩分解技•最大似然估与EM算法础数计•马尔可夫假设与HMM基•奇异值分解SVD•值算与近似方法数础对关议习阵这语习数掌握学基理解NLP算法原理至重要建重点学概率模型、矩运算和优化方法,些是构建言模型和机器学算法的基石学工具不仅们计还为评论帮助我设算法,估模型性能提供了理依据第三章形式语言与自动机形式语言的分类自动机模型简介乔语语识别根据姆斯基文法体系,形式言可分自动机是形式言的装置,主要包为括状态•0型文法(无限制文法)•有限自动机FSA关•1型文法(上下文相文法)•下推自动机PDA关线•2型文法(上下文无文法)•性有界自动机LBA则图•3型文法(正文法)•灵机TM对应词语每种文法有其特定的表达能力和的自动机在法分析、法分析等NLP任应自动机模型务中有重要用语识别础语论为们语结论言与解析基形式言理我提供了分析自然言构的理框关则架上下文无文法CFG是句法分析的重要工具,而正表达式常用于模式词这础识杂语匹配和法分析掌握些基知有助于理解更复的言处理算法第四章语料库与语言知识库语料库的构建语言知识库的作用语库础数资语识库为语识料是NLP研究的基据源,其构建包括言知NLP提供言学知支持数词汇语络•据收集与清洗•义网预规则库•文本处理•句法标规领库•注范制定•域本体标质检识识库•人工注与•常知词•版本管理与更新•情感典典型语料库案例分析中文语料库英文语料库报标语库•人民日注料•Penn Treebank现语语库语库•北京大学代汉料•Brown料树库•中文CTB•WordNet语库数•中文情感分析料•SNLI据集质语库识库训练评关键资连论践高量的料和知是NLP算法与估的源,是接理与实的桥梁第五章语言模型N-gram模型原理认为词现仅词关为N-gram模型基于马尔可夫假设,一个出的概率与前面N-1个相根据N的不同,可分•一元模型Unigram•二元模型Bigram•三元模型Trigram阶•更高N元模型虑训练数储N越大,模型考的上下文越多,但也需要更多的据和存空间语言模型在实际中的应用统计语言模型的训练语应础组应言模型是众多NLP用的基件,广泛用于计数计计骤为数问题主要包括统、概率估、平滑处理、剪枝与回退等步解决据稀疏,常用的写检纠错•拼查与平滑方法有语识别•音后处理•加一平滑Add-one译评•机器翻分•Good-Turing平滑•文本生成与补全•Kneser-Ney平滑•智能输入法第六章概率图模型隐马尔可夫模型(HMM)条件随机场(CRF)简介状态别HMM是一种生成式模型,由初始分CRF是一种判式模型,能够克服HMM状态转阵观测阵组标签问题布、移矩和概率矩的偏置,特点包括问题成三个基本虑标•考全局最优注序列评问题•估前向-后向算法•能够整合丰富的上下文特征码问题标签问题•解Viterbi算法•避免偏置习问题传•学Baum-Welch算法•支持双向信息递词标识别词现HMM在性注、命名实体等序列CRF在中文分、NER等任务中表优标应注任务中有广泛用于HMM模型训练与推断方法训练计训练则HMM使用极大似然估或EM算法,CRF采用梯度下降等优化方法最大化条断阶断这件似然推段,HMM使用Viterbi算法,CRF使用变分推或MCMC方法些模为习应型深度学前的主流序列建模工具,至今仍有重要用价值第七章自动分词、命名实体识别与词性标注中文分词技术挑战命名实体识别方法词性标注的实现与应用词临战识别为词语标语畴中文分面的主要挑文本中具有特定意义的实体,如注法范,常见方法词标规则•分准不统一•人名、地名、机构名•基于的方法问题时货币计•歧义切分•间、日期、•统方法(HMM/CRF)录词识别专术语产习•未登•业、品名•深度学方法专领词汇术规则计词标语础•业域常用技基于、基于统性注是句法分析、义理解的基,也是习译环节词词计(HMM/CRF)、深度学方法(BiLSTM-机器翻的重要主流分方法包括基于典、基于统、混习CRF)合方法和深度学方法践应词识别词标为线续环节议结实提示在实际用中,分、命名实体和性注常作NLP流水的前端处理模块,其效果直接影响后处理建使用规则计针对领进词资合和统的混合方法,特定域行优化,并定期更新典源中文分词示意图词语础环节语书写没显中文分是中文自然言处理的第一步,也是最基的由于汉有明的词语标记计过来词边界,算机需要通算法确定的切分位置分词前们举开我在北京人民大会堂行了隆重的幕式分词后们举开我/在/北京/人民大会堂/行/了/隆重/的/幕式词结对续词标语关词正确的分果后的性注、句法分析和义理解至重要不同的分系统可词标导词结能采用不同的分准,致分果存在差异第八章句法分析句法结构与依存关系句法分析主要有两种形式语结将为层语结树状结短构分析(成分句法)句子划分不同次的短构,形成构基于上下文关无文法CFG词词关图结词语关依存句法分析分析与之间的依存系,形成有向构直接表示之间的法系,词语更适合自由序言句法分析算法基于规则的句法分析统计句法分析深度学习句法分析编写语规则结转换规则关转换络转图结早期方法,人工法和句法构,利用概率上下文无文法PCFG或概率模型,从基于神经网的移系统或构解析,如基于顶标语习规则转图络包括自向下和自底向上等解析策略注料中学句法和概率BiLSTM的移系统、基于的神经网模型等译语挥语结关键骤句法分析在机器翻、信息抽取、义理解等任务中发着重要作用,是理解自然言构的步第九章语义分析语义角色标注识别谓词论结标谁对谁句子中-元构,注做了什么•施事者Agent词义消歧•受事者Patient•工具Instrument词确定多义在特定上下文中的具体含义主要方法•位置Location等识库•基于知的方法监习语义表示方法•督学方法监•无督聚类方法词语语术语习表示、句子义的技•深度义表示学•向量空间模型语•分布式义表示识图谱•知逻辑•表示形式语语语语逻辑现语预训练语语义分析旨在理解自然言的真实含义,是自然言理解的核心任务义表示的发展从早期的符号表示,发展到代的分布式义表示,再到基于言模型的上下文义断计对语表示,不提高了算机自然言的理解能力热来络语习别预训练语语进现语研究点近年,基于神经网的义表示学,特是言模型(如BERT、GPT等)在义分析任务上取得了突破性展,实了更加精确的义理解和表达第十章篇章分析篇章结构理论指代消解技术语单关连贯结词词语篇章是超越句子的言位,篇章分析注文本的性和整体构确定代、名短等表达指向的实体,主要包括辞结论规则•修构理RST•基于的方法论识•中心理Centering Theory•基于知的方法论习•篇章表示理DRT•机器学方法语关论络•篇联理•神经网方法这论结组语关临战词识别些理从不同角度描述了文本的构织和篇系中文指代消解面的特殊挑包括零代与解析等篇章分析的应用场景应挥档档结阅读逻辑关篇章分析在多种NLP用中发重要作用,如文摘要生成(需要理解文的整体构)、情感分析(需要跨句子理解情感变化)、机器理解(需要推理段落间的对话维对话连贯系)、系统(需要护多轮的性)等第十一章统计机器翻译规则式机器翻译神经机器翻译纪语规则译转换译语译络译20世50-80年代,基于言学的直接翻、翻和中间言翻方2014年后,基于神经网的端到端翻模型从早期的RNN Encoder-Decoder赖编写词语规则译质断法主要依人工的典和法模型,发展到Attention机制,再到Transformer架构,翻量不提升123统计机器翻译纪规语语库计习20世90年代至2010年前后,基于大模双料的统学方法主要模型词译语译译包括基于的翻模型、基于短的翻模型和基于句法的翻模型统计翻译模型现代神经机器翻译简介计译组译势统机器翻的核心件神经机器翻的主要优译语标语转换训练•翻模型Pf|e,源言到目言的概率•端到端,无需手工特征工程语标语畅评赖•言模型Pe,目言的流度估•更好地捕捉长距离依码畅译•解器argmax Pe|f=argmax Pf|ePe•生成更流的文对语标语词语对应关语习•齐模型确定源言和目言之间的系•多言共享表示学资语译•支持低源言翻第十二章语音翻译语音识别基础语音合成技术语识别语译术语标语语术音ASR是音翻的第一步,主要技音合成TTS是生成目言音的技•声学特征提取(MFCC、Fbank等)•拼接式合成数•声学模型(GMM-HMM、DNN-HMM)•参式合成语计数•言模型(N-gram、RNN-LM)•统参合成络•端到端模型(CTC、Attention)•神经网合成(WaveNet、Tacotron)语识别问题现语畅语中文音需要处理方言、多音字等特殊代音合成系统可生成自然、流的音语音翻译系统架构级联式架构将连独训练计误ASR、MT、TTS三个模块依次接,各模块立和优化优点是模块化设灵活,缺点是差累积紧耦合架构层错误对译传术在ASR和MT之间增加联合优化,减少ASR翻的影响如N-best重排序、置信度递等技端到端架构语语标语语训练误积语数直接从源言音到目言文本或音的端到端减少差累,但需要大量平行音-文本据第十三章文本分类与情感分类文本分类方法情感分析技术特征工程倾情感分析是文本分类的特殊任务,研究文本所表达的情感向档级级级词粒度划分文、句子、方面情感分析•袋模型BOW负表示方法极性分类(正面/面/中性)、情感强度分析•TF-IDF特征战讽语语识别标区特殊挑刺、反、委婉的;多情感目分•N-gram特征词语词词题中文特点情感典构建、言特点处理(如否定、程度副)•主模型特征词•向量特征分类算法•朴素贝叶斯•支持向量机SVM树•决策与随机森林习•深度学模型CNN/RNN预训练语调•言模型微应用案例分享社交媒体分析市场调研政务舆情监测评论倾热产评论识别产势监测时现应对负舆品牌口碑,分析用户情感向,追踪社会点事件反响分析品,挖掘用户需求,品优与不足公共政策反响,及发并面情第十四章信息检索与问答系统信息检索模型问答系统设计检规档关问组信息索是从大模文集合中找到相信息的技答系统的主要件与流程术问题问题识别关键词分析类型、提取论数检识库档检关内布尔模型基于集合和布尔代的精确匹配信息索从知或文集合中索相容将档为计向量空间模型查询和文表示向量,算相检结似度答案提取从索果中提取准确答案论关语概率模型基于概率理的相性排序答案生成根据提取的信息生成自然言答案语计档验证评言模型估查询由文生成的概率答案估答案的正确性和可靠性习习学排序使用机器学优化排序功能典型系统实例3主要问答系统类型识库问结识库识图谱问题知答KBQA基于构化知(如知)回答事实性检问规档检索式答IRQA从大模文中索并提取答案问语显检生成式答使用大型言模型直接生成答案,无需式索第十五章自动文摘与信息抽取自动摘要技术信息抽取方法档简结结自动摘要是从文中提取或生成洁摘要的技信息抽取是从非构化文本中提取构化信息术主要任务摘要类型识别识别命名实体人名、地名、机构名等选关识别语关抽取式摘要从原文取重要句子系抽取实体间的义系内识别词生成式摘要理解原文后生成新的摘要容事件抽取事件类型、触发、参与者档关档综多文摘要从多个相文生成合摘要属性抽取提取实体的属性信息主要方法抽取方法计词频规则则•基于统特征(位置、、句长等)•基于(模式匹配、正表达式)图监习标•基于模型(TextRank等)•基于督学(序列注、分类)络监远监•基于神经网(Seq2Seq、Transformer)•基于半督和程督方法实际应用案例术应闻议纪场则识图谱自动摘要技广泛用于新聚合、科技文献分析、会要生成等景信息抽取在知构舆领挥结现建、智能客服、情分析等域发重要作用两者合,可以实从海量文本中提取核心信息并生成简洁摘要的高效信息处理流程第十六章口语信息处理与人机对话系统对话管理1维对话状态护,决策下一步行动自然语言理解2图识别意、槽位填充、上下文理解自然语言生成3对话状态畅应基于生成流、自然的响语音识别与合成4将语转为将应转为语用户音文本,系统响音口语识别技术对话系统架构语书语导战对话口与面的差异致处理挑系统的主要分类规误顿对话订•非范表达(口、重复、停)任务型系统完成特定任务(票、查询等)问对话问题•省略、指代模糊答型系统回答用户闲对话进开对话•方言、口音、背景噪音聊型系统行放域语对话综•情感和气表达混合型系统合以上能力语识别术鲁计这规语现现对话习结规则为口技需要更加棒的模型设,能够处理些不范和多变的言象代系统多采用深度学方法,合确保系统行可控未来发展趋势对话趋势态结觉觉对话记忆识习对话节语现为对话带来临诚系统发展包括多模交互(合视、触等)、情感理解与表达、个性化能力、长期与知学、更自然的奏控制等大型言模型的出系统新的发展机遇,但也面信、安全、偏见等战挑课程学习资源推荐书籍视频课程电子资源计语师开课语课记级盘《统自然言处理》-宗成庆著,清华大学出版社,NLP宗成庆老NLP公-B站搜索宗成庆自然言处理程PPT与笔-班网共享础论码课仓库基理与方法的经典教材代实例-GitHub程数军绍习结数词识别数《学之美》-吴著,人民邮电出版社,通俗易懂地介斯坦福CS224n-B站有中文字幕版本,深度学与NLP合据集-包括中文分、命名实体等常用据集数NLP背后的学原理论题论文集-按主整理的经典文PDF语综论习课关内《自然言处理》-Daniel JurafskyJames H.李宏毅机器学-B站有完整程,包含NLP相容译锡鹏师习课关Martin著,机械工业出版社(中本),全面的NLP教材复旦大学邱老深度学与NLP程-B站可找到相频视络习锡鹏《神经网与深度学》-邱著,机械工业出版社,深习应础度学在NLP中用的基资获扫课维码请获资载链课频传课盘请识产权资仅习源取方式描程群二,按要求申加入,可取所有电子源的下接每周的程视也会上至程网尊重知,源供个人学使用,禁止商业用途学习小组与协作学习委员与分工介绍线上讨论与作业提交为进习课组习讨论平台促高效学,程采用小学模式习组协调习进组讨论学长整体学度,织活动•微信群日常交流与通知资员课资维档腾讯议时线讨论料委整理程料,护共享文•会每周固定间上员协问题错误码问题讨论作业委助解答作业,收集常见•GitHub Discussion代术环问题码书档协记资技支持解决境配置,提供代支持•飞文作笔与料整理记录员课记习委整理堂笔,分享学心得作业提交选择组内换每位同学可根据自身特长1-2个角色,在小轮担任论课线•理作业程平台在提交编仓库•程作业GitHub PR方式提交项项报码•目作业目告与代包一起提交时•截止间每周日晚23:59经验分享与答疑渠道习过问题过获组内讨论课论时师线习验学程中遇到,可通以下渠道取帮助1)小部,集思广益;2)程坛发帖,助教解答;3)每周固定答疑间,与老在交流;4)学经员绍习议尝试寻这分享会,优秀学介学方法与心得建先自行解决,再求帮助,样更有利于能力提升典型案例分析隐马尔可夫模型在分词中的应用模型原理简述实验数据与效果展示隐词应报标语验结马尔可夫模型HMM在中文分中的用在人民日注料上的实果状态别词开结单词集{B,M,E,S},分表示的始、中间、束和字标观测指准确率召回率F1值集所有汉字字符转状态转阵础移概率之间的移概率矩基HMM
87.2%
85.8%
86.5%状态观测发射概率生成的概率录词开状态+未登处理
90.3%
88.7%
89.5%初始概率句子始的分布规则寻状态词+后处理
92.8%
91.5%
92.1%使用Viterbi算法找最可能的序列,从而确定分边界连续词对录词HMM在处理文本分上有良好性能,但未登和歧义切分存在局限性代码示例与解析#HMM中文分词的核心代码示例def viterbitext,start_p,trans_p,emit_p:V=[{}]#记录最佳路径path={}states=[B,M,E,S]#初始化for y in states:V
[0][y]=start_p[y]*emit_p[y].gettext
[0],0path[y]=[y]#动态规划计算最佳路径for tin range1,lentext:V.append{}newpath={}for yin states:#计算每个状态的最大概率prob,state=maxV[t-1][y0]*trans_p[y0][y]*emit_p[y].gettext[t],0,y0for y0in statesV[t][y]=prob newpath[y]=path[state]+[y]path=newpath#找出最后一个字符的最佳状态prob,state=maxV[lentext-1][y],y foryinstates returnprob,path[state]课程作业与考核123章节作业期末项目成绩评定内习应综项选终绩组每章容学后安排相作业,包括学期末需完成一个合NLP目,可方最成由以下几部分成论题数导课向•理概念理解、算法分析、学推•出勤与堂参与10%节•中文文本分类系统•章作业40%编题现简单数简问对话项•程实算法、据处理、模型•易答或系统•期末目40%训练习组贡•文本摘要或信息抽取工具•学小献10%讨论题较应领•案例分析、方法比、用思考别项获额•特定域情感分析系统特优秀的目有机会得外加分并推荐选题报关赛•自主(需提前备)参加相比节绩时章作业占总成的40%,按完成并参与项组队码报讨论目可1-3人完成,需提交代、告和非常重要频演示视须独严袭现袭为将规严肃时请师重要提示作业必立完成,禁抄一经发抄行,按学校定处理如有特殊情况无法按提交,提前与老或助教沟通申请延期未来学习方向推荐深度学习与NLP结合预训练语言模型当应BERT及其变体1前NLP研究与用主流方向习词档编码预训深度表示学向量、句向量、文向量掌握双向Transformer器应练调序列建模RNN、LSTM、GRU架构及用与微范式2GPT系列注意力机制Self-Attention、Multi-Head Attention图络结数语树识图谱神经网处理构化据如法、知归预训练规语理解自回和大模言模应深度生成模型VAE、GAN在文本生成中的用多模态模型3型原理议传础习习术建在理解统NLP基上,系统学深度学框架和技语觉频态探索言与视、音等多模融合方向产业应用与研究前沿学术研究方向产业落地方向伦理与安全方向语认识习语习内舆疗隐内释言知、高效推理、知融合、小样本学、多言迁移学等智能客服、容生成、情分析、智能医、法律智能、教育科技等模型偏见消除、私保护、事实一致性、容安全、可解性等现代技术示意图NLP现语术传计为习为导现领规预训练语代自然言处理技已从统的统方法演变以深度学主的研究范式Transformer架构的出彻底改变了NLP域,使大模言为模型成可能这预训练获语识识过调应层赖杂语现些模型可以捕丰富的言知和世界知,通微适各种下游任务多自注意力机制使模型能够有效处理长距离依和复的言显象,著提升了各类NLP任务的性能水平来术将态习识进语未NLP技向多模、少样本学、知融合等方向发展,一步提升机器理解和生成自然言的能力常见问题解答学习自然语言处理需要哪些预备知如何平衡理论学习与实践编程?如何获取更多学习资源和实践数据?识?论践议论践课础资过理与实同等重要建理-实-反思除程提供的基源外,可以通以下渠道习数础论线环习现获资开项学NLP需要一定的学基(概率、性循学先理解概念原理,再动手实算取更多料GitHub上的源目(如数积编结进竞赛代、微分)、程能力(Python优先)、法,然后分析果并思考改每周分配固定HuggingFace)、Kaggle平台、中文础语识习论课时进编践问题时讨论区开区基言学知和机器学理但程会逐间行程实,遇到及在提NLP源社、AI研究机构(如清华讲识过议问阅档数课内步解必要知,不必于担心建提前熟或查文解决THUNLP)发布的据集等程群也会定础数质习资悉Python和基学概念期分享优学源课程反馈与改进建议为续进课质欢过馈们别关议持改程量,迎通以下方式提供反我特注以下方面的建习线馈单内难进•每章学后的在反表•教学容度与度安排课评问践项计导•期中、期末程价卷•实目的设与指课馈习资质获•程微信群或邮件直接反•学源的量与可取性对时对术•面面交流(每周固定间)•新技、新方向的补充需求议将认虑将课纳们习验您的每一条建都真考,有价值的意见在下一轮程中采实施我致力于打造更加实用、高效的NLP学体学员心得分享1王同学-计算机科学专业2李同学-人工智能专业3张同学-语言学专业师课论践详为语开数础较师讲数时别宗老的程体系非常完整,从理到实都有作非言学背景的学生,一始接触NLP有些吃我的学基弱,但宗老解学概念特细讲获识课浅讲难组让渐解最大的收是建立了NLP的知框架,明力,但程由入深的解帮我克服了困小接地气,我逐建立了信心助教也很耐心解答术议践习讨论进问题过这课语转术确了各技间的联系建新同学一定要动手实学模式很有效,大家互相促了理解期末通门,我成功从言学向NLP技论层项领问获现独开应每个算法,不要只停留在理面目做了一个垂直域的答系统,收很大研究,在已经能立发中小型NLP用了实践项目成果展示优秀项目案例学习动力与成长故事检领检问许员课习过员课项医学文献智能索系统-基于BERT的医学域信息索与答多学在程学程中找到了自己的研究方向与兴趣点有的学基于程目发表术论将项为创产还获习书结专了学文,有的目发展业品,有的因此得了知名企业和研究所的实机法律文自动摘要工具-合抽取式和生成式方法的业摘要系统续习践维们语译识别标话转换会持学、勇于实和跨学科思是他成功的共同特点多方言音翻助手-支持多种中国方言与准普通诗词现现诗词转换古风格迁移系统-实代文与古典的双向课程总结NLP学习的价值与挑战课程核心知识回顾语领阔应自然言处理是人工智能的核心域之一,具有广的用前景和研究价值连关键•接人类与机器的桥梁•跨学科融合的典型代表术进•技步与社会发展的推动力创应•新用与商业价值的源泉时习临诸战同,NLP学也面多挑语现杂•言象的复性与多样性数•学与工程能力的双重要求论践•理与实的平衡把握术节•快速发展的技更新奏数学基础论线数论概率、性代、优化理致谢与联系方式特别感谢课程资源获取谢队来对课资将续线感宗成庆教授及其团多年中本程所有教学源持在提语贡频课码国自然言处理教育和研究的献供包括视回放、件PDF、代谢课练习题请过感所有程助教的辛勤付出和耐心示例、及参考答案等通导谢积课盘访问指感各位同学的极参与和宝程官方平台或共享网,勿通贵馈过资反非官方渠道分享料联系方式课程咨询邮箱nlp_course@example.edu.cn课助教联系方式见程群公告习扫维码学交流群描下方二加入语习祝愿各位同学在自然言处理的学道路上取得优异成果!。
个人认证
优秀文档
获得点赞 0