还剩18页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
nlp算法工程师面试题和答案
一、基础理论与概念理解题(本题型共15题,每题2分,共30分)
1.请简述自然语言处理(NLP)的定义,并说明其主要研究目标2在NLP中,“分词”和“词性标注”的作用分别是什么?请举例说明两者在实际应用中的关联
2.什么是“语料库”?它在NLP研究和应用中有哪些核心作用?请列举两种常见的中文语料库名称
3.解释“上下文无关文法(CFG)”的基本概念,并说明其在句法分析中的应用场景
4.“语义歧义”在NLP中是如何产生的?请分别举例说明词汇歧义、组合歧义、语用歧义,并简述一种常用的歧义消解方法
5.什么是“词向量”?相比传统的one-hot编码,词向量具有哪些优势?请列举两种主流的词向量训练算法
6.请解释“句子表示”(Sentence Representation)的概念,并说明其在NLP任务中的重要性除了基于深度学习的方法,还有哪些经典句子表示方法?
7.在NLP中,“标注数据”和“非标注数据”分别指什么?它们在监督学习和无监督学习中的作用有何不同?
8.什么是“混淆集”(Confusion Set)?它在NLP任务(如命名实体识别、机器翻译)中通常用于解决什么问题?
9.请简述“评估指标”在NLP任务中的意义,并列举三个不同NLP任务(如文本分类、机器翻译、情感分析)对应的常用评估指标第1页共20页ll.“领域自适应”(Domain Adaptation)在NLP中的含义是什么?它主要解决什么问题?请举例说明一种领域自适应的方法
10.什么是“跨语言NLP”(Cross-Lingual NLP)?请列举两个跨语言NLP的典型应用场景,并说明其核心挑战
11.在NLP中,“注意力机制”(Attention Mechanism)核心思想是什么?它在哪些经典模型中被广泛应用?相比传统的固定权重方法,注意力机制有哪些优势?
12.请解释“数据稀疏性”在NLP中的含义,并说明为什么会出现这一问题,以及至少两种缓解数据稀疏性的方法
13.什么是“预训练模型”(Pre-trained Model)?它在NLP领域的出现带来了哪些革命性的影响?请列举三个基于预训练模型的典型应用场景
二、与统计方法题(本题型共15题,每题3分,共45分)
1.请解释“”(Language Model,LM)的基本概念,并说明其在NLP任务中的核心作用(至少列举两个)
2.n-gram中,n的取值通常有哪些?不同n值(如n=1,2,3)的在建模能力和计算复杂度上有何差异?
3.什么是“困惑度”(Perplexity,PPL)?它的计算公式是什么?为什么说困惑度可以作为评估好坏指标?
4.当训练语料中出现未登录词(OOV)时,n-gram模型会遇到什么问题?请列举至少两种解决未登录词问题的方法
5.解释“平滑”(Smoothing)技术的目的,并列举两种常用的平滑方法(如Laplace平滑、Lidstone平滑)的基本原理
6.请比较“极大似然估计”与“贝叶斯估计”在参数估计中的应用场景和优缺点第2页共20页
7.隐马尔可夫模型(HMM)由哪些基本要素组成?它在NLP中常被应用于哪些任务?请举例说明
8.条件随机场(CRF)与HMM的主要区别是什么?为什么CRF在序列标注任务(如命名实体识别)中表现优于HMM?
9.朴素贝叶斯分类器在文本分类任务中的基本假设是什么?当文本特征之间存在较强相关性时,这一假设是否合理?可能导致什么后果?
10.什么是“bigram”?请用一个具体的句子(如“我爱自然语言处理”)举例说明如何计算其概率(需写出公式)
11.“回退平滑”(Back-off Smoothing)和“插值平滑”(Interpolation Smoothing)两种常用的n-gram平滑方法,请分别说明其核心思想和实现步骤
12.在统计NLP任务中,“经验风险最小化”(ERM)和“结构风险最小化”(SRM)的基本含义是什么?它们在模型训练中的作用有何不同?
13.为什么说计算复杂度会随着n的增大而显著增加?在实际应用中,如何平衡模型性能和计算效率?
14.什么是“零概率问题”(Zero ProbabilityProblem)?在n-gram模型中,当某个n-gram组合在训练语料中未出现时,模型会如何处理?
15.请解释“互信息”(Mutual Information)在或文本分析中的作用,并说明其如何用于特征选择或关键词提取
三、深度学习在NLP中的应用题(本题型共15题,每题3分,共45分)
1.卷积神经网络(CNN)在NLP中主要用于处理什么类型的任务?其核心优势是什么?请简述CNN在文本分类任务中的基本结构第3页共20页
2.循环神经网络(RNN)为什么能处理序列数据?它基本结构是怎样的?RNN在处理长序列时会遇到什么问题?
3.LSTM(长短期记忆网络)是如何解决RNN的梯度消失/爆炸问题的?请简述LSTM的核心组件(如门控单元)及其作用
4.GRU(门控循环单元)与LSTM相比,在结构和性能上有哪些主要差异?为什么说GRU通常更简洁高效?
5.Transformer模型相比传统的RNN/CNN模型,有哪些革命性的改进?其核心组件“自注意力机制”的作用是什么?
6.在Transformer的Encoder部分,“多头注意力”机制(Multi-Head Attention)是如何工作的?它带来了哪些好处?
7.请解释“位置编码”(Positional Encoding)在Transformer中的必要性,并列举一种常用的位置编码方法及其原理
8.双向LSTM(Bi-directional LSTM)在NLP任务中的应用场景是什么?相比单向LSTM如何提升模型性能?
9.CNN在文本处理中常用的“卷积核”(Filter/Kernel)大小如何选择?不同大小的卷积核对捕捉文本特征有何影响?
10.什么是“门控机制”(Gating Mechanism)?在RNN、LSTM、GRU等模型中,门控机制的核心功能是什么?
11.Transformer的Decoder部分包含哪些关键组件?在机器翻译任务中,Decoder是如何利用Encoder的输出进行目标序列生成的?
12.请比较CNN、RNN、Transformer在文本分类任务中的优缺点及适用场景
13.为什么说LSTM/GRU的“门控单元”(如遗忘门、输入门、输出门)能够学习长期依赖关系?第4页共20页
14.在深度学习NLP模型中,“Dropout”技术的作用是什么?它通常在模型的哪个阶段应用?为什么能有效防止过拟合?
15.什么是“残差连接”(Residual Connection)?它在Transformer和ResNet等模型中是如何实现的?带来了哪些好处?
四、预训练模型与微调题(本题型共15题,每题3分,共45分)
1.请简述预训练模型(Pre-trained Model,PM)的基本框架和核心思想为什么预训练模型能显著提升NLP任务性能?
2.BERT(Bidirectional EncoderRepresentations fromTransformers)模型名称中“Bidirectional EncoderRepresentations”的含义是什么?它与GPT模型主要区别是什么?
3.BERT的预训练阶段包含哪两个核心任务?这两个任务分别是如何实现的?它们各自的作用是什么?
4.为什么BERT的预训练任务需要考虑“掩码(MLM)”和“下一句预测(NSP)”?这两个任务如何帮助模型学习更全面的语言表示?
5.微调(Fine-tuning)在预训练模型中的作用是什么?在进行微调时,通常需要注意哪些问题(如参数更新策略、学习率选择、数据量等)?
6.GPT系列模型的核心特点是什么?它与BERT相比,在模型结构和应用场景上有哪些差异?
7.T5(Text-to-Text TransferTransformer)模型“Text-to-Text”范式具体指什么?它相比其他预训练模型(如BERT、GPT)有哪些创新?
8.预训练模型微调时,“冻结预训练层”和“微调所有层”是两种常见策略,分别适用于什么场景?如何选择这两种策略?第5页共20页
9.什么是“提示工程”(Prompt Engineering)?它在预训练模型微调中有什么作用?请举例说明一种简单的提示模板设计
10.预训练模型在训练过程中可能会遇到“灾难性遗忘”(Catastrophic Forgetting)问题,这指的是什么?如何缓解这一问题?请列举至少两种方法
11.BERT的“Masked LMMLM”任务中,为什么需要随机掩盖15%的输入token?掩盖策略中,未被掩盖的token是否会参与训练?为什么?
12.预训练模型的“上下文相关表示”(ContextualRepresentation)相比静态词向量(如Word2Vec)有哪些优势?
13.请解释“知识蒸馏”(Knowledge Distillation)在预训练模型压缩中的作用,以及它如何应用于预训练模型的优化
14.预训练模型的“扩展规模”(如增大模型参数量、增加训练数据量)是否一定能提升性能?为什么?在实际应用中如何平衡模型规模与性能?
15.什么是“prompt-based微调”?它与传统的“参数微调”(如直接微调模型参数)相比,在哪些方面具有优势?
五、NLP关键任务实现题(本题型共15题,每题3分,共45分)
1.文本分类任务中,常用的特征表示方法有哪些?请比较“词袋模型(BoW)”和“TF-IDF”的优缺点
2.命名实体识别(NER)的主要任务是什么?请列举三种常见的实体类型(如人名、地名),并说明NER在信息抽取、问答系统中的应用
3.句法分析(Syntactic Parsing)的核心目标是什么?请比较“依存句法分析”和“短语结构分析”的区别第6页共20页
4.机器翻译(Machine Translation,MT)的主要挑战有哪些?请列举两种主流的翻译模型(如基于统计的、基于神经网络的)及其核心思想
5.问答系统(Question Answering,QA)通常分为哪几类?请以“抽取式QA系统”为例,说明其基本工作流程和核心组件
6.在文本分类中,如果数据集存在“类别不平衡”问题(如某一类样本远多于其他类),可以采取哪些解决方法?请分别简述其原理
7.命名实体识别中,“BIO标注法”(Begin,Inside,Outside)的具体含义是什么?它如何帮助模型识别实体的边界和类型?
8.机器翻译中,“注意力机制”(Attention)是如何帮助模型生成更准确的目标语言序列的?请结合翻译过程举例说明
9.什么是“实体链接”(Entity Linking)?它在问答系统或知识图谱构建中有什么作用?
10.请简述“文本摘要”(Text Summarization)的概念,并区分“抽取式摘要”和“生成式摘要”的主要差异及典型应用场景
11.在情感分析任务中,“极性分类”和“情感强度分析”的区别是什么?请列举两种常用的情感分析方法(如基于词典、基于机器学习)
12.句法分析中,“歧义结构”(如中心语识别、修饰关系)是如何产生的?模型通常采用哪些方法来解决句法歧义?
13.什么是以“Seq2Seq模型”为基础的机器翻译系统?它由哪两个核心网络(编码器、解码器)组成?在训练时如何处理长序列问题?
14.问答系统中,如果训练数据有限,如何利用外部知识(如知识图谱、百科)来提升模型性能?请举例说明一种方法第7页共20页
15.文本分类任务中,“词嵌入”(Word Embedding)、“句子嵌入”(Sentence Embedding)和“文档嵌入”(DocumentEmbedding)的主要区别是什么?
六、工程实践与优化题(本题型共15题,每题3分,共45分)
1.NLP项目中,“数据预处理”阶段通常包含哪些关键步骤?请简述每个步骤的目的(至少列举3个)
2.在模型训练过程中,“早停法”(Early Stopping)的作用是什么?它是如何实现的?可能存在哪些局限性?
3.什么是“学习率调度”(Learning RateScheduling)?请列举两种常用的调度策略及其原理(如StepLR、CosineAnnealingLR)
4.模型训练中出现“过拟合”(Overfitting)和“欠拟合”(Underfitting)的原因分别是什么?如何通过调整模型结构、数据或训练参数来缓解?
5.NLP任务中,“交叉熵损失”(Cross-Entropy Loss)和“均方误差”(MSE Loss)分别适用于什么场景?请举例说明
6.请解释“梯度裁剪”(Gradient Clipping/Clipping Gradient)的作用和实现原理为什么能有效解决梯度爆炸问题?
7.在模型部署时,“模型量化”(Model Quantization)和“模型剪枝”(Model Pruning)的主要目的是什么?它们分别通过什么方式实现?
8.NLP数据中常见的“噪声”(如错别字、重复文本、无意义字符)会对模型训练产生什么影响?如何进行数据清洗?
9.什么是“数据增强”(Data Augmentation)?在NLP任务中,有哪些常用的数据增强方法(如同义词替换、随机插入、回译)?第8页共20页
10.模型训练时,“批量大小”(Batch Size)的选择对训练效果有什么影响?如何根据硬件条件和模型规模调整批量大小?
11.预训练模型的“冷启动”(Cold Start)问题指什么?在没有标注数据的情况下,如何利用预训练模型快速适应新任务?
12.NLP模型部署到移动端或嵌入式设备时,面临的主要挑战有哪些?请列举至少两种优化部署的方法(如模型压缩、推理加速)
13.什么是“注意力分布”(Attention Distribution)?在模型训练或推理过程中,如何利用注意力分布来分析模型的决策逻辑?
14.在模型训练中,“权重衰减”(Weight Decay)和“L1正则化”、“L2正则化”的关系是什么?它们的作用都是防止过拟合吗?
15.NLP项目中,“离线评估”和“在线评估”的主要区别是什么?在实际应用中,如何结合两者评估模型的实际效果?
七、行业趋势与项目经验题(本题型共15题,每题3分,共45分)
1.近年来NLP领域有哪些重要的技术突破?请列举三个,并简述其核心思想及影响
2.大(LLM)(如GPT-
4、Claude、文心一言)相比传统NLP模型,在哪些方面实现突破?
3.什么是“多模态NLP”(Multimodal NLP)?它与传统单模态NLP相比,有哪些新的应用场景?
4.在NLP领域中,“小样本学习”(Few-Shot Learning)和“零样本学习”(Zero-Shot Learning)的核心思想是什么?它们如何缓解标注数据不足的问题?
5.NLP在“AIGC”(生成内容)浪潮中的角色是什么?请列举三个AIGC应用场景(如文本生成、图像生成)并说明NLP的作用第9页共20页
6.请简述“知识增强NLP”(Knowledge-Enhanced NLP)的概念,以及知识图谱在其中的作用
7.近年来,NLP模型的规模呈现指数级增长(如千亿、万亿参数)?这种增长是否是NLP技术发展的必然趋势?为什么?
8.在NLP项目中,“需求分析”阶段需要明确哪些核心问题?(如任务定义、数据情况评估、性能指标、应用场景等)
9.什么是“NLP伦理”(NLP Ethics)?在模型开发和应用中,如何关注伦理问题(如偏见、隐私、虚假信息)?
10.请列举三个你认为未来NLP最有前景的研究方向,并说明理由
11.在NLP项目中,“数据安全”和“隐私保护”的重要性体现在哪些方面?有哪些常用的数据脱敏或隐私计算方法?
12.大在“上下文理解”和“推理能力”上的提升,主要得益于哪些技术改进?
13.你在过往项目中,遇到过哪些典型的NLP技术挑战?你是如何分析并解决的?(请举例说明,如数据稀疏、模型效果不佳等)
14.什么是“NLP与知识图谱融合”技术?它在智能问答、推荐系统中有哪些应用?
15.近年来,开源社区在NLP领域有哪些重要的模型或工具(如Hugging FaceTransformers、spaCy)?它们对NLP技术发展有何推动作用?参考答案汇总
一、基础理论与概念理解题
1.自然语言处理是分支,旨在让计算机理解、解释和生成人类语言;研究目标包括文本分类、情感分析、机器翻译、问答系统等,实现人机自然语言交互第10页共20页
2.分词将文本拆分为基本语义单元,词性标注为每个词标注语法类别;例如“我爱自然语言处理”分词为“我/爱/自然/语言/处理”,词性标注为“代词/动词/名词/名词/名词”,两者结合帮助模型理解词语关系
3.语料库是结构化的大规模文本集合;作用是提供训练数据、验证模型效果、支持语言规律研究;常见中文语料库人民日报语料库、微软亚洲研究院中文语料库
4.上下文无关文法是描述语言语法结构的形式化体系,由终结符、非终结符、产生式组成;应用于句法分析(如解析句子成分关系)、语法纠错等
5.语义歧义因一词多义、结构组合或语境差异产生;词汇歧义如“苹果”(水果/公司),组合歧义如“咬死了猎人的狗”(狗被杀死/猎人被狗杀死),语用歧义如“你真行”(赞扬/反讽);歧义消解方法基于上下文的消歧、语义角色标注
6.词向量是将词映射到低维稠密向量的表示;优势捕捉语义相似度、减少维度灾难;主流算法Word2Vec(Skip-gram/CBOW)、GloVe
7.句子表示是将句子映射到向量空间的数值化表示;作用作为模型输入(如分类、翻译);经典方法平均词向量、TF-IDF句子向量、SIF(Smooth InverseFrequency)
8.标注数据是带有人工标注标签的语料(如分类标签、实体类型),非标注数据是无标签原始文本;标注数据用于监督学习,非标注数据用于无监督学习(如预训练、聚类)第11页共20页
9.混淆集是特定任务中可能相互混淆的类别集合;用于解决类别边界模糊问题,如NER中“人名-地名”混淆集,可通过注意力机制或后处理(如投票法)区分
10.评估指标用于量化模型性能;文本分类常用准确率/精确率/召回率,机器翻译常用BLEU,情感分析常用F1值
11.领域自适应是将源领域知识迁移到目标领域的技术,解决标注数据分布差异问题;例如将新闻文本分类知识迁移到社交媒体评论分类,方法对抗训练、领域自适应预训练
12.跨语言NLP是实现不同语言间理解与交互的技术;应用场景多语言机器翻译、跨语言信息检索;挑战语言结构差异、文化背景知识缺失
13.注意力机制核心是动态分配输入序列中各位置的权重,聚焦关键信息;应用于Transformer、Seq2Seq等模型;优势提升模型对长依赖关系的捕捉能力,可解释性强
14.数据稀疏性是因语料有限导致低频特征或组合出现概率低;缓解方法平滑技术(Laplace)、降维(PCA)、数据增强
15.预训练模型是在大规模无标注文本上预训练通用语言表示,再微调下游任务;影响减少对标注数据依赖、显著提升多项任务性能,推动NLP从“任务专用”向“通用智能”发展;应用场景文本分类、问答、生成式任务
二、与统计方法题
1.是预测词序列概率的模型;核心作用作为机器翻译基础(如统计翻译模型计算目标序列概率)、文本生成核心(生成连续文本)、其他任务组件(如NER中提升序列标注效果)第12页共20页
2.n取值通常为1(unigram)、2(bigram)、3(trigram);n=1复杂度低、忽略词序,n=2/3复杂度增加、建模能力增强(捕捉局部依赖)
3.困惑度是衡量对文本序列概率预测能力的指标,公式为PPL=exp-1/NΣlogPw_icontext;值越小,模型对序列的预测越准确
4.OOV问题是模型无法预测未出现词汇的概率;解决方法词汇表扩展(如添加罕见词)、平滑技术(Laplace)、未知词统一表示(如UNK)
5.平滑目的是解决零概率问题,使概率分布更合理;Laplace平滑对每个n-gram计数加1;Lidstone平滑加δ(0δ1)
6.极大似然估计直接用频率估计概率,适用于数据量大的场景;贝叶斯估计引入先验知识,适用于数据量小的场景;ML优点简单直观,缺点数据稀疏时概率估计偏差大;贝叶斯优点鲁棒性强,缺点先验选择影响结果
7.HMM由初始概率、转移概率、发射概率组成;应用词性标注、命名实体识别、语音识别
8.CRF与HMM的区别HMM是生成式模型,假设观测独立;CRF是判别式模型,考虑全局特征;CRF因能利用更多上下文特征,在序列标注中更优
9.朴素贝叶斯假设特征条件独立;当特征相关时,假设不合理,可能导致分类错误(如文本中“自然”和“语言”高度相关)
10.bigram模型预测当前词依赖前一个词,概率P我爱自然语言处理=P我P爱我P自然第13页共20页爱P语言自然P处理语言;计算时需基于训练语料统计各n-gram频率
11.回退平滑当n-gram不存在时,退回到n-1-gram;插值平滑将不同阶n-gram的概率加权组合
12.ERM最小化经验风险(训练误差);SRM在ERM基础上加入结构风险(模型复杂度惩罚),平衡误差与复杂度
13.n增大时,n-gram数量呈指数增长,计算复杂度和数据需求激增;平衡方法使用更大语料、采用缓存技术、选择合适n(如n=3)
14.零概率问题是n-gram在训练语料中未出现导致概率为0;解决平滑技术(如Laplace)、回退法、或使用未登录词统一表示
15.互信息衡量特征与类别间的相关程度,用于特征选择(如选择与情感类别互信息高的词)、关键词提取(识别与主题高度相关的词)
三、深度学习在NLP中的应用题
1.CNN用于文本分类、命名实体识别等;优势并行计算效率高,擅长捕捉局部语义;结构词向量矩阵→卷积层(多大小卷积核)→池化层→全连接层→输出
2.RNN通过循环连接处理序列数据,结构为输入层→隐藏层(带循环)→输出层;长序列问题梯度消失/爆炸(难以捕捉长期依赖)
3.LSTM通过遗忘门(丢弃无关信息)、输入门(保留关键信息)、输出门(控制信息输出)解决梯度问题;门控单元动态调整信息流动
4.GRU简化LSTM,用更新门和重置门替代遗忘门/输入门;结构更简单,训练速度快,在多数场景性能接近LSTM第14页共20页
5.Transformer用自注意力机制替代RNN的时序依赖,并行计算能力强;自注意力机制通过计算序列内各位置的权重,捕捉全局依赖
6.多头注意力将注意力机制并行化,学习不同子空间的注意力模式;提升模型对不同类型依赖关系的捕捉能力,如语法和语义依赖
7.位置编码用于解决Transformer缺乏时序信息的问题;方法正弦/余弦函数编码、学习式位置编码
8.双向LSTM用于文本分类、序列标注;通过前向+后向隐藏状态拼接,综合前后上下文信息,提升特征表达能力
9.卷积核大小根据任务选择(如文本分类常用3-5);小核捕捉局部特征(如n-gram语义),大核捕捉长距离依赖(如主题相关词)
10.门控机制通过控制信息流动(保留/丢弃),动态调整网络状态;核心功能学习关键信息、抑制冗余信息、缓解梯度问题
11.Transformer Decoder包含自注意力层、编码器-解码器注意力层、前馈网络;解码器利用编码器输出和历史生成序列,通过自注意力聚焦当前生成位置的上下文
12.CNN优点是并行高效、捕捉局部特征;缺点是忽略长依赖;适用于短文本分类;RNN优点是处理长序列,缺点是并行差、易梯度问题;适用于时序依赖强的任务;Transformer优点是并行强、捕捉全局依赖,缺点是计算量大;适用于长文本、复杂语义任务
13.遗忘门控制历史信息的丢弃比例,输入门控制新信息的添加比例,输出门控制信息输出;三者动态调整,使LSTM能学习长期依赖关系
14.Dropout随机丢弃部分神经元,防止过拟合;通常在全连接层或嵌入层应用;通过降低神经元共适应,提升模型泛化能力第15页共20页
15.残差连接通过“输入+输出”方式跳过一层,解决深层网络梯度消失问题;实现y=x+fx,fx为残差块;好处加速训练收敛、允许网络更深
四、预训练模型与微调题
1.预训练模型框架大规模无标注文本预训练→特定任务微调;核心思想学习通用语言知识,减少任务适配成本;原因通过海量数据学习语法、语义、世界知识,显著提升下游任务性能
2.BERT双向Transformer编码器+MLM/NSP任务,学习双向上下文表示;GPT单向Transformer解码器,专注序列生成;区别BERT双向理解,GPT单向生成,BERT微调需针对任务设计输入格式,GPT适合生成任务
3.核心任务MLM(掩盖输入token并预测)、NSP(判断两句子是否连续);作用MLM学习词汇间双向依赖,NSP学习句子间逻辑关系,提升模型语义理解能力
4.MLM解决单词语义依赖,NSP解决句子间逻辑关系;两者结合使BERT能理解局部和全局语义,生成更全面的上下文表示
5.微调作用将预训练通用知识适配到特定任务;注意问题参数更新策略(部分层冻结)、学习率选择(小学习率)、数据量(需足够标注数据)
6.GPT核心特点单向Transformer解码器、生成式预训练;与BERT区别模型结构(单向vs双向)、任务(生成vs理解)、应用(生成任务如文本续写,BERT适合理解任务如分类)
7.T5“Text-to-Text”范式将所有NLP任务统一为“文本→文本”生成问题;创新统一架构(仅用Encoder-Decoder),预训练任务为“文本摘要”“翻译”等,微调时只需调整输入输出格式第16页共20页
8.冻结预训练层适用于标注数据少的场景,节省计算资源;微调所有层适用于标注数据多的场景,充分适配任务数据;选择数据量少→冻结(如GPT微调仅调解码器),数据量大→全调
9.提示工程通过设计人工提示模板引导模型完成任务;作用将零样本/少样本学习转化为标准输入输出;例情感分析提示“这句话的情感是[句子]”,引导模型输出“积极/消极”
10.灾难性遗忘是旧任务知识被新任务覆盖;缓解方法参数隔离(如Prefix Tuning)、知识蒸馏(保留旧任务知识)、弹性权重巩固(EWC)
11.掩盖15%token是为模拟真实场景的OOV;未掩盖token不参与训练,避免预训练时“记住”原词,确保模型关注被掩盖位置的上下文
12.上下文相关表示随输入变化,能表示一词多义;静态词向量固定,无法适应上下文(如“苹果”在不同句子中向量相同)
13.知识蒸馏将大模型知识迁移到小模型;方法用大模型输出作为小模型标签,训练小模型;作用压缩模型大小,提升推理速度
14.不一定;当数据量和模型容量不匹配时(如小模型配大数据),性能可能下降;平衡根据任务复杂度选择模型规模,结合数据增强提升小模型性能
15.prompt-based微调通过设计提示模板实现微调,无需修改模型参数;优势适应不同任务时无需重新训练模型,对标注数据依赖低(零样本/少样本)
五、NLP关键任务实现题第17页共20页
1.特征表示方法词袋模型、TF-IDF、词嵌入;BoW优点简单,缺点忽略词序和语义;TF-IDF优点突出重要词,缺点仍忽略词序
2.NER任务是识别文本中的实体并分类;实体类型人名(李白)、地名(北京)、组织名(百度);应用信息抽取(从文档中提取关键信息)、问答系统(回答“谁/哪里/什么”问题)
3.句法分析目标是解析句子的语法结构;依存句法分析识别词间依赖关系(如主谓、定中);短语结构分析识别短语成分(如NP、VP)
4.MT主要挑战语言差异、歧义消解、文化背景;统计机器翻译(SMT)核心基于语料统计的概率模型;神经机器翻译(NMT)核心Seq2Seq模型+注意力机制
5.QA分类抽取式(从文档提取答案)、生成式(生成新答案);抽取式流程文档检索→段落匹配→答案抽取;核心组件词嵌入层、BiLSTM/Transformer编码器、注意力层、输出层
6.类别不平衡解决方法过采样(增加少数类样本)、欠采样(减少多数类样本)、集成方法(如SMOTE算法生成合成样本)、代价敏感学习(为少数类样本设置更高权重)
7.BIO标注法B(Begin)表示实体起始词,I(Inside)表示实体中间词,O(Outside)表示非实体词;例“北京”标注为B-地名I-地名,“我爱北京”中“北京”为B-地名I-地名,其他为O
8.注意力机制通过计算目标词与源语言序列各词的权重,将关键信息聚焦到目标词;例翻译“我爱中国”时,目标词“中国”的注意力权重主要分配给源语言的“中国”第18页共20页
9.实体链接是将文本中的实体指称(如“苹果”)链接到知识图谱中的实体(如“苹果公司”);作用消除歧义、增强问答系统的知识关联能力
10.文本摘要是生成文本核心内容的简短版本;抽取式从原文提取关键句;生成式用新句子表达核心内容;应用新闻摘要、长文档总结
11.极性分类预测情感倾向(积极/消极),情感强度分析预测情感程度(如“非常开心”);方法基于词典(如情感词典匹配)、基于机器学习(SVM+TF-IDF)
12.歧义结构因语法结构或语义关系不唯一产生;解决方法基于规则的句法分析、统计模型(如CRF)、上下文敏感特征
13.Seq2Seq模型由编码器(输入序列→上下文向量)和解码器(上下文向量→输出序列)组成;长序列问题解决注意力机制、beamsearch、梯度裁剪
14.外部知识利用方法知识图谱嵌入(如将实体映射到向量)、提示工程引入知识(如“根据知识[知识],回答[问题]”)、融合知识的模型架构(如BERT+知识图谱注意力层)
15.词嵌入是单个词的向量,句子嵌入是句子的向量,文档嵌入是文档的向量;区别粒度不同(词→句子→文档),表示能力不同(文档嵌入需考虑篇章结构)
六、工程实践与优化题
1.数据预处理关键步骤文本清洗(去除特殊符号、统一大小写)→分词(中文)/分句(英文)→去停用词(如“的”“是”)→词性标注/命名实体识别(可选);目的减少噪声、统一格式、提取关键信息第19页共20页
2.早停法作用防止过拟合,选择泛化能力最佳的模型;实现监控验证集性能,性能下降时停止训练;局限性可能错过最优模型(如验证集波动)、需额外验证集
3.学习率调度通过动态调整学习率提升收敛;策略StepLR(固定步数衰减学习率)、CosineAnnealingLR(余弦曲线衰减)
4.过拟合原因模型太复杂、数据少/噪声多;欠拟合原因模型太简单、数据不足;缓解过拟合正则化(Dropout/L2)、早停、数据增强;缓解欠拟合增加模型复杂度、增加数据量
5.交叉熵损失适用于分类任务(如文本分类);MSE适用于回归任务(如情感强度预测)
6.梯度裁剪作用限制梯度范数,防止梯度爆炸;原理计算梯度范数,若超过阈值则缩放梯度至阈值;通过梯度缩放,保持参数更新方向正确,避免爆炸
7.模型量化目的降低模型大小和计算量,加速推理;方法将浮点参数转为低精度(如INT8);模型剪枝目的去除冗余参数,简化模型;方法移除低权重参数、结构化剪枝
8.噪声影响降低模型泛化能力、引入错误特征;数据清洗方法拼写检查(如用EditDistance)、重复文本检测(哈希去重)、无意义字符过滤(正则表达式)
9.数据增强第20页共20页。
个人认证
优秀文档
获得点赞 0