还剩91页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
自然语言技术N1考试复习题库(浓缩300题)
一、单选题
1.Relu和Tanh相比有什么不同的地方A、输出的值域不同B、Relu可以做非线性变换而Tanh不可以C、Relu是激活函数但是Tanh不是激活函数D、都不可以做线性变换答案A
2.以下四个选项中,关于随机森林和GBDT说法正确的是A、都是由多棵树组成,最终的结果都是由多棵树一起决定B、RF和GBDT在使用CART树时,只能做回归不能做分类C、RF和GBDT在使用CART树时,只能做分类不能做回归D、不确定答案A
3.通过getTreeDepth可以获取决策树中的什么A、获取决策树叶子节点的个数B、获取决策树的层数C、绘制节点D、标注有向边属性答案B
4.下列几个选项中关于GBDT,说法错误的是B、Boost ingC、Stack ingD、以上都正确答案C
33.怎么去理解模型当中的过拟合现象A、指的就是样本该学习到的特征没有学习到,导致了曲线拟合数据的时候,效果不好B、指的肯定就是说,这条曲线,过分的去描述现有的数据特征了C、指得就是说这个曲线能不能去很好的描述现有的数据D、欠拟合指的就是在训练和测试数据上的表现都不好答案B
34.KNearestNeighbors属于以下哪个算法的全称A、线性回归B、逻辑回归C、KNND、K-means答案C
35.以下几个关于EM算法的说法,正确的是A、传统EM算法对初始值不敏感B、EM算法不能应用到HMM的求解中C、不确定D、传统EM算法对初始值敏感答案D
36.以下四个选项中代表的随机森林缩写的是哪个A、RFB、GBDTC%XGBoostD、LightGBM答案A
37.为什么会提出LightGBM,最主要是什么原因、并无实际的意义AB、为了解决GBDT的并行问题C、为了改进XGBoostD、为了解决GBDT在大数据上遇到的问题答案D
38.RandomForest说的是以下哪个选项A、随机森林B、决策树C、聚类D、逻辑回归答案A
39.高斯混合模型与K均值算法的相同点有哪些A、都是可用于分类的算法B、都是可用于聚类的算法C都是可用于回归的算法D、都是可用于降维的算法答案B
40.什么时候可以选取KNN算法A、当需要使用分类算法,且数据比较大的时候就可以尝试使用KNN算法进行分类了B、当需要使用聚类算法,且数据比较大的时候就可以尝试使用KNN算法进行分类了C、当需要使用降维算法,且数据比较大的时候就可以尝试使用KNN算法进行分类了D、不能确定答案A
41.GBDT属于集成学习,因此它拥有哪些优点A、采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性,能够自动发现特征间的高阶关系B、GBDT在高维稀疏的数据集上,表现不如支持向量机或者神经网络C、GBDT在处理文本分类特征问题上,相对其他模型的优势不如它在处理数值特征时明显D、训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度答案A
42.精确率是怎么计算的A、真正正确的占所有预测为正的比例B、真正正确的占所有实际为正的比例C、错误的的占所有预测为正的比例D、错误的的占所有实际为正的比例答案:A
43.KNN算法的肘部法则中,在k=10处是个拐点,那么k的最佳值应该是多少、3AB、10C、20D、30答案:B
44.在贝叶斯统计中,如果后验分布与先验分布属于同类,则被称为什么A、二项分布B、多项分布C、共聊分布D、Bete分布答案C
45.如果测试数据中有N(非常大)的观测值,则1-NN将花费多少时间?、N*DAB、N*D*2C、(N*D)/2D、这些都不是答案A
46.SVM算法的最小时间复杂度是0M,基于此,以下哪种规格的数据集并不适该算法?、大数据集AB、小数据集C、中等数据集D、不受数据集大小影响答案A
47.哪种数据类型数据类型可以看作关系型数据库的一张表、半结构化数据AB、非结构化数据C、结构化数据D、不确定答案C
48.为模型加上正则项,可以很好的防止什么?、过拟合AB、欠拟合C、完美拟合D、不确定答案A
49.如何理解想“回归”A、通过数据使预测回归到真实值上B、通过数据做分类C、通过数据做缩小维度D、通过数据使相似的数据聚到一块答案A
50.LDA属于一个什么模型、语言模型AB、词袋子模型C、预训练模型D、不确定答案:B
51.Sigmoid激活函数求导之后,最大值为多少、1AB、
0.5C、
0.25D、
0.3答案C
52.XGBoost和GBDT都是运用了什么思想A、Boost ingB、BaggingC\StackingD、以上都正确
53.GBDT Gradi entBoost i ngDeci si onTree使用到的是什么思想A、未剪枝的决策树B、随机森林C、不加正则的线性回归D、不加正则的逻辑回归答案B
54.Tanh激活函数活跃在各大算法当中,当Tanh求导了之后,它的取值范围是多少、[-1,1]AB、[0,2]C、[0,1]D、0或1答案A
55.在k-NN中,增加/减少k值会发生什么?、K值越大,边界越光滑AB、随着K值的减小,边界变得更平滑C、边界的光滑性与K值无关D、这些都不是答案A
56.sigmoid输出的值域可以代表什么、概率AB、代价C\学习率D、权重w答案A
57.加入正则项,可以解决处理以下哪个问题、正常拟合AB、过拟合C、欠拟合D、不确定答案B
58.以下四个描述中,哪个选项正确的描述了XGBoost的基本核心思想A、训练出来一个一次函数图像去描述数据B、训练出来一个二次函数图像去描述数据C、不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数fx,去拟合上次预测的残差D、不确定答案C
59.GBDT使用的是什么思想A、BaggingB、Boost ingc、逻辑回归D、线性回归
60.SVM中,若C趋于无穷,以下哪种说法正确?A、数据仍可正确分类B、数据无法正确分类C、不确定D、以上都不对答案A
61.ID3,C
4.5,他们有什么,相同的地方?A、将信息增益比作为了选择特征的标准B、将信息增益作为了选择特征的标准C、将基尼系数作为了选择特征的标准D、都属于决策树算法答案D
62.在编写模型或者训练模型的时候,如果模型过于复杂的话,会出现什么情况、正常拟合AB、过拟合C、欠拟合D、不确定答案B
63.LDA模型可以做什么事情A、将文档集中每篇文档的主题以概率分布的形式给出,从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行主题聚类或文本分类B、可以找出来最优的分类超平面C、可以找到因变量和自变量之间的一次关系D、不确定答案A
64.以下哪个操作可以停止树的循环、加入L2正则AB、加入L1正则C、设置树的最大深度D、以上都可以答案:C
65.基于直方图的稀疏特征优化多线程优化是以下哪个框架做的优化A、LightGBMB、XGBoostC、随机森林D、GBDT答案A
66.从工程的角度出发去看,随机森林有什么优点A、随机森林的每棵树训练是相互独立的,可以串行生成,调高训练的效率B、随机森林的每棵树训练是相互独立的,可以并行生成,调高训练的效率C、随机森林的每棵树训练是相互独立的,可以并行生成,降低训练的效率D、不确定A、GBDT是深度学习算法B、传统的GBDT采用CART作为基分类器C、传统的GBDT在每轮迭代时使用全部的数据D、没有对确实值进行处理答案A
5.零均值归一化会将原始数据的标准差映射为多少?A、0B、1C、2D、3答案B
6.小概率事件怎么理解?以下选项当中描述正确的是?A、发生可能性不大的事件B、发生可能性大的事件C、发生可能性不去确定的事件D、以上都正确答案A
7.串行地训练一系列前后依赖的同类模型,即后一个模型用来对前一个模型的输出结果进行纠正属于什么思想A、BaggingB、Boost ingC、Stack ing
67.1-NN,2-NN,3-NN所花费的时间之间是什么关系A、1-NN2-NN3-NNB、1-NN2-NN3-NNC、1-NN~2-NN~3-NND、这些都不是答案C
68.以下四个选项中哪个是激活函数A、L1B、Re IuC、L2D、MSE答案B
69.马尔科夫可以用一个什么图去进行表示A、无向图B、有无向图C、有向图D、不确定答案A
70.主成分分析法的简写是哪个Ax PCAB、LDAD、K-Means答案A
71.如果适当的增加了模型的复杂度会达到什么效果、防止过拟合AB、防止欠拟合C、防止完美拟合D、不确定答案B
72.以下哪些算法是聚类算法A、ID3B、C
4.5C、K-MeansD、SVM答案C
73.在同质集成(系统中个体学习器的类型相同)中,个体学习器又被称为、基学习器AB、组建学习C、不能判断D、以上都正确答案A
74.朴素贝叶斯分类是基于假设、条件独立AB、条件不独立C、联合概率D、不确定答案A
75.LDA中的五个分布其中的二项分布,是一个什么分布A、离散的随机分布B、连续的随机分布C、连续的分布D、不确定答案:A
76.KNN算法的分类原理是什么A、利用自变量和因变量之间的一次函数关系B、需要分类的样本选择特征空间上和自己最邻近的K个样本_xOOO1_把已经分类或需要分类的样本在定义的特征空间上表征需要分类的样本的类别就是这K个样本中最多的那个类别C、利用自变量和因变量之间的对数关系D、找出最好的分类超平面答案B
77.文本,图像,视频,音频这样的数据数据属于哪种类型的数据、结构化数据AB、半结构化数据C、非结构化数据D、不确定答案C
78.Bagging中的采样方法是什么样的A、有放回的随机抽样B、无放回的随机抽样C、有放回的顺序抽样D、无放回的顺序抽样答案A
79.sigmoid激活函数来说,它输出值的范围是_、[0,1]AB、[0,2]C、[0,3]D、[-1,1]答案A
80.K-Means中的K应该如何去选择、贪心法则AB、马尔科夫C、肘部法则D、概率图答案C
81.激活函数有广泛的应用,下列选项中,对于激活函数存在意义的理解,正确的是A、进行非线性变换,增强表达能力B、进行线性变换,增强表达能力C、进行线性变换,减少表达能力D、进行非线性变换,减少表达能力答案:A
82.带有深度限制的按叶子生长leaf-wise算法,主要做了什么事情A、增加了一个最大深度的限制,在保证高效率的同时防止过拟合B、先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图C、不确定D、以上都正确答案A
83.以下哪种情况下树会容易发生了过拟合的现象A、加入L2正则B、加入L1正则C、设置树的最大深度D、没有设置树的最大深度答案D
84.关于k-NN算法的应用,以下说法正确的是?、可用于分类AB、可用于回归C、可用于分类和回归D、聚类答案c
85.以下四个算法当中,哪个算法和逻辑回归一样都可以做分类A、线性回归B、岭回归C、K-meansD、SVM答案D
86.以下四个选项当中,关于带有深度限制的按叶子生长leaf-wise算法,主要做了什么事情,描述正确的是?A、增加了一个最大深度的限制,在保证高效率的同时防止过拟合B、先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图C、不确定D、以上都正确答案A
87.以下四个说法中,哪个是GBDT的优点A、在分布稠密的数据集上,泛化能力和表达能力都很好;B、GBDT在高维稀疏的数据集上表现不佳;C、训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度D、不确定答案A
88.sigmoid作为常见的激活函数,有着非线性变化的作用,它的曲线是什么样的、直线AB、A型曲线C、C型曲线D、S型曲线答案D
89.并行地训练一系列各自独立的不同类模型,然后通过训练一个元模型meta-model来将各个模型输出结果进行结合,是什么思想A、BaggingB、Boost ingCx StackingD、以上都正确答案c
90.当EM在做完计算期望之后,下一步应该做什么事情?A、最大化B、求代价C、计算期望D、不确定答案A
91.下列哪个不是体现出的随机森林的随机性、样本的随机性Bagging:在Bagging时,随机选择样本AB、特征的随机性RandomsubspaceC\随机特征组合RandombinationD、随机代价函数答案D
92.信息病又叫什么?、信息增益AB、信息增益比C、基尼系数D、香农嫡答案:D
93.关于Re Iu激活函数说法正确的是、经过Reiu变换之后的取值在[0,1]之间AB、正半区是本身,负半区全为0C、经过Reiu变换之后的取值在[7,1]之间D、经过Re lu变换之后的取值在[-8,+8]之间答案B
94.以下四个选项当中,哪个不属于抽象模型的是OA、概率统计模型B、比例模型C、符号模型D、流程图答案B
95.Re Iu在负半区求导之后值为多少、0AB、1C、2D、-1答案A
96.虽然随机森林和GBDT都属于集成学习,他们有什么不同之处A、都是由多棵树组成,最终的结果都是由多棵树一起决定B、组成随机森林的树可以并行生成,而GBDT是串行生成C、RF和GBDT在使用CART树时,可以是分类树或者回归树D、不确定答案B
97.如果对数据进行了归一化的处理,可以达到什么样的效果A、将所有的特征都统一到一个大致相同的数值区间内B、并无实际的意义C、不确定D、可以对数据进行等比例的扩大答案A
98.下列算法中,训练数据集是无label的数据,是杂乱无章的,经过变换后变得有序,先无序,后有序是哪个算算法、SVMAB、逻辑回归C、线性回归D、聚类答案:D
99.在下列四个选项中,正确的找出激活函数A、L1B、Re IuC、L2D、MSE答案:B
100.训练了一个线性SVM,这个模型出现了欠拟合现象应该采取下列什么措施?、增加数据点AB、减少数据点C、增加特征D、减少特征答案C
101.贝叶斯判别规则是什么A、就是判断自变量和因变量之间的关系B、把特征向量X落入某类集群wi的条件概率平P wi/X当成分类判别函数,把X落入某集群的条件概率最大的类为X的分类这种判别规则叫贝叶斯判别规则C、不确定D、就是通过选择最优的超平面去进行最好的分类超平面D\以上都正确答案B
8.以下几个算法中哪个不容易陷入过拟合、未剪枝的决策树AB、随机森林C、不加正则的线性回归D、不加正则的逻辑回归答案B
9.口8968凶是实现68口1算法的很好的框架,在下列四个选项中,哪个对于LightGBM的优势描述是正确的A、更慢的训练速度B、更低的内存消耗C、更差的准确率D、不支持分布式答案B
10.高维组合特征的处理,具体是怎么做的A、在特征工程中经常会把一阶离散特征两两组合B、在特征工程中经常会把一阶离散特征打散C、删除一部分离散特征D、不确定答案A
11.XGBoost中对树上叶子节点的得分w的L2模平方,有什么目的答案B
102.当我们选择K-NN中的K时,可以通过下边哪种方式去选择?、肘部法则AB、代价函数C、不确定D、以上都可以答案A
103.独热编码可以完成什么事情A、对数据进行向量化B、对数据进行特征缩放C、对特征进行归一化处理D、消除数据特征之间的量纲影响答案A
104.EM算法在高斯混合模型中的应用中的E步骤主要做了什么事情A、确定Q函数B、明确隐变量,写出完全数据的对数似然函数C、求Q函数对theta的极大值,即求新一轮迭代的模型参数D、不确定答案A
105.下列关于GBDT的说法正确的是哪个A、GBDT是机器学习的算法B、GBDT是深度学习的算法C GBDT属于特征工程部分D、以上都正确答案A
106.每个算法都会有缺点,对于集成学习GBDT的缺点是什么A、预测阶段的计算速度快,树与树之间可并行化计算B、GBDT在高维稀疏的数据集上,表现不如支持向量机或者神经网络C、在分布稠密的数据集上,泛化能力和表达能力都很好,这使得GBDT在Kaggl e的众多竞赛中,经常名列榜首D、采用决策树作为弱分类器使得GBDT模型具有较好的解释性和鲁棒性,能够自动发现特征间的高阶关系答案B
107.K-Means最终得到的结果是什么A、将已经分类好的数据,重新进行划分类别B、未标记的数据聚类成不同的组C、不确定D、将已经标记好的数据打散成无类别形式答案B
108.决策树有可能会造成什么缺点A、可能会对缺失值很敏感B、无法处理不相关的数据C、可能产生过渡匹配问题D、计算的复杂度很高答案C
109.关于贝叶斯判别规则,下列选项中描述正确的是?A、就是判断自变量和因变量之间的关系B、把特征向量X落入某类集群wi的条件概率平P wi/X当成分类判别函数,把X落入某集群的条件概率最大的类为X的分类这种判别规则叫贝叶斯判别规则C、不确定D、就是通过选择最优的超平面去进行最好的分类超平面答案B
110.什么是特征工程,如何去理解特征工程A、特征工程就是对原始的数据做一系列的处理B、特征工程就是使用各种算法实现结果C、特征工程就是聚类和降维D、特征工程就是回归和分类答案A
111.SVM算法的性能取决于A、核函数的选择B、核函数的参数C、软间隔参数CD、以上所有答案D
112.SVM其中有个参数C,这个参数代表的是什么意思?、交叉验证的次数AB、用到的核函数C、在分类准确性和模型复杂度之间的权衡D、以上都不对答案C
113.K-Means中K代表的是什么意思A、学习率B、聚类中心C、代价D、不确定答案:B
114.NLP中常处理的文本,属于什么样的数据、结构化数据AB、非结构化数据C、半结构化数据D、以上都是答案B
115.特征的归一化属于以下哪个选项中A、特征工程B、分类C、回归D、聚类
116.以下四个选项中哪个属于决策树A、SVMB、K-MeansC、PCAD、C
4.5答案D
117.逻辑回归是如何做分类的,为什么可以做分类A、因为使用了丫=W*X+b的函数表达式B、因为逻辑回归引入了激活函数做了非线性的变换C、因为逻辑回归使用了误差平方和作为目标函数D、因为逻辑处理的都是连续性数据答案B
118.以下关于梯度下降优化算法的描述,错误的是A、靠近极值点收敛速度慢B、直线搜索时可能会产生问题C、可能会“之字形”地下降D、越靠近极值点收敛速度快答案D
119.以下选项中关于LDA的优点描述说法正确的是A、LDA适合对非高斯分布样本进行降维;B、可以使用类别的先验知识;Cx LDA降维最多降到分类数k-1维;D、LDA可能过度拟合数据答案B
120.GBDT Gradi entBoost i ngDeci si onTree的全名叫什么A、随机森林B、梯度提升决策树C、聚类D、逻辑回归答案B
121.关于损失函数的意义说法正确的是A、损失函数越小,模型鲁棒性越好B、损失函数越小,模型鲁棒性越差C、损失函数越大,模型鲁棒性越好D、不确定答案A
122.C
4.5相比较于ID3算法,在哪个地方得进行了改变A、将信息增益比作为了选择特征的标准B、将信息增益作为了选择特征的标准C、将基尼系数作为了选择特征的标准D、将信息烯作为了选择特征的标准答案:A
123.如果使用了Tanh作为激活函数你,那么经过此非线性变换后值的范围为_A、[-1,1]B\[0,2]C、[0,1]D、0或1答案A
124.若参数C costparameter被设为无穷,下面哪种说法是正确的?A、只要最佳分类超平面存在,它就能将所有数据全部正确分类B、软间隔SVM分类器将正确分类数据C、二者都不对D、不确定答案:A
125.平方损失函数一般用在以下哪个算法中A、逻辑回顾B、线性回归C、SVMD、聚类答案B
126.LDA的实质是在做一个什么东西A、根据给定的一篇文档,反推其主题B、可以找出来最优的分类超平面C、可以找到因变量和自变量之间的一次关系D、不确定
127.朴素贝叶斯作为常用的方法,它是以为基础的分类方法A、概率论B、线性代数C、微积分D、都不是答案A
128.以下四个任务中,逻辑回归可以做哪个、数据降维AB、垃圾邮件分类C、电影票房预测D、房价预测答案B
129.sigmoid缺点之一就是非线性变化较慢,可以通过以下哪个激活函数进行改善A、S igmo idB、TanhC\Re IuD、不确定答案c
130.Hi stogram算法的思想是什么A、寻找最优分割面B、寻找因变量和自变量之间的关系C、先把连续的浮点特征值离散化成k个整数,同时构造一个宽度为k的直方图D、不确定答案C
131.MSE代表什么意思、信息炳AB、均方误差C、交叉熠D、信息增益答案B
132.直方图算法中的K可以认为是什么A、代价B、常数C^学习率D、不确定答案B
133.以下四种说法当中,关于GBDT的描述说法正确的有哪些A、GBDT是并行生成B、GBDT则是多棵树累加之和C、GBDT对异常值比较敏感D、GBDT是减少模型的偏差答案A
134.如果训练完成的模型存在过拟合现象会造成什么影响A、在训练集上的效果很好,但是在测试集上的效果很差B、在训练集上的效果差,在测试集上的效果也差C、在训练集上的效果很好,在测试集上的效果也很好D、在训练集上的效果很差,但是在测试集上的效果很好答案:A
135.线性判别分析LDA的思想是什么A、投影后类内方差最大B、类间方差最小C、投影后类内方差最小D、不确定答案C
136.下列关于K均值说法,正确的是?A、K均值接收未标记的数据集,然后将数据聚类成不同的组B、通过生成树的形式对,数据集进行分类C、通过自变量和因变量之间的一次函数关系,构建回归模型D、构建一个超平面,将数据在更高维度上,使用超平面更好的划分答案A
137.随机森林和GBDT有很多相似的地方,以下几个选项中描述它们相同点正确的是哪个?、组成随机森林的树可以并行生成,而GBDT是串行生成AB、随机森林的结果是多数表决表决的,而GBDT则是多棵树累加之和C、都是由多棵树组成,最终的结果都是由多棵树一起决定A、为了避免过拟合B、为了避免欠拟合C、为了增加叶子节点个数D、不确定答案A
12.以下哪些算法是分类算法Ax DBSCANB、C
4.5C K-MeanxD、EM答案B
13.先把连续的浮点特征值离散化成k个整数,构造一个宽度为k的直方图是以下哪个算法的优化、直方图算法算法AB、带深度限制的Leaf-wise的叶子生长策略C、不确定D、直接支持类别特征答案A
14.RNN中常用到Tanh激活函数,它在求导之后的取值范围是多少A、0,1B、-1,1C、(0,
0.5)D\RF和GBDT在使用CART树时,只能是分类树答案C
138.XGBoost虽然也是个算法,但是这个算法的本质其实是很么算法、随机森林AB、GBDTC、线性回归D、逻辑回归答案B
139.sigmoid作为常用的激活函数,它的曲线是什么样子的?、直线AB、A型曲线C、C型曲线D、S型曲线答案D
140.以下哪种情况会导致SVM算法性能下降?A、数据线性可分B、数据干净、格式整齐C、数据有噪声,有重复值D、不确定答案C多选题
1.如何去构建一颗决策树、构建根节点AB、构建叶子节点C、选择新特征继续分割D、最终子集都被分到叶子节点上答案ABCD
2.可以通过以下哪些方式划分数据集、信息增益AB、信息增益比C、代价函数D、极大似然答案AB
3.以下四个选项中,经典的概率模型有哪些?A、不确定B、古典概型C、几何概型D、以上都正确答案BC
4.在下列四个选项中,关于GBDT算法描述正确的选项有哪些?A、预测阶段的计算速度快,树与树之间可并行化计算(注意预测时可并行)B、在分布稠密的数据集上,泛化能力和表达能力都很好;C、GBDT在高维稀疏的数据集上表现不佳;D、训练过程需要串行训练,只能在决策树内部采用一些局部并行的手段提高训练速度答案ABCD
5.网络结构分别都有哪些形式,以下选项中正确是?A、星形结构具有一个中心结点,所有通讯都通过它B、环形结构网络结点连成一个封闭的环形C、总线结构具有一个共享总线,所有结点挂在上面,又称树形结构D、以上都正确答案ABCD
6.随机森林中的“随机”体现在什么方面A、随机森林的随机性体现在每棵树的训练样本都是随机的B、模型的代价是随机的C、树中每个节点的分裂属性集合也是随机选择确定的D、以上都正确答案AC
7.LightGBM为了更好的实现落地GBDT算法,在以下哪些方向上做了优化?、带深度限制的Leaf-wise的叶子生长策略AB、直方图做差加速直接C、支持类别特征Categor ical FeatureD\以上不都是答案ABC
8.逻辑回归在工业中可以有哪些应用、各种分类场景AB、某搜索引擎厂的广告CTR预估基线版是LRC、某电商搜索排序/广告CTR预估基线版是LRD、某电商的购物搭配推荐用了大量LR答案:ABCD
9.SVM在工业中有广泛的应用,以下说法正确的是A、文本分类B、图片分类C、新闻聚类D、以上都对答案ABCD
10.为什么SVM对缺失某些特征数据敏感?A、VM没有处理缺失值的策略(决策树有)B、特征空间的好坏对SVM的性能很重要C、SVM希望样本在特征空间中线性可分D、以上都正确答案ABCD
11.GBDT算法中如果按照高维的ID特征做分裂,会出现哪些不好的情况A、子树数量非常多B、计算量会非常大C、训练会非常慢D、以上都正确答案ABCD
12.以下几个选项中关于逻辑回归优化方法的描述,正确的是?、梯度下降AB、随机梯度下降C、mini随机梯度下降D、以上都正确答案ABCD
13.以下关于L ightGBM对XGBoost的优化说法正确的是As基于Histogram的决策树算法B、带深度限制的Leaf-wise的叶子生长策略C、直方图做差加速直接D、支持类别特征Categor ica IFeature答案ABCD
14.下列选项中SVM可以调节的参数是?Ax CB、kerne IC、degreeD、gamma答案ABCD
15.在训练模型的阶段,如果说发生了过拟合现象,以下四个选项中,可以通过哪些方式解决A、增加数据量B、减少数据量C、增加迭代次数D、减少迭代次数答案AD
16.在k-NN中可以使用以下哪个距离度量?A、ManhattanB、M inkowsk iC、TanimotoDv Jaccard答案:ABCD
17.预处理单个特征的时候,通常有哪些操作、归一化AB、离散化C、缺失值处理D、数据变换答案:ABCD
18.决策树有什么特点,以及优点A、计算复杂度低B、输出结果易于理解C、对中间缺失值不过敏D、可以处理不相关的特征
19.概率图模型中的边可以分为哪几种、有向边AB、不确定C、无向边D、以上都正确答案AB
20.EM算法在高斯混合模型中的应用包含哪些步骤A、明确隐变量,写出完全数据的对数似然函数B、EM算法的E步确定Q函数C、求Q函数对theta的极大值,即求新一轮迭代的模型参数D、以上都正确答案:ABCD
21.机器学习中的检验方法有很多种,以下常用的检验方法有哪些A\KS检验B\T检验C、F检验D、卡方检睑答案ABCD
22.在Histogram算法之上,LightGBM还做了哪些优化A、带深度限制的Leaf-wise的叶子生长策B、直方图做差加速直接C、支持类别特征Categori calFeatureD、不确定答案ABC
23.Bagging的操作主要分为哪些阶段、Aggregating阶段,将上一个阶段训练得到的n个基模型组合起来,共同做决A策在分类任务中,可采用投票法,比如相对多数投票法,将结果预测为得票最多的类别而在回归任务中可采用平均法,即将每个基模型预测得到的结果进行简单平均或加权平均来获得最终的预测结果B、Boostrap阶段,即采用有放回的采样方式,将训练集分为n个子样本集;并用基学习器对每组样本分布进行训练,得到n个基模型C、分别采用全部的训练样本来训练n个组件模型,要求这些个体学习器必须异构的,比如可以分别是线性学习器,SVM,决策树模型和深度学习模型D、训练一个元模型meta-model来将各个组件模型的输出结果进行结合,具体过程就是将各个学习器在训练集上得到的预测结果作为训练特征和训练集的真实结果组成新的训练集;然后用这个新组成的训练集来训练一个元模型这个元模型可以是线性模型或者树模型答案:AB
24.以下四个算法中,有哪些算法是属于决策树算法的、SVMAB、ID3C、C
4.5D、CART
25.LDA中有四个分布分别是哪四个分布、二项分布AB\多项分布C、beta分布D、Dirichlet分布答案ABCD
26.以下四个关于EM算法的描述,正确的是、对初始值敏感AB、对初始值敏感C、不同的初值可能得到不同的参数估计值D、不能保证找到全局最优值答案ABCD
27.在k-NN中,由于维数的存在,很可能过度拟合你将考虑使用以下哪个选项来解决此问题?、降维AB、特征选择C、不确定D、以上都正确答案AB
28.LDA中的两个模型指的是哪两个A、pLSAB、GBDTC、LDAD、XGBoost答案AC
29.以下是针对k-NN算法给出的两条陈述,其中哪一条是真的?A、我们可以借助交叉验证来选择k的最优值B、不能判断C、欧氏距离对每个特征一视同仁D、以上都正确答案AC
30.在代价函数上加入一个正则项,我们可以使用以下哪种A、L1B、L2C、余弦公式D、正弦公式答案AB
31.K-NN和K-Means很相像,他们有什么具体的区别A、K-Means是聚类算法,KNN是分类算法B、KNN需要标记点,因此是有监督的学习,而k-means不是,因此是无监督学习C、K均值聚类仅需要一组未标记的点和阈值D、以上都正确D\0或1答案A
15.纵观决策树有哪些优点A、易于理解和解释,决策树可以可视化B、决策树学习可能创建一个过于复杂的树,并不能很好的预测数据也就是过拟合C、决策树可能是不稳定的,因为即使非常小的变异,可能会产生一颗完全不同的树D、如果某些分类占优势,决策树将会创建一棵有偏差的树答案:A
16.对于k-NN分类器,以下哪个陈述是正确的?、k值越大,分类精度越好AB、k值越小,决策边界越光滑C、决策边界是线性的D、k-NN不需要显式的训练步骤答案D
17.XGBoost是对某个算法的改进,是以下四个选项中的哪个算法、GBDTAB、随机森林C、线性回归D、逻辑回归答案A
32.为什么SVM要引入核函数?A、将样本从原始空间映射到一个更低维的特征空间B、将样本从原始空间映射到一个更高维的特征空间C、使得样本在高维特征空间内线性不可分D、使得样本在高维特征空间内线性可分答案BD
33.聚类算法可以基于以下哪些选项去划分、基于划分AB、基于层次C、基于密度D、基于网格答案ABCD
34.一个合格的机器算法包含哪些部分A、模型表征B、模型评估C、优化算法D、学习率答案ABC
35.朴素贝叶斯不是以()为基础的分类方法、概率论AB、天文学C、地理学D\物理学答案BCD
36.ID3算法的实现步骤有哪些、从根结点(rootnode)开始,对结点计算所有可能的特征的信息增益,选择信息A增益最大的特征作为结点的特征B、由该特征的不同取值建立子节点,再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止;C、最后得到一个决策树D、不确定答案:ABC
37.SVM的原理是什么?A、当训练样本线性可分时,通过硬间隔最大化,学习一个线性分类器,即线性可分支持向量机B、当训练数据近似线性可分时,引入松弛变量,通过软间隔最大化,学习一个线性分类器,即线性支持向量机;C、当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机D、以上都正确答案ABCD
38.正常情况下,集成学习一般有哪些步骤A、不确定B、生产一组“个体学习器C以上都正确D、用某种策略将他们结合起来答案BD
39.XGBoost的目标函数由哪些组成、损失函数AB、正则项C、梯度下降D、以上都正确答案AB
40.LightGBM中使用了使用直方图算法的优点是什么A、最明显就是内存消耗的升高B、直方图算法不仅不需要额外存储预排序的结果C、可以只保存特征离散化后的值D、以上都正确答案BC
41.LightGBM在Leaf-wise之上增加了一个最大深度的限制,是为了什么A、高效率B、低效率C、防止过拟合D、防止欠拟合答案AC
42.Boosting思想是怎么进行学习的?A、先从初始训练集训练出一个基学习器B、再根据基学习器的表现对训练样本进行调整C、然后基于调整后的样本分布来训练下一个基学习器D、重复进行直至基学习器数目达到实现指定的值n,最终将这n个基学习器进行结合答案ABCD
43.下列选项中关于高维数据处理描述正确的是?A、为了提高复杂关系的拟合能力B、在特征工程中经常会把一阶离散特征两两组合C、构成高阶组合特征D、以上都正确答案ABCD
44.聚类是工业中常用的算法,以下选项中哪些属于聚类的常用算法A、K-MeansB、高斯混合模型C、自组织映射神经网络D、以上都正确答案:ABCD
45.聚类的相似度计算方法A、SVMB、余弦相似度C、欧氏距离D、Ligi st答案BC
46.模型训练阶段经常发生过拟合或者欠拟合,当发生欠拟合是,应该如何解决A、降低模型复杂度B、添加新特征C、增加模型复杂度D、减小正则化系数答案BCD
47.信息增益是由什么求来的A、信息炳B、信息增益比C、条件熔D、基尼系数答案AC
48.Stacking都有哪些阶段,分别是怎么做的?、Aggregating阶段,将上一个阶段训练得到的n个基模型组合起来,共同做决A策在分类任务中,可采用投票法,比如相对多数投票法,将结果预测为得票最多的类别而在回归任务中可采用平均法,即将每个基模型预测得到的结果进行简单平均或加权平均来获得最终的预测结果B、Boostrap阶段,即采用有放回的采样方式,将训练集分为n个子样本集;并用基学习器对每组样本分布进行训练,得到n个基模型C、分别采用全部的训练样本来训练n个组件模型,要求这些个体学习器必须异构的,比如可以分别是线性学习器,SVM,决策树模型和深度学习模型D、训练一个元模型meta-model来将各个组件模型的输出结果进行结合,具体过程就是将各个学习器在训练集上得到的预测结果作为训练特征和训练集的真实结果组成新的训练集;然后用这个新组成的训练集来训练一个元模型这个元模型可以是线性模型或者树模型答案BC
49.EM算法放到高斯混合模型中应用,一般会有哪些步骤?A、明确隐变量,写出完全数据的对数似然函数B、EM算法的E步确定Q函数C、求Q函数对theta的极大值,即求新一轮迭代的模型参数D、以上都正确答案ABCD
50.以下选项中,可能会造成欠拟合的是哪些、模型复杂度太低AB、模型过于简单C、数据特征太少D、没有使用到重要的特征答案ABCD
51.以下哪些数据是常见的数据、文本AB、图像C、苜频D、视频答案ABCD
52.以下四个任务中,决策树可以完成哪些、分类AB、聚类C、回归D、降维答案AC
53.逻辑回归有哪些可以优化的方法、梯度下降AB、随机梯度下降C^mini随机梯度下降D、以上都正确答案ABCD
54.常见的几种最优化的方法有哪些、梯度下降法AB、牛顿法C、拟牛顿法D、共姬梯度法答案ABCD
55.降维的目的是为了什么,达到什么效果A、减少预测变量的个数B、确保这些变量是相互独立的C、数据在低维下更容易处理、更容易使用D、去除数据噪声答案ABCD
56.下列四个选项中,朴素贝叶斯不是以哪些为基础的分类方法A、概率论B、天文学C、地理学D、物理学答案BCD
57.特征清洗中包括以下哪些操作A、清洗异常样本B、数据不均衡C、归一化D、样本权重答案ACD
58.EM算法过程中,可以分为哪两个步骤A、期望步B、极大步C、不确定D、选择最优K取值答案AB
59.当然朴素贝叶斯也有很多的缺点,以下关于它缺点描述正确的是?A、对缺失数据不太敏感B、分类效果不稳定C、先验模型可能导致结果不佳D、不适合增量式训练答案AC
60.LightGBM在哪些地方进行了优化(区别XGBoost)As基于Histogram的决策树算法B、带深度限制的Leaf-wise的叶子生长策略C、直方图做差加速直接D、支持类别特征(Categor ica IFeature)答案ABCD判断题
1.线性回归目标函数中加入L2正则就变成了岭回归、正确AB、错误答案A
2.条件概率(又称后验概率)就是事件A在另外一个事件B已经发生条件下的发生概率A、正确B、错误答案A
3.概率图模型包括了朴素贝叶斯模型最大熔模型、隐马尔可夫模型、条件随机场主题模型等,在机器学习的诸多场景中都有着广泛的应用As正确B、错误答案A
4.基于密度聚类的特点是计算量大很适合发现中小规模的数据库中小规模的数据库中的球状簇As正确B、错误答案:B
5.通过较少树,叶节点的数量,可以较小树的复杂度A、正确B、错误答案A
6.关于LDA有两种含义,一种是线性判别分析LinearDiscr iminantAnalysis,一种是概率主题模型隐含狄利克雷分布LatentDi richietAI location,简称LDA、正确AB、错误答案A
7.AUC值越大的分类器,正确率越低
18.在下列任务当中,哪个任务可以使用线性回归去实现、数据降维AB、垃圾邮件分类C、癌症良性恶性分类D、房价预测答案D
19.如何理解线性回归中的“线性”A、两个变量之间的关系是一次函数的关系,图像是条直线B、两个变量之间的关系是二次函数的关系,图像是条抛物线C、两个变量之间的关系是对数的关系D、两个变量之间的关系是指数函数的关系答案A
20.下列关于基尼系数和熠说法正确的是A、基尼系数更偏向于连续值B、烯更偏向于离散值C、基尼系数的计算需要对数的运算D、嫡运算起来更加的高效答案A
21.XGBoost中加入正则化会怎么样、可以防止欠拟合AB、可以增加模型的泛化能力C、可以增加模型的复杂度A、正确B、错误答案B
8.XGBoost的本质其实就是一个随机森林A、正确B、错误答案B
9.损失函数MSE经常用在SVM中使用As正确B、错误答案B
10.L2其实就是在目标函数上加入了L2范数、正确AB、错误答案A
11.符合正态分布的两类样本的分类面的位置与先验概率无关A、正确B、错误答案B
12.K-Means算法对开始初始的簇数和对初始聚类中心敏感A、正确B、错误答案A
13.决策树只能做分类,但是做不了回归问题、正确AB、错误答案:B
14.LDA和PCA都可以做降维操作A、正确B、错误答案A
15.GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量、正确AB、错误答案A
16.如果发生了过拟合可以增加迭代的次数去解决、正确AB、错误答案B
17.XGBoost和随机森林的思想是一样的A、正确B、错误
18.防止过拟合从数据入手,获得更多的训练数据A、正确B、错误答案A
19.首先gbdt是通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法A、正确B、错误答案A
20.SVM算法中,既可以做分类又可以做回归、正确AB、错误答案A
21.随机森林属于集成学习A、正确B、错误答案A
22.可以使用1-NN分类器构造2-NN分类器吗?、正确AB、错误答案A
23.随机森林是由多棵树构成的A、正确B、错误答案A
24.召回率真正正确的占所有实际为正的比例A、正确B、错误答案A
25.线性回归中的因变量和自变量呈现一次函数关系As正确B、错误答案A
26.LightGBM虽然在很多方面上做了优化,但是占用的内存会比较大、正确AB、错误答案B
27.LightGBM是带深度限制的Leaf-wise的叶子生长策略A、正确B、错误答案A
28.LightGBM牺牲了一定的精度,但是提升了速度A、正确B、错误答案B
29.XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致、正确AB、错误答案:A
30.RandomForest(随机森林)是一种基于树模型的Bagging的优化版本,一棵树的生成肯定还是不如多棵树,因此就有了随机森林、正确AB、错误答案:A
31.KNN是一种基于划分的聚类、正确AB、错误答案B
32.LR的训练速度很慢、正确AB、错误答案B
33.分隔超平面所产生的分类结果是最鲁棒的,对未知实例的泛化能力最弱A、正确
34.EM算法是个聚类算法B、错误、正确AB、错误答案B
35.KNN算法和K-Means没有任何区别A、正确B、错误答案:B
36.EM算法就是对于一个含有隐变量的概率模型,目标是极大化观测数据Y关于参数theta的对数似然函数A、正确B、错误答案A
37.增大正则化并不能防止过拟合的发生、正确AB、错误答案:B
38.线性回归的一般表达式为Y=W*X+bA、正确B、错误答案A
39.概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系A、正确B、错误答案:A
40.LR的可解释性强,可控度高、正确AB、错误答案A
41.XGBoost使用的是Boosting方法,而GBDT使用的是Bagging方法A、正确B、错误答案B
42.逻辑回归的目标函数中也可以加入正则化、正确AB、错误答案A
43.XGBoost中枚举所有不同树结构的贪心法A、正确B、错误答案A
44.线性回归不仅可以最回归同时也可以做分类A、正确B、错误答案B
45.机器学习算法=模型表征+模型评估+优化算法A、正确B、错误答案A
46.GBDT中的树都是分类树As正确B、错误答案:B
47.在逻辑回归中也可以在目标函数上加入L1,L2正则项、正确AB、错误答案A
48.数据特征归一化可以用到决策树中A、正确B、错误答案B
49.损失函数lossfunction是用来估量你模型的预测值f x与真实值Y的不一致程度A、正确B、错误答案A
50.当数据的先验分布假定为正态分布时,贝叶斯判别与正态分布等价、正确AB、错误答案A
51.决策树在进行输入的时候也需要做到归一化A、正确B、错误答案B
52.EM算法中要先求解最大化,然后求最大期望A、正确B、错误答案:B
53.gbdt通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练A、正确B、错误答案A
54.特征归一化可以用到SVM,逻辑回归,线性回归等模型中A、正确B、错误答案A
55.XGBoost为了减少树的复杂度,可以加入正则项、正确AB、错误答案:A
56.EM算法的应用一般有混合高斯协同过滤、k-meanso算法一定会收敛,但是可能会收敛到局部最优、正确AB、错误答案:A
57.添加了新的特征或者增加模型的复杂度可以防止欠拟合、正确AB、错误答案A
58.L1会将参数缩减为0,而L2会将参数缩小趋近于
0、正确AB、错误答案A
59.SVM做分类的本质是想找到一条最优的超平面,完美的分开不同的类别A、正确B、错误答案AD、以上都是答案BA、ROC曲线越靠拢1,2点B、ROC曲线越靠拢
0.5,
0.5点C、ROC曲线越靠拢0,1点越好D、ROC曲线越靠拢1,0点
22.以下关于ROC曲线的说法,正确的是答案CA、LDAB、word2vecC、PageRankD、SVD
23.网络表示NetworkEmbedd ing模型是受到以下哪种模型的启发而来答案BA、概率图模型是用图来表示变量概率依赖关系B、概率图是树状的结构C、概率图就是概率,是相同的D、不确定
24.什么是概率图模型,如何去理解概率图模型答案A
25.若训练时使用了数据集的全部特征,模型在训练集上的准确率为100%,验证集上准确率为70%出现的问题是
60.精准率就是真正正确的占所有预测为正的比例A、正确B、错误答案A
61.EM算法中求和的项数会随着隐变量的数目指数上升,会给梯度计算带来麻烦EM算法是一种非梯度优化算法A、正确B、错误答案A
62.加入这个正则化项好处控制参数幅度,限制参数搜索空间、正确AB、错误答案A
63.XGBoost和GBDT都是Boosting方法A、正确B、错误答案A
64.LDA在2003年提出,是一种主题模型、正确AB、错误答案A
65.随机森林解决解决了决策树泛化能力弱的特点A、正确B、错误答案A
66.EM算法是通过迭代,不断求解下界的极大化,来逐步求解对数似然函数极大化、正确AB、错误答案A
67.SVM是机器学习中经典的算法,在NLP中也有很多的应用,例如rasa机器人、正确AB、错误答案A
68.LDA模型是一种生成式模型A、正确B、错误答案A
69.让损失函数沿着梯度方向的下降这个就是GBDT的GB的核心、正确AB、错误答案A
70.EM中的M步,结合E步求出的隐含变量条件概率,求出似然函数下界函数的最大值、正确AB、错误答案:A
71.为了解决决策树中的过拟合,可以通过剪枝的操作A、正确B、错误答案A
72.LightGBM在处理大数据上效果很好、正确AB、错误答案A
73.决策树通常有三个步骤特征选择,决策树的生成,决策树的修剪A、正确B、错误答案A
74.正则化通常使用L1,L
2、正确AB、错误答案A
75.非结构化数据结构化数据类型可以看作关系型数据库的一张表A、正确B、错误答案B
76.决策树的学习目标是根据给定的训练数据集合构建一个决策树模型,使它能够对实例进行正确的分类、正确AB、错误答案A
77.扩展库sk Iearn.I inear_mode I中的LinearRegression类实现了线性回归算法、正确AB、错误答案A
78.逻辑回归既可以做分类又可以做回归,是个比较全能的算法A、正确B、错误答案B
79.LightGBM的效果,和速度会更好、正确AB、错误答案A
80.基于层次的聚类特点是较小的计算开销然而这种技术不能更正错误的决定、正确AB、错误答案A
81.线性可分支持向量机利用间隔最大化求得最优分离超平面,这时,解是唯一的A、正确B、错误答案A
82.概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布A、正确B、错误答案A
83.随机森林中是由多棵树构成的A、正确B、错误答案A
84.KNN中,可以借助交叉验证来选择k的最优值、正确AB、错误答案A
85.模型过拟合了之后可以适当降低模型的复杂度A、正确B、错误答案A
86.XGBoost是一种是概率主题模型A、正确B、错误答案B
87.决策树的学习目标是在损失函数的移一下,选择最优决策树的问题As正确B、错误答案A
88.KNN通过建立因变量和自变量之间的一次函数关系,来做回归、正确AB、错误答案A
89.逻辑回归可以将多分类看成多个二分类,然后进行多分类A、正确B、错误答案A
90.过拟合和欠拟合是一样的A、正确B、错误答案B
91.机器学习的评估方法只能用准确率、正确AB、错误答案:B
92.模型太过于复杂的话,会造成欠拟合A、正确B、错误答案B
93.线性回归在工业中主要用于垃圾邮件分类、正确AB、错误答案B
94.线性回归算法只能做回归,不能做分类A、正确B、错误答案A
95.当数据输入到决策树中前,必须要做特征工程、正确AB、错误答案B
96.特征归一化以后,可以通过梯度更快的找到最优解A、正确B、错误答案A
97.混淆矩阵也称误差矩阵A、正确B、错误答案A
98.梯度下降的缺点靠近极小值时收敛速度减慢;直线搜索时可能会产生一些问题;可能会“之字形”地下降、正确AB、错误答案A
99.LightGBM的特点和优点,速度快,支持分布式,准确率高等等A、正确B、错误答案A
100.决策树学习的本质是从训练集中归纳出来一组分类规则A、正确B、错误答案A、欠拟合AB、过拟合C、模型很完美D、不确定答案:B
26.线性回归使用的目标函数是以下哪个、信息增益AB、信息烯iC、交叉熔D、均方误差答案D
27.在使用EM算法的时候可能会出现以下什么问题(弊端)A、算法快速收敛B、可能达到局部最优C、不确定D、使梯度的计算更便捷答案B
28.建立了一个kNN分类器,该分类器在训练数据上获得100%的准确性当他们在客户端上部署此模型时,发现该模型根本不准确以下哪项可能出错了?A、可能是模型过拟合B、可能是模型未拟合C、不能判断D、这些都不是答案A
29.欠拟合是不好的现象,那么它有什么不好的影响A、在训练集上的效果很好,但是在测试集上的效果很差B、在训练集上的效果差,在测试集上的效果也差C、在训练集上的效果很好,在测试集上的效果也很好D、在训练集上的效果很差,但是在测试集上的效果很好答案B
30.EM算法应用广泛,它的求解原理是什么A、是通过寻找最优的自变量和因变量之间的一次函数关系B、通过寻找最优的超平面进行更好的分类C、是通过迭代,不断求解下界的极大化,来逐步求解对数似然函数极大化D、不确定答案C
31.在寻找最优结构树的过程中,经常会使用到以下哪个算法A、逻辑回归B、线性回归C、聚类D、贪心算法答案D
32.以下属于异质集成的是哪个、BaggingA。
个人认证
优秀文档
获得点赞 0