还剩45页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《期中考试复习》CQR欢迎来到《CQR期中考试复习》PPT课件!我们将一起回顾本学期所学内容,帮助大家更好地备战期中考试本课件涵盖了数据分析、机器学习、自然语言处理等核心内容,并提供了重要的复习要点和考试技巧,希望对大家有所帮助!课程概述课程介绍课程目标《CQR》课程旨在帮助学生掌握数据分析的基本理论和实践方通过学习本课程,学生能够法,并能够利用机器学习和深度学习等技术解决现实世界中的问•理解数据分析的基本概念和方法题课程内容涵盖数据分析基础、机器学习基础、自然语言处•掌握机器学习算法的原理和应用理、时间序列分析等多个重要领域•学习自然语言处理的基本技术•掌握时间序列分析的原理和应用学习目标掌握数据分析的基础知识包括数据类型、数据清洗、数据可视化等内容了解机器学习的基本概念和算法包括监督学习、无监督学习、回归模型、分类模型等内容熟悉自然语言处理的关键技术包括词嵌入、情感分析、文本分类等内容了解时间序列分析的原理和应用包括ARIMA模型、Prophet模型、时间序列预测等内容考试内容概览数据分析基础15%机器学习基础30%回归模型10%分类模型15%聚类算法5%集成学习10%深度学习5%自然语言处理5%时间序列分析5%第一章数据分析基础数据类型1数据清洗2数据可视化3数据类型
1.1数值型数据文本型数据时间型数据类别型数据包括连续型数据和离散型数包括字符串、字符等例如表示时间或日期例如出生表示离散的类别,例如性据例如年龄、身高、体姓名、地址、商品描述等日期、订单日期、活动时间别、颜色、职业等重、价格等等数据清洗
1.2缺失值处理使用各种方法填充缺失值,例如均值填充、众数填充、插值法等异常值检测识别和剔除数据集中异常值,例如箱线图法、Z-score法等数据规范化将数据转换为统一的格式和尺度,例如标准化、归一化等数据去重删除重复数据,确保数据完整性和准确性数据可视化
1.3直方图散点图用于显示数据的分布情况用于展示两个变量之间的关系折线图饼图用于显示数据随时间变化的趋势用于显示数据的占比情况第二章数据预处理缺失值处理1异常值检测2特征工程3缺失值处理
2.1删除法填充法直接删除包含缺失值的样本使用各种方法填充缺失值,例如均值填充、众数填充、插值法等异常值检测
2.2箱线图法利用箱线图判断异常值法Z-score利用Z-score值判断异常值原则3σ利用3σ原则判断异常值特征工程
2.3特征选择1从原始特征集中选择最有用的特征特征提取2将原始特征转换为新的特征特征构造3利用现有特征创建新的特征第三章机器学习基础无监督学习监督学习模型评估213监督学习
3.1回归分类预测连续型变量的值预测离散型变量的类别无监督学习
3.2聚类降维将数据点分组到不同的簇中将高维数据转换为低维数据关联规则挖掘发现数据集中变量之间的关联关系模型评估
3.31准确率正确预测的样本数占总样本数的比例2精确率正确预测为正例的样本数占预测为正例的样本数的比例3召回率正确预测为正例的样本数占实际正例样本数的比例4F1-score精确率和召回率的调和平均数第四章回归模型线性回归
4.1原理应用利用线性方程来拟合数据,并预测连续型变量的值预测房屋价格、股票价格、商品销量等逻辑回归
4.2原理利用逻辑函数将线性模型转换为概率值,预测离散型变量的类别应用预测用户点击率、客户流失率、疾病诊断等决策树回归
4.3原理利用树状结构对数据进行分类,并预测连续型变量的值应用预测房价、股票价格、商品销量等第五章分类模型最近邻K1支持向量机2朴素贝叶斯3最近邻
5.1K原理应用根据样本之间的距离,将未知样本分类到距离最近的K个样本所图像分类、文本分类、推荐系统等属的类别支持向量机
5.2原理寻找最优的超平面,将不同类别的样本点分离应用图像分类、文本分类、异常检测等朴素贝叶斯
5.3原理1基于贝叶斯定理,假设特征之间相互独立,预测样本的类别应用2文本分类、情感分析、垃圾邮件过滤等第六章聚类算法1K-Means层次聚类23DBSCAN
6.1K-Means随机初始化中心点计算样本与中心点将样本分配到最近的距离的中心点所属的簇更新中心点的位置层次聚类
6.21自下而上将样本逐个合并成更大的簇2自上而下将样本逐个划分成更小的簇
6.3DBSCAN原理应用基于密度,将高密度区域的样本归类到同一个簇中异常值检测、图像分割、模式识别等第七章集成学习随机森林
7.1原理通过组合多个决策树,降低方差,提高模型的泛化能力应用分类、回归、特征选择等
7.2AdaBoost原理应用利用弱分类器,通过加权投票的方式提升模型的性能分类、回归、异常检测等
7.3GBDT原理利用梯度下降法,迭代地训练弱分类器,并累加它们的预测结果应用分类、回归、排序等第八章深度学习神经网络基础1卷积神经网络2循环神经网络3神经网络基础
8.1基本概念训练过程包括神经元、权重、激活函数、损失函数等包括前向传播、反向传播、梯度下降等卷积神经网络
8.2卷积层1提取图像特征池化层2减少特征数量,降低计算量全连接层3对特征进行分类或回归循环神经网络
8.3记忆机制序列处理能够存储和处理时间序列数据擅长处理自然语言、语音等序列数据第九章自然语言处理词嵌入1情感分析2文本分类3词嵌入
9.11词向量将单词表示为数值向量2语义相似性通过向量之间的距离衡量词语之间的相似性情感分析
9.2正面情感负面情感表达积极的情绪,例如开心、表达消极的情绪,例如悲伤、兴奋、满意愤怒、失望中性情感表达中立的情绪,例如客观、平静、无动于衷文本分类
9.3主题分类将文本归类到不同的主题类别中情感分类识别文本的情感倾向垃圾邮件过滤将垃圾邮件与正常邮件区分开来第十章时间序列分析模型
10.1ARIMA原理应用基于时间序列的自回归、移动平均和差分模型预测股票价格、商品销量、天气变化等模型
10.2Prophet原理一种基于加法模型的时间序列预测方法应用预测销售额、网站流量、用户数量等时间序列预测
10.3短期预测中期预测预测未来几天或几周的数据预测未来几个月或几年的数据长期预测预测未来几年或几十年的数据期中考试复习要点理解数据分析的基本概念和方法数据类型、数据清洗、数据可视化掌握常见的机器学习算法回归模型、分类模型、聚类算法、集成学习了解自然语言处理的关键技术词嵌入、情感分析、文本分类熟悉时间序列分析的原理和应用ARIMA模型、Prophet模型、时间序列预测考试注意事项时间管理认真审题提前准备合理分配答题时间,避免时间不足仔细阅读试题要求,确保理解试题内容熟悉考试内容,做好充分的准备工作答疑及总结本课件旨在帮助大家更好地复习《CQR》课程,如有任何疑问,请随时向老师或助教提问希望大家能够取得优异的成绩!。
个人认证
优秀文档
获得点赞 0