还剩16页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《数据集和结果衡量》ppt课件•数据集的收集和处理•数据集的探索性分析•数据集的划分和模型训练CATALOGUE•结果衡量指标和模型评估目录01数据集的收集和处理数据来源010203公开数据集私有数据集自己收集的数据从公开的数据源获取数据通过合作协议或购买获得通过调查、问卷、实验等集,如政府机构、研究机的数据集,通常需要遵守方式自己收集的数据,需构、公共数据库等数据使用协议和保密条款要设计合理的调查方案和数据收集流程数据清洗和预处理数据清洗数据转换检查数据中的异常值、缺失值、格式错误将数据从一种格式或结构转换为另一种格等问题,并进行相应的处理式或结构,以便于分析和处理数据整合数据重塑将多个数据源的数据进行整合,形成一个根据分析需求对数据进行重新组织和整理,统一的数据集,需要解决不同数据源之间例如对数据进行排序、分组、去重等操作的数据冲突和重复问题02数据集的探索性分析描述性统计描述数据集的基本特征通过计算均值、中位数、众数、标准差等统计量,了解数据集的中心趋势、离散程度和分布形态分布探索揭示数据分布规律通过直方图、箱线图等可视化工具,观察数据的分布情况,判断是否符合正态分布或其他理论分布,从而为后续分析提供依据关系探索发现变量间关系通过相关系数、散点图等方法,探索变量之间的线性或非线性关系,为后续建立模型提供依据03数据集的划分和模型训练训练集、验证集、测试集的划分训练集验证集测试集用于训练和优化模型,通用于调整超参数和选择最用于评估模型的最终性能,常占总数据集的70-80%佳模型,通常占总数据集通常占总数据集的10%的10-20%模型选择和参数调整01根据问题和数据特性选择合适的模型02通过交叉验证等技术调整模型参数,以获得最佳性能过拟合与欠拟合问题过拟合模型在训练数据上表现很好,但在测试数据上表现较差,因为模型过于复杂,记住了训练数据中的噪声欠拟合模型在训练数据上表现较差,因为模型过于简单,无法捕捉到数据中的复杂模式04结果衡量指标和模型评估回归问题结果衡量指标均方误差(Mean Squared Error,M…衡量预测值与真实值之间的平均平方误差,计算公式为$frac{1}{n}sum_{i=1}^{n}y_i-hat{y}_i^2$,其中$y_i$是真实值,$hat{y}_i$是预测值均方根误差(Root MeanSquaredEr…均方误差的平方根,计算公式为$sqrt{frac{1}{n}sum_{i=1}^{n}y_i-hat{y}_i^2}$平均绝对误差(Mean AbsoluteError…衡量预测值与真实值之间的平均绝对误差,计算公式为$frac{1}{n}sum_{i=1}^{n}|y_i-hat{y}_i|$分类问题结果衡量指标准确率(Accuracy)精确率(Precision)召回率(Recall)F1分数(F1Score)正确分类的样本数占总样本数预测为正样本中实际为正样本实际为正样本中被预测为正样精确率和召回率的调和平均数,的比例,计算公式为$frac{正的比例,计算公式为$frac{真本的比例,计算公式为计算公式为$2times确分类的样本数}{总样本数}$正样本数}{预测为正样本数}$$frac{真正样本数}{实际为正样frac{text{精确率}times本数}$text{召回率}}{text{精确率}+text{召回率}}$模型评估的综合指标R方值(R-squared)衡量模型解释Adjusted R方值(Adjusted R-AIC(Akaike Information变量变异程度的指标,计算公式为$1squared)对R方值进行调整,以考Criterion)衡量模型复杂度和拟合-frac{text{SSE}}{text{SST}}$,其中虑模型中自变量的数量,计算公式为优度的指标,计算公式为$-SSE是残差平方和,SST是总平方和$1-frac{text{SSE}}{text{SST}-k}$,frac{2LL}{text{df}}+2k$,其中LL是其中k是自变量的数量对数似然值,df是自由度,k是自变量数量感谢您的观看THANKS。
个人认证
优秀文档
获得点赞 0