还剩29页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据挖掘基础本课程将带您深入了解数据挖掘的基本原理和应用,探索数据中隐藏的知识和价值,并学习如何利用数据分析技术解决实际问题课程介绍课程目标课程内容掌握数据挖掘的基本概念、方法和技术数据挖掘概述、数据预处理、探索性数据分析、监督学习、无监督学习、关联规则挖掘、时间序列分析、异常检测、能够应用数据挖掘技术解决实际问题遗传算法、神经网络、深度学习数据挖掘概述定义目的从大量数据中发现有价值的理解数据、预测趋势、发现模式、规律和知识的过程隐藏的知识、提高决策效率应用商业、金融、医疗、教育、科学研究等多个领域数据挖掘的应用领域金融市场营销欺诈检测、风险评估、客户画像、客户细分、精准营销、个性化推投资预测荐、需求预测医疗教育疾病诊断、药物研发、个性化治学生画像、个性化教学、学习效疗、患者预后预测果评估、教育资源优化数据挖掘的流程数据收集1数据预处理2探索性数据分析3特征选择与工程4模型构建与训练5模型评估与选择6模型部署与应用7数据预处理数据清洗数据转换数据集成123处理缺失值、异常值、重复数数据格式转换、数据类型转换、将多个数据源整合为一个统一据、不一致数据数据归一化的数据集探索性数据分析数据可视化统计分析使用图表和图形来展示数据分布、趋势和关系计算数据的统计指标,如均值、方差、相关系数等数据标准化和离散化数据标准化1将数据缩放到同一尺度数据离散化2将连续数据转换为离散数据数据预处理3数据挖掘的基础特征选择与特征工程特征选择从原始数据中选择出对模型效果有重要影响的特征特征工程对原始特征进行转换、组合、扩展等操作监督学习算法分类回归将数据划分为不同的类别预测连续型变量的值决策树算法信息增益1选择最优特征进行分割树形结构2直观易懂,解释性强决策树模型3用于分类和回归朴素贝叶斯算法12贝叶斯定理特征独立性计算事件发生的概率假设特征之间相互独立3分类模型用于文本分类、垃圾邮件过滤等近邻算法K距离计算多数投票计算样本之间的距离选择距离最近的个样本,投票决定类别K线性回归线性模型最小二乘法使用直线或超平面来拟合数据最小化预测值与真实值之间的误差逻辑回归分类模型函数Sigmoid预测二分类问题将线性模型转换为概率值最大似然估计寻找最优参数支持向量机算法寻找最大间隔超平面1解决线性不可分问题2用于分类和回归3无监督学习算法均值聚类算法K随机初始化中心点随机选择个样本作为初始聚类中心K样本分配将每个样本分配到距离其最近的聚类中心更新聚类中心重新计算每个聚类中心的平均值层次聚类算法自底向上1将每个样本看做一个独立的聚类,逐渐合并相似度高的聚类自顶向下2将所有样本归为一个聚类,逐渐分割不相似度高的聚类层次聚类3形成树形结构的聚类主成分分析12数据降维主成分将高维数据降维到低维解释数据最大方差的方向3特征提取提取最重要的特征关联规则挖掘算法发现关联关系市场篮子分析找到数据集中频繁出现的模分析顾客购买商品之间的关式联性应用领域推荐系统、市场营销、欺诈检测算法Apriori频繁项集1支持度大于阈值的项集关联规则2由频繁项集生成的关联规则原理Apriori3频繁项集的子集也是频繁项集算法FP-growth树路径压缩FP压缩存储频繁项集信息提高算法效率时间序列分析时间序列数据预测趋势按时间顺序排列的数据预测未来的数据值异常检测算法基于统计的方法基于距离的方法基于聚类的方法123利用数据分布特征来识别异常计算样本与其他样本的距离将异常样本孤立在不同的聚类中遗传算法种群初始化1适应度评价2选择操作3交叉操作4变异操作5神经网络算法人工神经元层级结构学习过程模拟生物神经元的工作原理多层神经元组成网络通过调整权重来优化模型深度学习算法多层网络1包含多个隐藏层特征自动学习2自动提取数据特征深度学习3神经网络的深层发展应用案例分享金融领域医疗领域营销领域欺诈检测、风险控制、客户画像疾病预测、药物研发、精准医疗客户细分、精准营销、个性化推荐课程总结与展望数据挖掘学习建议快速发展、应用广泛、未来可期持续学习、实践应用、不断提升问答环节欢迎大家提出问题,我们一起探讨数据挖掘的奥秘。
个人认证
优秀文档
获得点赞 0