还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习与数据挖掘课程导言探索数据世界奥秘掌握智能分析核心技术引领数字化转型未来什么是机器学习?机器学习定义监督与无监督学习计算机自主学习的能力监督有标签数据训练从数据中发现规律无监督自动发现数据模式不需显式编程即可优化各有独特应用场景什么是数据挖掘?数据模式发现知识提取与决策支持从大规模数据中发现有用信息揭示数据间隐藏关系跨学科整合结合统计学、数据库技术和人工智能机器学习与数据挖掘的联系与区别联系区别同属人工智能分支数据挖掘更注重商业应用••共享众多算法基础机器学习更关注算法理论••都强调从数据中学习应用场景有所不同••互补性相互促进发展•技术边界日益模糊•实际应用中常结合使用•机器学习的基本流程模型部署与监控模型评估与优化应用于实际场景特征工程与模型构建选择评估指标数据收集与预处理持续监测性能表现选择最佳特征调整参数提升性能获取高质量数据训练适合的模型清洗、转换、标准化数据挖掘的基本流程问题定义明确业务目标数据探索理解数据特性模式发现应用算法发现规律结果评估验证洞察价值应用部署投入实际业务使用机器学习的主要类型无监督学习强化学习从无标记数据发现结构通过奖惩机制学习策略聚类与降维自动决策优化监督学习半监督学习通过标记数据学习映射关系结合标记与未标记数据分类与回归任务降低标注成本常用数据类型与任务分类回归聚类预测离散类别预测连续数值识别相似数据组垃圾邮件识别、情感分房价预测、销量预估客户细分、异常检测析关联分析发现项目关联购物篮分析、推荐系统数据预处理基础概念数据变换标准化、归一化、编码数据集成合并多源数据数据去噪处理离群点和异常值数据清洗处理缺失值和不一致数据数据预处理特征工程特征选择选取最相关特征特征变换归一化和标准化特征构造创建新的有意义特征特征降维减少特征数量维持信息数据集划分方法原始数据集全部可用数据训练集用于模型学习()60-70%验证集用于参数调优()15-20%测试集评估最终模型()15-20%监督学习简介核心思想主要任务经典算法从有标签数据中学习映射规则分类预测离散类别决策树、、神经网络、SVM KNN回归预测连续值回归分析基础线性回归原理常见变种找寻特征与目标变量线性关系多元线性回归最小化预测误差多项式回归通过最小二乘法求解岭回归简单但高效的预测模型回归Lasso分类算法简介决策边界错误矩阵多类别问题区分不同类别的分界线评估分类准确性的工具处理三个以上的目标类别最近邻()算法原理KNNK1邻居数量懒惰学习选择个最相似样本决定分类不构建模型,直接比较测试样本K3距离度量欧氏距离、曼哈顿距离、余弦相似度朴素贝叶斯分类器贝叶斯原理特征独立假设基于条件概率简化计算复杂度高效易用文本分类训练速度快垃圾邮件过滤应用决策树算法支持向量机()SVM最大间隔核技巧支持向量寻找最优分隔超平面将非线性问题映射到高维空间决定决策边界的关键样本神经网络与深度学习基础感知机多层架构神经网络基本单元输入层接收数据输入、权重和激活函数隐藏层提取特征模拟单个神经元工作方式输出层产生结果常用深度学习算法卷积神经网络循环神经网络CNN RNN专为图像处理设计处理序列数据••利用卷积层提取空间特征具有记忆能力••应用于计算机视觉领域适用于自然语言处理••生成对抗网络GAN生成器与判别器对抗•创建逼真内容•图像生成与风格迁移•集成学习方法策略策略Bagging Boosting并行训练多个相同类型模型串行训练多个模型随机森林是典型代表关注前一模型的错误样本随机森林梯度提升树多决策树投票决策逐步减少残差抗过拟合能力强是高效实现XGBoost无监督学习简介聚类分析发现数据自然分组均值、层次聚类K-降维技术减少特征数量、PCA t-SNE关联规则发现项目间关联、Apriori FP-growth异常检测识别异常点基于密度和距离方法均值聚类算法K初始化个中心点1K随机选择或优化选择分配样本到最近中心2计算样本与各中心距离重新计算聚类中心取每类样本的均值重复直到收敛中心点不再变化层次聚类凝聚层次聚类分裂层次聚类自下而上方法自上而下方法每个样本初始为独立类别开始所有样本为一类逐步合并最相似类别递归分裂不相似样本密度聚类DBSCAN核心思想基于样本点密度发现聚类关键参数邻域半径Eps最小点数MinPts主要优势可发现任意形状聚类自动识别噪声点典型应用空间数据分析异常检测主成分分析()PCA计算协方差矩阵分析特征相关性求解特征值和特征向量找出主要变化方向排序并选择主成分保留最大方差方向投影数据到新空间实现降维关联规则挖掘
0.
50.
80.6支持度置信度提升度规则出现频率规则可靠性度量规则相关性强度序列模式挖掘核心目标常见算法应用领域发现时序数据中频繁出现的模式、、、用户行为分析、网页点击流、GSP SPADEPrefixSpan DNA序列FAST异常检测方法基于统计基于距离假设数据符合统计分布计算样本间距离偏离分布认为异常远离密集区域为异常基于聚类基于密度正常数据形成聚类分析局部密度分布不属于聚类为异常低密度区域为异常半监督学习与迁移学习半监督学习迁移学习应用场景结合标记和未标记数据应用已有领域知识数据标注成本高•••减少对标记样本依赖解决目标领域问题目标领域样本少•••标签传播算法微调预训练模型跨领域知识复用•••增量与在线学习增量学习在线学习典型应用模型能随新数据更新实时逐样本学习实时推荐系统不需重新训练即时更新决策金融风控保持历史知识低内存消耗异常检测适应数据变化处理流数据用户行为分析自动特征学习原始特征输入低级原始数据表示多层特征提取逐层学习抽象表示高级特征形成发现复杂特征组合任务优化表示针对目标任务特化特征超参数调优与模型正则化网格搜索随机搜索贝叶斯优化穷举搜索最佳参数组合随机采样参数空间智能探索参数空间模型评估指标过拟合与欠拟合过拟合现象欠拟合现象模型过度学习训练数据细节模型没有充分学习数据模式训练集表现优秀训练集表现差测试集表现差测试集同样差复杂模型常见问题过于简单模型问题数据不平衡问题处理欠采样过采样减少多数类样本增加少数类样本代价敏感学习SMOTE不同错误赋予不同权重3合成少数类样本大规模数据挖掘技术Hadoop SparkMapReduce分布式存储与计算框架内存计算加速数据处理并行处理大规模数据可视化分析在数据挖掘中的作用探索性分析模型评估结果解释直观了解数据分布与关系可视化分类边界与聚类结果帮助非专业人士理解分析结论机器学习工程化与MLOps模型开发算法选择与代码版本控制模型部署容器化与服务化API模型监控性能追踪与数据漂移检测模型更新自动化重训练与部署典型应用金融风控信用评分预测借款人违约风险欺诈检测识别异常交易模式市场预测分析市场趋势反洗钱发现可疑资金流动典型应用智能推荐系统用户画像构建用户兴趣模型协同过滤基于相似用户推荐内容特征分析物品特征匹配混合推荐多种策略结合典型应用文本与自然语言处理模型GPT语言生成与对话与关系提取NER信息抽取与知识构建情感分析判断文本情绪倾向文本分类新闻分类与垃圾过滤词向量表示文本数值化基础典型应用图像与语音识别图像分类目标检测语音识别识别图片内容类别定位与识别多个对象语音转文字技术广泛应用等算法序列模型应用CNN YOLO图像生成创建逼真图像与GAN Diffusion典型应用智能医疗医学影像分析疾病预测药物开发光片异常检测基于患者历史数据分子设计辅助X肿瘤识别与分割风险评估与预警靶点识别辅助诊断系统慢性病管理疗效预测数据隐私与伦理问题数据隐私算法公平性个人信息保护避免偏见歧视••匿名化技术平衡各群体结果••差分隐私多样性考量••可解释性黑盒模型问题•决策依据透明•技术•XAI机器学习与数据挖掘主流开源工具库深度学习框架大数据工具Python、、、、、生态系统Scikit-learn PandasNumPy TensorFlowPyTorch KerasSpark MLHadoop数据挖掘的未来发展方向自动机器学习边缘计算模型选择与参数自动化设备端推理与学习多模态学习隐私保护学习4跨媒体数据融合分析联邦学习与加密计算业界最新进展案例解析AlphaFold ChatGPTStable Diffusion蛋白质结构预测革命性突破大语言模型对话能力突破文本生成图像技术进步课程复习与知识点回顾基础概念1机器学习类型与数据挖掘流程核心技术监督、无监督、深度学习方法工程实践数据预处理、特征工程与模型评估前沿应用各领域案例与最新研究进展互动交流与课程总结常见问题推荐资源算法选择与模型调优经典教材与在线课程实际应用场景困难开源项目与数据集实践建议学习社区参与竞赛积累经验加入技术论坛构建个人项目展示参与开源贡献。
个人认证
优秀文档
获得点赞 0