还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
张伟习础机器学基主讲张伟教授日期2025年春季学期课程编号CS401课程概述习础论课机器学基理程安排1核心算法与应用场景10周课程,每周5小时2习先修要求4学内容3线性代数、概率论、Python基础理论讲解与实践练习习标学目理解核心概念掌握机器学习基本原理与算法处数据理能力熟练运用数据预处理与特征工程技术实际应用能够选择适当算法解决实际问题项实目践培养完整机器学习项目实施能力习简机器学介义1基本定从数据中学习的计算机算法发历2展史从1950年代至今的重要突破关3学科系与人工智能、深度学习的联系应领4用域医疗、金融、交通等广泛应用习类机器学型监习监习监强习督学无督学半督与化学利用有标签数据训练模型在无标签数据中发现模式半监督结合标签与无标签数据包括分类与回归问题包括聚类与降维强化学习基于奖惩机制学习如垃圾邮件识别、房价预测如客户分群、异常检测如自动驾驶、游戏AI习机器学工作流程问题义定与数据收集明确目标,获取相关数据预处数据理与特征工程清洗数据,提取有用特征选择训练模型与选择合适算法,利用训练数据学习评优估与化测试模型性能,调整参数监部署与控应用于实际环境,持续监控效果础线数学基性代数向量与矩阵运算•矩阵乘法•向量点积•转置操作特征值与特征向量•特征分解•对角化•应用于PCA矩阵分解•SVD分解•LU分解•QR分解线性变换•空间映射•向量空间•正交投影础统计数学基概率与贝概率分布叶斯定理正态分布、伯努利分布、泊松分布先验概率与后验概率关系统计统计度量推断期望、方差、协方差计算与应用假设检验与置信区间分析础积优数学基微分与化优问题化寻找函数最优解梯度下降沿梯度方向迭代寻优导导数与偏函数变化率计算优论凸化理全局最优解存在条件习Python机器学工具包NumPy科学计算基础库Pandas数据处理与分析工具Scikit-learn经典机器学习算法实现可视化库Matplotlib/Seaborn数据展示深度学习框架PyTorch/TensorFlow模型构建预处数据理值处值检测标缺失理异常数据准化数据平衡删除、插补、模型预测箱线图、Z分数、IQR方法Z-score、Min-Max缩放过采样、欠采样、SMOTE技术特征工程选择特征过滤、包装、嵌入选择法维术降技PCA、LDA、t-SNE方法转换特征对数变换、多项式特征编码特征One-hot、标签、频率编码监习线归督学性回则模型原理正化方法寻找最佳拟合直线岭回归L2正则化预测连续型数值Lasso回归L1正则化基于最小二乘法优化弹性网络混合正则化类变型与体简单线性回归多元线性回归多项式回归监习逻辑归督学回监习树督学决策树决策原理基于特征条件递归分割数据将复杂决策分解为简单决策序列标分裂准信息增益基尼指数方差减少回归树优术化技预剪枝与后剪枝最大深度限制最小样本数限制监习督学随机森林集成原理随机性引入多个决策树投票决策随机选择样本与特征术特征重要性Bagging技评估各特征对预测的贡献有放回抽样构建子模型监习督学支持向量机间术软间最大隔原理核函数技隔SVM寻找最佳分隔超平面线性不可分问题映射高维允许部分误分类优化整体监习邻督学K近算法K1/d邻居数量距离权重调整K值影响决策边界平滑度距离越近影响越大On计算复杂度与训练样本数量成正比KNN原理距离计算以邻为伴,物以类聚欧氏距离、曼哈顿距离、闵可夫斯基距离适用场景小数据集、低维特征空间监习贝督学朴素叶斯监习类无督学K-means聚初始化随机选择K个聚类中心分配将样本分配至最近中心更新重新计算各簇中心迭代重复直至收敛监习层类无督学次聚自底向上聚合1从单个样本开始逐步合并顶自向下分裂2从整体样本开始逐步分割类聚合并策略3单链接、全链接、平均链接树图状分析4可视化聚类层次结构监习类无督学密度聚关键DBSCAN原理参数基于密度连接形成簇邻域半径与最小点数ε处规则噪声理不簇形自动识别离群点能发现任意形状的簇监习维术无督学降技主成分分析PCA t-SNE UMAP寻找最大方差方向保留局部结构关系高效保留全局与局部结构监习检测无督学异常统计离方法基于密度隔森林基于统计分布识别异常值低密度区域视为异常随机分割空间快速隔离异常•Z分数法•LOF算法•随机特征选择•箱线图法•DBSCAN扩展•随机分割点•马氏距离•KNN距离•异常点分离路径短习集成学方法方法原理代表算法特点Bagging并行训练独立随机森林降低方差模型Boosting序列训练互补AdaBoost,降低偏差模型GBDTStacking多层模型组合超学习器提高泛化能力习础深度学基神经网络基本单元人工神经元模拟生物神经元网络结构输入层、隐藏层、输出层激活函数ReLU、Sigmoid、Tanh学习过程前向传播与反向传播习础经络深度学基神网络类层设计网型感知机、多层感知机、深层网络隐藏层深度与宽度设计策略问题归梯度批量一化梯度消失与爆炸的形成与解决加速训练与提高稳定性评归标模型估回指均方误差MSE平均绝对误差MAE预测值与实际值差的平方和平均预测值与实际值差的绝对值平均受异常值影响大对异常值不敏感单位为原始数据单位的平方单位与原始数据相同R²值均方根误差RMSE解释方差比例MSE的平方根范围0-1,越接近1越好单位与原始数据相同可解释为模型拟合优度比MSE更易解释评类标模型估分指精确率准确率预测为正的样本中真正的比例1所有预测中正确的比例召回率真实为正的样本中被预测出的比例3线ROC曲与AUCF1分数评估模型在不同阈值下的表现精确率与召回率的调和平均评验证模型估交叉验证层样时间K折交叉留一法分抽序列数据分K份,轮流作为测试集每次只用一个样本作为测试保持各折中类别分布一致考虑时间顺序的特殊验证法调优模型贝优网格搜索随机搜索叶斯化穷举预定义参数组合随机采样参数组合基于先前结果指导搜索•系统性覆盖参数空间•效率高于网格搜索•建立参数性能代理模型•计算成本高•适合高维参数空间•平衡探索与利用•适合参数较少情况•不保证找到最优解•效率高于前两种方法则正化方法则则L1正化L2正化添加参数绝对值惩罚项,促进稀疏添加参数平方惩罚项,防止过拟合强Dropout数据增随机丢弃神经元防止共适应通过变换扩充训练数据选择特征方法过滤法包装法嵌入法基于统计指标选择特征将特征选择视为搜索问题算法内部执行特征选择•卡方检验•前向选择•Lasso正则化•相关系数•后向消除•树模型特征重要性•信息增益•递归特征消除•注意力机制时间序列分析统推荐系混合推荐结合多种推荐方法习深度学推荐自动学习特征表示阵矩分解分解用户-物品交互矩阵协过滤同4基于用户或物品相似性基于内容匹配物品与用户特征语处础自然言理基文本预处理•分词与分句•去停用词•词形还原•词干提取词袋模型•词频统计•N-gram•TF-IDF权重词嵌入技术•Word2Vec•GloVe•上下文表示应用案例•情感分析•文本分类•命名实体识别计视觉础算机基图预处1像理滤波、增强、变换2特征提取边缘检测、HOG、SIFT积经络3卷神网卷积、池化、全连接层标检测目定位与分类物体强习础化学基马尔过应领可夫决策程Q-learning策略梯度用域状态、动作、奖励、转移概率价值函数学习最优策略直接优化策略函数游戏AI、机器人控制、资源调度监习半督学方法问题应场背景主要方法用景大量无标签数据自训练用模型预测生成伪标签图像分类少量标记数据标签传播利用数据相似性传递标签文本分类标记成本高昂生成式方法使用生成模型学习数据分布医疗诊断异常检测习伦机器学理隐数据私算法公平个人隐私保护避免偏见与歧视匿名化技术平衡不同群体利益安全存储与处理公平性度量标准责释社会任可解性评估长期社会影响理解模型决策过程3算法问责制黑盒模型解释方法伦理准则与监管可视化决策依据电务案例研究子商推荐问题定义个性化商品推荐提高转化率与用户满意度数据处理用户行为日志商品信息提取交互矩阵构建模型实现协同过滤基线矩阵分解优化深度学习推荐模型评估与部署离线评估与在线A/B测试实时推荐系统架构疗诊案例研究医断医学数据特点高维度、稀疏、不平衡、多模态隐规私与合HIPAA法规、患者同意、匿名化选择模型可解释性、高精度、稳健性临评床估敏感性、特异性、医生协作风险预测案例研究金融95%87%
3.5%贷偿还诈检测风险款率欺下降模型预测正常还款客户准确率异常交易识别准确率应用模型后信用风险降低比例类别释金融数据特点不平衡模型解时间序列性质、高噪声、多源数据欺诈与违约案例少,需特殊采样技术监管合规性要求模型可解释规习大模机器学计处分布式算大数据理模型与数据并行硬件加速Hadoop、Spark框架流处理与批处理技术水平与垂直扩展策略GPU、TPU专用处理器习机器学模型部署模型序列化保存训练好的模型参数发API开构建RESTful接口提供预测服务容器化Docker封装确保环境一致性扩部署与展云服务部署,负载均衡监控与更新性能监控,模型版本管理习项机器学目流程问题义定数据收集明确目标与评估指标获取、清洗、探索数据监验证部署与控建模与投入生产,持续优化选择算法,训练评估模型术AutoML工具与技类别功能代表工具特征工程自动提取与选择特征Featuretools超参数调优自动搜索最优参数Hyperopt模型选择自动比较多种模型Auto-sklearn端到端平台全流程自动化H2O AutoML习发机器学前沿展联习邦学保护隐私的分布式学习监习自督学无需标签学习数据表示习元学学习如何学习,快速适应新任务图经络神网处理图结构数据的深度学习习资进阶学源与路径书课码实籍与程代与社区践路径经典教材与在线学习平台开源项目与交流平台技能进阶建议•《机器学习》周志华•GitHub优质项目•构建个人项目•《深度学习》花书•Kaggle竞赛平台•参与开源贡献•Coursera、edX课程•学术会议论文•专注特定领域课总结程与展望顾核心概念回机器学习基础理论与方法术发技展前景人工智能与机器学习未来趋势续习持学保持知识更新与技能提升实议践建从小项目开始,逐步构建完整作品集。
个人认证
优秀文档
获得点赞 0