还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习人工智能技术的核心驱动力课程介绍基础概念1神经网络结构与原理主要模型2CNN、RNN、Transformer等前沿技术3GAN、强化学习、联邦学习实践应用4模型优化与部署方法什么是深度学习?机器学习分支多层神经网络端到端学习人工智能领域的核心技术通过多层结构学习数据表示从原始输入到期望输出的直接映射深度学习的发展历史年1943McCulloch-Pitts神经元模型提出年1958Rosenblatt提出感知机年1986反向传播算法应用于神经网络年2012AlexNet赢得ImageNet竞赛深度学习与传统机器学习的区别特征提取数据规模计算资源模型复杂度自动学习特征需大量数据训练要求高性能硬件参数数量更多深度学习的应用领域自然语言处理计算机视觉机器翻译、情感分析2图像识别、物体检测1语音识别3语音助手、转录服务5自动驾驶4医疗诊断环境感知、路径规划疾病预测、医学影像分析神经网络基础1生物神经元启发模拟人脑神经元信息传递方式2连接权重表示神经元间连接的强弱3层级结构输入层、隐藏层、输出层组成4非线性变换通过激活函数引入非线性能力人工神经元模型输入信号权重加权求和接收来自其他神经元调节输入信号的重要计算所有输入的加权的信号性总和激活函数引入非线性,决定是否激活激活函数函数函数函数Sigmoid TanhReLU将输出压缩到0,1区间将输出压缩到-1,1区间max0,x,解决梯度消失问题前馈神经网络输入层接收原始数据隐藏层执行特征转换与抽象输出层产生最终预测结果反向传播算法前向传播计算误差1计算网络输出比较预测与真实值2更新权重反向传播误差43根据梯度调整参数计算每层的梯度损失函数衡量模型预测与真实值的差距均方误差MSE、交叉熵损失、铰链损失、Huber损失优化算法梯度下降计算当前梯度1损失函数对参数的导数确定下降方向2沿梯度的负方向移动更新参数3θ_new=θ_old-η∇Jθ批量梯度下降随机梯度下降vs批量梯度下降使用全部训练数据更新稳定精确小批量梯度下降使用数据子集平衡效率与稳定性随机梯度下降每次只用一个样本更新快但噪声大学习率调整策略1固定学习率全程使用相同学习率2学习率衰减随着训练进行逐渐减小3学习率预热从小到大再到小4周期性学习率在最小值和最大值间循环变化过拟合与欠拟合欠拟合良好拟合过拟合模型过于简单,无法捕捉数据模式模型复杂度适中,泛化能力强模型过于复杂,记住了训练噪声正则化方法L1正则化添加权重绝对值惩罚项L2正则化添加权重平方和惩罚项早停法在验证误差开始上升时停止训练数据增强通过变换扩充训练数据技术Dropout训练阶段效果测试阶段随机关闭一定比例的神经元防止神经元共适应,提高泛化能力使用所有神经元但缩放权重批归一化标准化缩放平移加速收敛将激活值标准化为均通过可学习参数和减轻内部协变量偏移γβ值0方差1调整分布问题正则化效果引入噪声提高泛化能力卷积神经网络()概述CNN局部感受野权重共享1每个神经元只关注局部区域同一特征图使用相同的卷积核2层次特征学习空间下采样43从简单到复杂的特征表示通过池化减少特征尺寸的基本组成部分CNN1卷积层提取局部特征模式2池化层降低空间维度,提取显著特征3激活函数层引入非线性变换4全连接层将特征映射到类别空间卷积层卷积核滑动滤波器在输入上移动点积运算计算滤波器与输入的点积特征图生成形成检测特定模式的特征图池化层全局池化最大池化对整个特征图操作平均池化保留区域最大值计算区域平均值全连接层功能结构将特征图转换为固定长度特征每个神经元连接到前一层所有向量神经元位置通常位于CNN网络末端经典架构CNN LeNet-5提出时间11998年由Yann LeCun提出结构2两个卷积层和三个全连接层应用3手写数字识别特点4首个成功应用的CNN架构经典架构CNN AlexNet2012提出年份8网络层数60M参数数量
16.4%Top-5错误率由Hinton团队开发,首次在ImageNet竞赛中战胜传统方法使用ReLU激活函数、Dropout和GPU训练经典架构CNN VGGNet设计理念1使用更深的网络结构基本构建块23×3卷积核和2×2池化层网络深度316-19层经典架构CNN GoogLeNet模块Inception1多尺度特征提取深度增加222层网络结构参数优化3比AlexNet参数少12倍经典架构CNN ResNet超深网络残差连接残差块突破152层深度解决深层网络退化问Fx+x结构题性能ImageNet错误率降至
3.57%循环神经网络()概述RNN序列处理专为处理序列数据设计状态记忆保持历史信息的隐藏状态参数共享在各时间步使用相同参数应用领域自然语言处理、语音识别、时序预测的基本结构RNN输入层接收当前时间步输入隐藏层结合当前输入和上一状态输出层产生当前时间步预测长短期记忆网络()LSTM遗忘门、输入门、输出门和单元状态有效解决RNN梯度消失问题,捕获长期依赖门控循环单元()GRU更新门重置门简化结构控制前一隐藏状态信息保留量控制忽略前一隐藏状态程度比LSTM参数更少,训练更快双向RNN后向RNN2处理从右到左的序列前向RNN1处理从左到右的序列合并表示结合双向信息3注意力机制1核心思想选择性关注输入的相关部分2注意力权重计算查询与键的相似度3加权上下文根据权重聚合值向量4类型加性注意力、点积注意力、多头注意力模型Transformer残差连接与层归一化前馈网络稳定训练过程多头注意力对注意力输出进行非线性变自注意力机制并行注意力学习不同特征换计算序列内元素的关联模型BERT架构1基于Transformer编码器预训练任务2掩码语言模型和下句预测双向编码3同时考虑左右上下文应用4问答系统、文本分类、命名实体识别模型GPT架构基于Transformer解码器训练方式自回归语言模型预训练单向编码只考虑左侧上下文应用文本生成、对话系统、内容创作生成对抗网络()概述GAN判别器学习区分真实与生成样本生成器学习产生逼真样本两个网络相互博弈,不断提升生成质量的基本原理GAN生成样本判别样本1G将随机噪声转换为合成数据D评估样本的真实程度2更新生成器更新判别器43提高G欺骗D的能力提高D的分类准确率经典架构GANDCGAN WGANStyleGAN使用卷积层的GAN改进稳定性的Wasserstein GAN控制生成图像风格的GAN条件GAN基本思想引入条件信息控制生成过程条件输入类别标签、文本描述或图像网络结构在G和D中都加入条件信息应用类别控制图像生成、文本到图像转换循环GAN无配对数据双向转换循环一致性不需要一一对应的训练样本两个域之间的互相转换保证转换后可还原原样本强化学习基础智能体环境动作学习决策的实体智能体交互的世界智能体可执行的操作奖励评价动作好坏的信号深度强化学习传统RL缺点深度RL优势应用领域难以处理高维状态空间使用神经网络自动提取特征游戏AI、机器人控制、自动驾驶学习与深度网络()Q QDQN通过神经网络近似Q值函数使用经验回放和目标网络稳定训练策略梯度方法1直接优化直接学习动作策略2参数化策略使用神经网络表示策略函数3目标函数最大化期望累积奖励4梯度估计使用蒙特卡洛采样估计梯度方法Actor-CriticCritic网络优势函数学习值函数,评估动作减少梯度估计方差Actor网络联合优化学习策略函数,选择动作同时更新两个网络2314迁移学习源任务已有大量标注数据的任务预训练在源任务上学习通用特征微调在目标任务上调整模型学习few-shot少量样本度量学习元学习原型网络每类仅几个训练样本学习样本间相似度度量学会如何学习的能力基于类别原型进行分类自监督学习核心思想预训练任务优势应用从数据本身创建监督信号掩码预测、上下文预测、充分利用大量无标签数据BERT、SimCLR、MAE等模对比学习型联邦学习模型协作1共享模型而非数据隐私保护2数据留在本地设备分布式训练3多设备共同优化模型深度学习模型压缩剪枝量化移除非重要连接或神经元降低参数精度知识蒸馏低秩分解小模型学习大模型知识分解权重矩阵为低秩表示模型量化模型大小MB推理速度ms精度损失%降低参数精度,减小模型体积,提高推理速度知识蒸馏教师模型1大型预训练模型提供软标签蒸馏过程2学生模型学习教师输出分布损失函数3硬标签损失与软标签损失结合结果4小模型获得接近大模型的性能神经网络架构搜索()NAS搜索策略2探索搜索空间的方法搜索空间1定义可能的网络结构集合性能估计评估候选架构的性能3深度学习的可解释性1黑盒问题2归因方法3模型蒸馏4可解释架构深度模型决策过程难以理解,限制在关键领域应用特征可视化、显著图、LIME、SHAP等方法提高透明度深度学习的伦理问题1数据偏见模型继承训练数据中的社会偏见2隐私问题模型可能泄露训练数据信息3安全风险对抗样本攻击和模型投毒4责任归属AI系统决策错误的责任划分深度学习的未来发展方向多模态学习整合文本、图像、语音等多种模态神经符号结合融合神经网络与符号推理高效计算降低能耗的硬件和算法科学发现AI辅助药物发现、材料设计等科研工作总结与展望技术进步1深度学习引领AI快速发展应用广泛2改变众多行业和日常生活面临挑战3解释性、泛化性、数据效率未来方向4与各学科交叉融合创新。
个人认证
优秀文档
获得点赞 0