还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
深度学习教学课件目录深度学习简介了解深度学习的基本概念、历史发展及其与传统机器学习的区别神经网络基础掌握人工神经元模型、多层感知机与反向传播算法经典网络结构深入理解CNN、RNN与Transformer等经典架构优化与正则化学习优化算法、超参数调优与防止过拟合的技术进阶模型与技术探索GAN、VAE、自监督学习与模型压缩加速应用案例与实战实践计算机视觉、自然语言处理与语音技术未来趋势与挑战第一章深度学习简介什么是深度学习?深度学习发展里程碑深度学习是机器学习的一个分支,专注于使用深层神经网络模拟人脑结构来学习数据表示它是实现人工智能的核心技术之一,能够自动从大量数据中学习特征,无需人工特征工程与传统机器学习相比,深度学习自动提取特征,减少人工干预•层次化学习复杂表示•端到端训练,性能随数据和模型规模增长•适应非结构化数据(图像、音频、文本等)•主要贡献者反向传播算法、深度置信网络、胶囊网络Geoffrey Hinton卷积神经网络先驱,开发者Yann LeCunLeNet循环神经网络、注意力机制、生成模型研究Yoshua Bengio三人因在深度学习领域的开创性贡献,共同获得年图灵奖2018深度学习为何崛起?算力提升和专用芯片使大规模并行计算成为可能GPU系列从到专业到专•NVIDIA GPUGTX TeslaAI大数据用系列A互联网时代带来海量数据,为深度学习提供充足•TPU(张量处理单元)谷歌设计的AI芯片的训练素材具体表现分布式训练技术多机多卡协同计算•图像数据集从到超大规模网络爬•ImageNet算法突破取数据文本语料库维基百科、等关键算法创新解决了训练难题•Common Crawl•用户行为数据点击、浏览、购买等•激活函数ReLU解决梯度消失批归一化加速训练、提高稳定性•残差连接实现超深网络训练•注意力机制突破序列模型瓶颈•竞赛中的里程碑时刻ImageNet年,团队的以显著优势赢得图像分类竞赛,将错误率从降至,标志着深度学习时代的正式到来这一突破迅速推动深度学习2012Hinton AlexNetImageNet
26.2%
15.3%在语音识别、机器翻译、自动驾驶等领域的革命性应用第二章神经网络基础人工神经元模型常用激活函数人工神经元是神经网络的基本计算单元,模拟生物神经元的结构与功能Sigmoid•输入(x₁,x₂,...,xₙ)来自其他神经元的信号σx=1/1+e^-x•权重(w₁,w₂,...,wₙ)表示输入的重要性•偏置(b)调整激活阈值特点输出范围0,1,早期常用,但存在饱和问题导致梯度消失•加权和z=w₁x₁+w₂x₂+...+wₙxₙ+b•激活函数fz,引入非线性变换Tanhtanhx=e^x-e^-x/e^x+e^-x特点输出范围-1,1,零中心化,但仍有饱和问题ReLUReLUx=max0,x特点计算简单,缓解梯度消失,但存在死亡ReLU问题多层感知机()MLP由输入层、一个或多个隐藏层和输出层组成,每层神经元与下一层全连接,是最基本的深度学习架构反向传播算法详解反向传播原理反向传播是训练神经网络的核心算法,通过链式法则计算损失函数对各层参数的梯度,并逐层更新权重整个过程分为两个阶段前向传播计算损失输入数据从输入层经过各隐藏层传递到输出层,计算预测值每层计算a^l=fW^l·a^l-1+b^l,其中a是激活值,W是权重矩阵,b是偏置向量,f将预测值与真实标签比较,计算损失函数值L常用的损失函数包括均方误差(回归问题)和交叉熵损失(分类问题)是激活函数反向传播误差参数更新计算损失函数对输出层的梯度,然后利用链式法则逐层向后传播,得到各层参数的梯度δ^l=W^l+1^T·δ^l+1⊙fz^l,其中δ表示误差项,⊙根据计算得到的梯度和学习率η更新网络参数W^l=W^l-η·∂L/∂W^l,b^l=b^l-η·∂L/∂b^l学习率控制参数更新的步长,是重要的超参数为元素wise乘法Python实现示例#简化的反向传播实现def backward_passX,y,weights,biases,activations,z_values:m=X.shape
[0]num_layers=lenweights+1#初始化梯度存储dW=[np.zeros_likew forw inweights]db=[np.zeros_likeb forb inbiases]#输出层误差delta=activations[-1]-y#假设使用均方误差#反向传播for lin reversedrangenum_layers-1:dW[l]=1/m*np.dotactivations[l].T,delta db[l]=1/m*np.sumdelta,axis=0,keepdims=True ifl0:#非输入层delta=np.dotdelta,weights[l].T*relu_derivativez_values[l]return dW,db第三章经典网络结构卷积神经网络()CNNCNN核心组件卷积层使用卷积核提取局部特征,参数共享减少计算量池化层下采样减小特征图尺寸,提高计算效率并增强平移不变性全连接层将特征映射到分类空间卷积运算的数学表达对于2D卷积,输出特征图计算方式其中I是输入,K是卷积核,k是卷积核大小经典CNN架构演进LeNet-519981Yann LeCun设计,用于手写数字识别,奠定CNN基础2AlexNet2012首次在ImageNet竞赛中证明深度CNN的强大能力,使用ReLU、VGG20143Dropout和GPU训练使用重复的3×3卷积堆叠构建深层网络,结构简洁统一循环神经网络()与变种RNN标准RNN结构门控循环单元(GRU)循环神经网络专为处理序列数据设计,通过循环连接保持记忆状态GRU是LSTM的简化版本,合并了部分门控机制,减少参数量但保持性能•基本计算单元h_t=fW_x·x_t+W_h·h_{t-1}+b更新门控制前一时刻信息的保留程度•其中h_t是t时刻的隐藏状态,x_t是输入,W_x和W_h是权重矩阵重置门控制忽略前一状态的程度•可以捕捉序列中的时间依赖关系•计算效率更高,适合资源受限场景•适用于文本、语音、时间序列等数据RNN家族应用实例然而,标准RNN存在长期依赖问题,难以捕捉远距离关系,这导致了LSTM和GRU的出现文本生成长短期记忆网络(LSTM)字符级或词级语言模型,逐步预测下一个单元LSTM通过精心设计的门控机制解决梯度消失问题应用智能写作助手、自动补全、诗歌创作遗忘门决定丢弃哪些信息输入门决定存储哪些新信息输出门决定输出哪些信息机器翻译细胞状态信息的长期载体,解决长依赖问题编码器-解码器架构,序列到序列转换应用在线翻译工具、多语言助手语音识别音频特征序列转文本,通常结合CTC损失应用语音助手、会议记录、字幕生成时间序列预测捕捉时序模式进行未来预测应用股票预测、天气预报、用电量分析与自注意力机制Transformer自注意力机制原理自注意力是Transformer的核心创新,计算序列中每个位置与所有位置的关联强度,实现并行计算并捕捉全局依赖查询、键、值变换注意力分数计算加权和输出输入序列X通过三个不同的线性变换得到查询矩阵Q、键矩阵K和值矩阵V Q=计算Q与K的点积并进行缩放AttentionQ,K,V=softmaxQK^T/√d_k·V,其注意力权重与值矩阵V相乘得到加权后的表示,捕捉了不同位置间的关系XW_Q,K=XW_K,V=XW_V中d_k是键向量的维度Transformer架构解析编码器结构解码器结构多头自注意力并行计算多组注意力,捕捉不同方面的依赖关系掩码自注意力防止看到未来信息前馈神经网络两层全连接网络处理注意力输出编码器-解码器注意力关注输入序列的相关部分残差连接促进梯度流动,稳定训练•其余组件与编码器类似层归一化加速训练并提高稳定性基于Transformer的预训练模型位置编码注入位置信息,弥补自注意力的位置盲点BERT双向编码器表示,掩码语言模型预训练,适合理解类任务GPT系列生成式预训练模型,自回归语言模型,适合生成类任务T5文本到文本迁移学习,统一框架处理各类NLP任务第四章优化与正则化梯度消失与爆炸优化算法对比在深度神经网络训练中,梯度在反向传播过程中可能会指数级减小(消失)或增大(爆炸),导致训练困难原因分析•深层网络中的链式求导乘法效应•不当的权重初始化(过大或过小)•饱和激活函数(如sigmoid、tanh)的导数特性•RNN中长序列反向传播的累积效应解决方案合理初始化Xavier/Glorot、He初始化等非饱和激活函数ReLU及其变体残差连接创建梯度的快捷路径批归一化控制每层的分布梯度裁剪限制梯度范数,防止爆炸LSTM/GRU专门设计的门控机制随机梯度下降SGD直接使用小批量梯度更新,容易陷入局部最小值,收敛慢但泛化性好动量法引入动量项,累积历史梯度,加速收敛并克服局部最小值超参数调优技巧关键超参数超参数搜索方法学习率最重要的超参数,影响收敛速度和稳定性网格搜索批大小影响训练速度、内存需求和泛化性网络深度层数,影响表示能力和训练难度对每个超参数设定一组离散值,尝试所有组合优点是彻底,缺点是计算量随维度指数增长网络宽度每层单元数,影响模型容量正则化强度如dropout率、权重衰减系数随机搜索优化器参数如动量系数、Adam的β参数学习率策略从参数空间随机采样,资源相同情况下通常比网格搜索更高效,尤其是当只有少数参数重要时学习率衰减随着训练进行逐步降低学习率,常见方法贝叶斯优化•阶梯式衰减每隔固定epochs降低一次建立超参数与性能的概率模型,利用历史结果指导下一步•指数衰减lr=lr₀·e^-kt搜索,适合计算资源有限的情况•余弦退火周期性变化,最终收敛到小值进化算法学习率预热Warm-up模拟生物进化过程,通过交叉、变异等操作搜索最优参数从小学习率开始,逐渐增大到目标值,然后再采用衰减策略特别组合,适合复杂参数空间适合大批量训练和Transformer模型,避免早期不稳定实用经验分享•先大范围对数尺度搜索,再在有希望的区域细化•优先调整学习率和批大小,影响最大•使用早停策略Early Stopping节省资源•记录详细实验日志,分析参数敏感性•考虑参数间的交互效应,如学习率与批大小•建立自动化调参流程,使用Ray Tune等工具第五章进阶模型与技术生成对抗网络()GANGAN变种与应用风格迁移CycleGAN、StyleGAN图像风格转换,照片写实化人脸生成PGGAN、StyleGAN高清人脸合成,属性编辑艺术创作BigGAN、DALL-E文本到图像生成,创意内容制作医学图像GAN基本原理医学数据合成、跨模态转换、图像增强GAN由生成器Generator和判别器Discriminator两个网络组成,通过对抗训练学习数据分布自编码器与变分自编码器生成器将随机噪声转换为合成数据,目标是生成逼真样本自编码器AE是一种无监督学习模型,学习数据的压缩表示判别器区分真实数据和生成数据,目标是准确识别编码器将输入压缩为低维潜在表示训练过程两网络互相博弈,生成器努力欺骗判别器,判别器努力正确分类解码器从潜在表示重建输入理想状态判别器无法区分真假样本,准确率为50%应用降维、特征学习、去噪GAN的数学目标函数变分自编码器VAE在自编码器基础上引入概率框架•将潜在空间建模为概率分布,通常是高斯分布•使用重参数化技巧实现可微分采样•损失函数包含重建误差和KL散度正则项•生成能力更强,潜在空间更有结构深度强化学习简介深度强化学习结合深度学习和强化学习,通过神经网络近似值函数或策略函数,解决复杂的序列决策问题代表算法包括DQN、PPO、SAC等,在游戏AI、机器人控制、推荐系统等领域取得突破性进展自监督学习与迁移学习自监督学习迁移学习迁移学习利用已有知识解决新问题,适合标注数据有限的场景特征提取冻结预训练网络前几层,仅训练新添加的分类层适合目标任务与源任务相似度高且数据量小的情况微调从预训练模型开始,用较小学习率更新全部或部分参数通常使用不同的学习率策略,浅层小学习率,深层大学习率域适应解决源域和目标域分布不同的问题,如使用对抗训练减小域差异适合跨域场景,如从模拟数据迁移到真实数据BERT迁移到下游任务案例自监督学习是一种利用数据内在结构设计预训练任务的学习范式,无需人工标注核心思想•从数据本身自动生成监督信号•通过解决代理任务Pretext Tasks学习通用表示•学到的表示可迁移到下游任务常见代理任务计算机视觉图像旋转预测、拼图重组、色彩化、对比学习自然语言处理掩码语言模型、下一句预测、句子排序多模态图文匹配、音频-视频对齐网络压缩与加速模型压缩技术12剪枝Pruning量化Quantization移除模型中不重要的连接或神经元,减少参数量和计算量降低权重和激活值的精度,如从32位浮点减少到8位整数权重剪枝移除绝对值小的权重,得到稀疏矩阵训练后量化直接将训练好的浮点模型转为低精度结构化剪枝移除整个卷积核或通道,直接减少计算量量化感知训练训练过程中模拟量化效果动态剪枝根据输入动态决定激活哪些通道混合精度量化不同层使用不同位宽实际效果可减少70-90%参数量,几乎不损失精度优势4倍内存减少,2-4倍推理加速,硬件友好3知识蒸馏Distillation将大模型教师的知识迁移到小模型学生响应蒸馏学习教师模型的软标签(概率分布)特征蒸馏学习中间层特征表示关系蒸馏学习样本间的关系典型应用BERT→DistilBERT参数减少40%,速度提升60%,保留97%性能模型部署实用技巧推理优化框架移动端优化案例ONNX开放神经网络交换格式,跨框架兼容某图像分类应用从ResNet50模型优化到移动端TensorRT NVIDIA GPU优化推理引擎
1.架构优化ResNet50→MobileNetV3,FLOPs减少10倍TFLite移动设备轻量级推理
2.知识蒸馏使用原模型指导训练,提高2%精度OpenVINO IntelCPU/GPU优化
3.量化FP32→INT8,大小减少75%,速度提升3倍ncnn/MNN移动端高性能推理
4.算子融合合并BN和卷积,减少中间结果存储内存优化
5.硬件加速利用NPU/DSP加速特定算子
6.缓存管理重用激活内存,减少分配开销•梯度检查点Gradient Checkpointing•模型并行/流水线并行最终结果模型大小从98MB减至7MB,推理时间从300ms降至15ms,精度损失仅•混合精度训练/推理
1.2%•激活值重计算第六章应用案例与实战深度学习主要应用领域计算机视觉自然语言处理语音技术图像分类识别图像类别,如ResNet、EfficientNet文本分类情感分析、主题分类、垃圾邮件过滤语音识别音频转文本,如Whisper、科大讯飞目标检测定位并分类物体,如YOLO、Faster R-CNN机器翻译跨语言转换,如Google翻译语音合成文本转语音,如WaveNet、FastSpeech图像分割像素级分类,如U-Net、Mask R-CNN问答系统理解问题并生成答案,如ChatGPT声纹识别基于声音特征识别说话者人脸识别特征提取与匹配,如FaceNet、ArcFace文本摘要提取关键信息,生成概要情感识别分析语音中的情绪状态图像生成合成新图像,如Diffusion Models、GANs命名实体识别识别文本中的人名、地名等专有名词异常声音检测监测机器故障、安全威胁等行业应用实例医疗健康金融科技•医学影像诊断(肺炎、肿瘤检测)•智能交易与风控系统•药物发现与分子设计•欺诈检测与异常交易识别•病历分析与疾病预测•客户服务与智能投顾制造业智慧城市•产品缺陷检测与分类•智能交通管理•设备预测性维护•城市规划与能源优化•供应链优化•安全监控与人群管理实战演示用构建分类器PyTorch CNN
1.数据预处理与加载
2.模型定义import torchimport torchvisionimport torchvision.transforms astransforms#定义数据变换transform=import torch.nn asnnimport torch.nn.functional asFclass SimpleCNNnn.Module:def__init__self:superSimpleCNN,transforms.Compose[transforms.Resize224,224,transforms.ToTensor,transforms.Normalize
0.5,
0.5,
0.5,
0.5,self.__init__self.conv1=nn.Conv2d3,32,3,padding=1self.conv2=nn.Conv2d32,64,3,padding=
10.5,
0.5]#加载CIFAR-10数据集trainset=torchvision.datasets.CIFAR10root=./data,train=True,download=True,self.conv3=nn.Conv2d64,128,3,padding=1self.pool=nn.MaxPool2d2,2self.fc1=nn.Linear128*28*28,transform=transformtrainloader=torch.utils.data.DataLoader trainset,batch_size=64,shuffle=True,num_workers=2testset512self.fc2=nn.Linear512,10self.dropout=nn.Dropout
0.2def forwardself,x:#卷积=torchvision.datasets.CIFAR10root=./data,train=False,download=True,transform=transformtestloader=块1x=F.reluself.conv1x x=self.poolx#卷积块2x=F.reluself.conv2x xtorch.utils.data.DataLoader testset,batch_size=64,shuffle=False,num_workers=2classes=飞机,汽车,鸟,猫,鹿,=s elf.poolx#卷积块3x=F.reluself.conv3x#全连接层x=x.view-1,128*狗,青蛙,马,船,卡车28*28x=F.reluself.fc1x x=self.dropoutx x=self.fc2x returnxmodel=SimpleCNNdevice=torch.devicecuda:0if torch.cuda.is_available elsecpumodel.todevice
3.训练过程
4.评估与结果分析importtorch.optim asoptimcriterion=nn.CrossEntropyLossoptimizer=optim.Adammodel.parameters,lr=
0.001#训练循环#在测试集上评估correct=0total=0class_correct=list
0.for iin range10class_total=list
0.for iin range10withnum_epochs=10for epochin rangenum_epochs:running_loss=
0.0for i,data inenumeratetrainloader,0:torch.no_grad:for datain testloader:images,labels=data
[0].todevice,data
[1].todevice outputs=inputs,labels=data
[0].todevice,data
[1].todevice#梯度清零optimizer.zero_grad#modelimages_,predicted=torch.maxoutputs,1total+=labels.size0correct+=predicted==前向传播、计算损失、反向传播、参数更新outputs=modelinputs loss=criterionoutputs,labels labels.sum.item#计算每个类别的准确率c=predicted==labels.squeeze for i inloss.backward optimizer.step#输出统计信息running_loss+=loss.item ifi%100==rangelabels.size0:label=labels[i]class_correct[label]+=c[i].item99:printf[{epoch+1},{i+1}]损失:{running_loss/100:.3f}running_loss=
0.0print训练完成class_total[label]+=1#输出总体准确率printf测试集准确率:{100*correct/total:.2f}%#输出每个类别的准确率foriinrange10:printf{classes[i]}的准确率:{100*class_correct[i]/class_total[i]:.2f}%#混淆矩阵可视化(需要sklearn和matplotlib)from sklearn.metrics importconfusion_matriximport matplotlib.pyplot aspltimport numpyas np#收集所有预测和真实标签all_preds=[]all_labels=[]with torch.no_grad:for datain testloader:images,labels=data
[0].todevice,data
[1].todevice outputs=modelimages_,predicted=torch.maxoutputs,1all_preds.extendpredicted.cpu.numpy all_labels.extendlabels.cpu.numpy#绘制混淆矩阵cm=confusion_matrixall_labels,all_predsplt.figurefigsize=10,8plt.imshowcm,interpolation=nearest,cmap=plt.cm.Bluesplt.title混淆矩阵plt.colorbarplt.xticksnp.arange10,classes,rotation=45plt.yticksnp.arange10,classesplt.tight_layoutplt.ylabel真实标签plt.xlabel预测标签plt.savefigconfusion_matrix.png深度学习项目开发流程
1.问题定义与需求分析•明确业务目标与技术目标•定义问题类型(分类、回归、生成等)•确定评估指标(准确率、F
1、BLEU等)•设定成功标准与预期收益
2.数据收集与标注•数据源确定(公开数据集、爬虫、用户贡献等)•数据标注方案设计(标注规范、质量控制)•标注工具选择或开发(手工标注、众包平台)•数据隐私合规与伦理考量数据质量决定模型上限,投入足够资源保证高质量数据
3.数据预处理与特征工程•数据清洗(缺失值、异常值处理)•数据变换(归一化、标准化)•数据增强(图像旋转、裁剪、文本回译等)•特征提取(根据领域知识设计特征)•训练集、验证集、测试集划分
4.模型选择与训练•建立基线模型(简单但可靠)•对比不同架构(考虑效果与计算成本)•超参数调优(网格搜索、贝叶斯优化)•实验跟踪与版本控制(MLflow、DVC等)•分布式训练(多机多卡)
5.模型评估与分析•多指标全面评估(准确性、速度、资源消耗)•错误分析(识别模型弱点和改进方向)•A/B测试(与现有方案对比)•可解释性分析(理解模型决策)•鲁棒性测试(对抗样本、噪声测试)
6.模型优化与部署•模型压缩(剪枝、量化、蒸馏)•推理优化(ONNX、TensorRT等)深度学习中的伦理与安全模型偏见与公平性问题对抗攻击与防御策略深度学习模型容易从训练数据中学习并放大社会中已有的偏见,导致对特定群体的歧视对抗攻击是指通过精心设计的微小扰动,使深度学习模型产生错误预测数据偏见训练数据中的代表性不平衡或历史偏见白盒攻击攻击者完全了解模型结构和参数算法偏见算法设计中的假设或优化目标导致的偏见黑盒攻击仅通过查询接口进行攻击评估偏见评估指标不能反映公平性要求物理攻击在现实世界中的对抗样本,如贴纸解决方案防御方法•数据多样化与平衡采样•对抗训练将对抗样本纳入训练过程•公平性约束的训练目标•输入净化预处理移除对抗扰动•后处理校正(如分组阈值调整)•模型集成多模型投票减少被攻击风险•多样化团队建设,减少盲点•随机化引入随机性降低攻击成功率•公平性指标的明确定义与监控•检测机制识别并拒绝对抗样本隐私保护与数据安全案例人脸识别中的性别和种族偏见深度学习模型可能泄露训练数据中的敏感信息或个人隐私研究发现多个商业人脸识别系统对深肤色女性的错误率显著高于浅肤色男性,差异可达10倍以上这些问题源于训练数据中的历史偏见和代表性不足,强调了数据多样性的重要性成员推断攻击判断特定样本是否在训练集中模型逆向从模型中重建训练数据模型窃取通过黑盒查询复制模型功能隐私保护技术•差分隐私添加噪声保护个体数据•联邦学习数据本地训练,仅共享梯度•安全多方计算在加密状态下计算•同态加密对加密数据进行计算负责任的AI开发原则透明度包容性清晰说明模型能力与局限,不夸大性能,提供适当的可解释性确保AI系统对不同人群公平有效,积极考虑多元化需求问责制安全可靠第七章未来趋势与挑战大规模预训练模型趋势多模态学习与跨领域融合未来模型将无缝整合文本、图像、音频、视频等多种模态信息视觉-语言模型CLIP、Flamingo等理解图文关系多模态生成DALL-E、Stable Diffusion实现文本到图像转换视频理解时空特征提取,行为识别与描述跨模态翻译在不同表示形式间转换,如图像描述、音乐可视化预训练模型规模持续增长,从最初的BERT
3.4亿参数到GPT-
41.76万亿参数,带来性能质的飞跃涌现能力超大规模模型展现出未经专门训练的新能力少样本学习通过提示工程解决新任务,无需大量标注数据通用基础模型一个模型适配多种下游任务挑战与解决方向•计算成本与能耗问题•训练稳定性与收敛性•高效微调方法(如LoRA、P-tuning)•开源与商业模型的竞争可解释AI研究方向随着AI应用扩展到高风险领域,可解释性变得越来越重要内在可解释模型从设计上使模型可解释,如注意力可视化事后解释方法LIME、SHAP等解释黑盒模型决策概念归因将预测关联到人类可理解的概念因果推断理解模型中的因果关系,而非简单相关性业界热点与生成式ChatGPT AIChatGPT技术原理生成式AI应用场景大规模预训练编程助手基于Transformer架构,使用海量互联网文本训练GPT基础模型,学习语言模式和知识代码生成、调试、解释与重构,GitHub Copilot等产品大幅提升开发效率指令微调RLHF医疗健康通过人类反馈的强化学习RLHF,使模型对齐人类偏好和价值观辅助诊断、医学文献分析、药物研发、医患沟通改进上下文学习无需再训练,通过对话上下文学习用户意图,完成复杂任务教育培训个性化学习助手、内容创建、自动评分、语言学习ChatGPT的核心优势在于将强大的语言理解与生成能力与指令遵循和上下文理解相结合,创造出更自然、更有用的交互体验最新的GPT-4已经具备多模态能力,可以理解图像并生成文本客户服务智能客服、个性化推荐、内容审核、数据分析创意内容文案创作、图像生成、视频制作、游戏设计科学研究文献综述、实验设计、数据分析、假设生成最新行业动态亿亿亿17601+$120070%GPT-4参数量ChatGPT用户数2023年AI投资企业采用率据估计,GPT-4模型参数量接近
1.76万亿,是GPT-3的8倍成为史上增长最快的消费应用,两个月内达到1亿用户生成式AI领域风险投资总额,创历史新高企业表示已经或计划在未来一年内采用生成式AI生成式AI正在催生新的商业模式和职业角色,如提示工程师、AI内容策略师等同时,监管机构也在加快制定相关政策,平衡创新与风险中国在大模型领域快速追赶,百度文心一言、阿里通义千问等产品展现出强大潜力深度学习学习资源推荐经典教材与书籍《深度学习》《机器学习实战》《动手学深度学习》作者Ian Goodfellow,Yoshua Bengio,Aaron Courville作者Aurélien Géron作者Aston Zhang,Zachary C.Lipton,Mu Li,Alex J.Smola特点被誉为深度学习圣经,系统全面介绍深度学习理论基础与算法,侧重数学原理,适合有一定基础的特点平衡理论与实践,包含大量代码示例,使用Scikit-Learn和TensorFlow/Keras,适合边学边做特点中英双语开源教材,结合理论与代码实践,提供PyTorch和MXNet/TensorFlow实现读者更新定期更新以跟进最新技术发展,是入门与进阶的优秀选择在线版https://zh.d2l.ai,内容持续更新中文版有高质量中文翻译版本,并有在线免费版本在线课程与视频教程吴恩达深度学习专项课程李宏毅机器学习课程平台Coursera平台YouTube和Bilibili特点系统入门课程,讲解清晰,适合初学者特点生动有趣,深入浅出,涵盖前沿内容内容神经网络基础、CNN、RNN、优化技巧等资源https://github.com/datawhalechina/leedl-tutorialFast.ai实用深度学习CS231n计算机视觉平台fast.ai网站平台Stanford在线特点自上而下教学法,先应用后理论特点计算机视觉深度学习经典课程适合希望快速实现项目的实践者内容图像分类、目标检测、生成模型等代码实践与开源工具主流深度学习框架模型训练与实验管理工具实验跟踪MLflow实验跟踪、模型注册与部署的统一平台PyTorchWeightsBiases可视化实验跟踪与协作工具Facebook开发的动态计算图框架,API直观友好,学术研究首选TensorBoard训练过程可视化与调试优势动态计算图,调试方便,接口Pythonic分布式训练生态HuggingFace、torchvision、PyTorch Lightning适合研究人员、快速原型开发、教学场景Horovod简化分布式深度学习的框架DeepSpeed Microsoft开发的大规模模型训练优化库PyTorch DDPPyTorch原生分布式数据并行超参数优化TensorFlowGoogle开发的静态计算图框架,企业级部署成熟,生态完善Optuna自动超参数优化框架Ray Tune分布式超参数调优库优势生产环境优化,跨平台部署工具丰富Hyperopt贝叶斯优化工具组件Keras、TensorFlow.js、TFLite、TensorBoard适合大规模工业应用、移动端部署GitHub优质项目推荐#PyTorch实现的各种深度学习模型集合github.com/pytorch/examples#计算机视觉经典模型实现github.com/pytorch/vision#自然语言处理Transformer模型库github.com/huggingface/transformers#深度学习面试题与学习资源github.com/amusi/Deep-Learning-Interview-Book#中文自然语言处理资源库github.com/fighting41love/funNLP#强化学习算法实现github.com/openai/baselines#图神经网络库github.com/dmlc/dgl#JAX推荐系统实现github.com/microsoft/recommenders#深度学习入门实例github.com/tensorflow/models#生成式AI工具包github.com/stability-AI/stablediffusionGoogle研究院开发的高性能数值计算库,兼具NumPy便利性和XLA加速优势自动微分、JIT编译、并行处理生态Flax、Haiku、Optax适合高性能科学计算、强化学习研究特定领域框架与工具HuggingFace TransformersNLP预训练模型库,简化使用与微调Detectron2Facebook的目标检测与分割框架MMDetection商汤科技开源的检测工具箱FastAI高级API,快速实现深度学习应用PaddlePaddle百度开源深度学习平台,中文资源丰富课程小结核心理论基础神经网络原理、反向传播、激活函数、损失函数经典网络架构CNN、RNN、LSTM、Transformer及其变种优化与正则化3梯度下降变种、批归一化、Dropout、权重衰减进阶模型与技术GAN、VAE、自监督学习、迁移学习、知识蒸馏实际应用领域计算机视觉、自然语言处理、语音技术、强化学习理论与实践结合的重要性深度学习是一门实践性极强的学科,仅有理论知识而不动手实践很难真正掌握本课程强调以下几点持续学习与社区参与理解原理不仅知道怎么做,更要理解为什么这样做深度学习领域发展迅速,持续学习至关重要动手实现从零实现核心算法,深入理解内部机制关注学术会议CVPR、NeurIPS、ICLR、ACL等顶会论文实验验证通过对比实验验证理论,培养直觉订阅技术博客Google AI、OpenAI、BAIR博客等解决问题将学到的知识应用到实际问题参与开源项目贡献代码,提问讨论阅读论文追踪前沿,理解研究思路加入学习社区Kaggle、AI研习社、机器之心等建议按照理论学习→代码实现→项目实践→前沿探索的路径循序渐进,不断巩固和拓展知识体系实践项目参加比赛,解决实际问题学习建议建立自己的知识体系和项目集合对感兴趣的方向深入研究,建立专业积累同时保持广度,了解其他领域的发展,寻找交叉创新的机会与同行交流分享,相互促进从这里开始你的深度学习之旅希望本课程为你打开深度学习的大门,帮助你建立系统的知识框架记住,在这个领域,好奇心、坚持和实践是最重要的品质祝愿你在深度学习的探索中不断成长,创造令人惊叹的应用!互动环节讨论你最感兴趣的深度学习应用领域?请思考以下问题,并准备分享你的看法技术兴趣应用场景学习挑战•在课程介绍的众多技术中,哪些最吸引你?为什么?•你所在行业或感兴趣的领域有哪些深度学习应用场景?•在学习深度学习过程中,你遇到的最大挑战是什么?•你认为哪些技术在未来五年最有发展潜力?•你能想到哪些尚未被充分开发的应用方向?•你使用过哪些学习资源?哪些最有帮助?•你最想深入学习的方向是什么?•你希望解决什么实际问题?•你的学习目标是什么?研究、工程实现还是应用?常见问题解答QA入门学习路径硬件需求问没有机器学习基础,如何开始学习深度学习?问学习深度学习需要什么样的硬件配置?答建议先了解基础机器学习概念,然后学习Python和NumPy,接着通过吴恩达的深度学习课程答入门阶段可以使用Google Colab等云平台,无需特殊硬件进阶后,推荐配备NVIDIAGPU入门,同时跟随《动手学深度学习》实践循序渐进,不急于一步到位(如RTX系列)的电脑大型项目可考虑云GPU服务,如AWS、阿里云等就业前景小数据训练问深度学习工程师的就业前景如何?需要哪些技能?问没有大量数据如何应用深度学习?答就业前景广阔,尤其在科技、金融、医疗等行业核心技能包括扎实的编程能力、深度学习答可以采用数据增强、迁移学习、半监督学习、自监督学习等技术预训练模型+微调是处理小理论基础、实际项目经验、良好的数学能力,以及领域专业知识数据集的有效方法另外,合成数据也是一个可行选项我们将在课后留出充分时间回答更多问题,也欢迎通过邮件或在线讨论区继续交流附录数学基础回顾1线性代数基础概率论与统计线性代数是深度学习的数学基石,核心概念包括概率论为不确定性建模,统计学帮助分析数据标量、向量、矩阵、张量深度学习中的基本数据结构概率分布伯努利、高斯、多项分布等矩阵运算加减乘法、转置、逆矩阵期望、方差、协方差描述随机变量特性范数衡量向量大小的方法,如L
1、L2范数贝叶斯定理条件概率与先验/后验概念特征值与特征向量理解主成分分析等算法的基础极大似然估计统计模型参数估计方法奇异值分解SVD矩阵分解方法,用于降维信息论熵、KL散度、互信息在深度学习中,矩阵运算是最频繁的操作,理解批量处理和广播机制至关重要其中W是权重矩阵,a是激活值,b是偏置向量,z是线性输出微积分与优化基础深度学习本质上是一个优化问题导数与梯度函数变化率,优化的指南针链式法则复合函数求导,反向传播的基础偏导数多变量函数对单变量的导数梯度下降沿梯度反方向优化参数牛顿法利用二阶导数加速收敛拉格朗日乘数法带约束的优化问题实用数学技巧梯度计算矩阵运算优化附录常用激活函数与损失函数2常用激活函数对比ReLU LeakyReLU ELU指数线性单元GELU公式fx=max0,x公式fx=maxαx,x,其中α通常为
0.01公式fx=x ifx0elseαe^x-1公式fx=x·Φx,Φ为标准正态分布的累积分布函数优点计算简单,缓解梯度消失,促进稀疏表示优点解决了ReLU的死亡神经元问题,保留了负值信息优点对负值有平滑的激活,减轻梯度消失,均值更接近0优点平滑非线性,表现优于ReLU,更符合生物神经元特性缺点会产生死亡ReLU问题,即神经元永久性失活缺点引入了额外的超参数α,需要调整缺点计算指数函数成本较高,训练时间可能增加缺点计算相对复杂应用卷积神经网络中最常用的激活函数,适合深层网络应用需要避免神经元死亡的场景,如生成对抗网络应用需要更好收敛性和避免偏移效应的场景应用Transformer模型中广泛使用,如BERT、GPT等常用损失函数详解均方误差MSE交叉熵损失适用回归问题适用分类问题特点对异常值敏感,训练可能不稳定特点收敛快,对不确定性建模良好优化鼓励预测值接近真实值,惩罚较大误差变体二元交叉熵、分类交叉熵、带权重交叉熵Huber损失Focal Loss附录深度学习常见问题解答3训练不收敛问题症状损失不下降或波动剧烈症状训练损失下降但验证损失不变症状训练初期损失无变化原因学习率过高、梯度爆炸、数据质量差原因模型容量不足、学习率过低、陷入局部最小值原因初始化不当、学习率过低、梯度消失解决方案解决方案解决方案•降低学习率或使用学习率调度器•增加模型复杂度(更多层或更多单元)•使用合适的权重初始化方法(He、Xavier等)•应用梯度裁剪Gradient Clipping•尝试更高的学习率或动量优化器•增大学习率或批大小•检查数据预处理和标签质量•使用学习率预热后再衰减•检查激活函数(避免使用纯Sigmoid等)•尝试不同的优化器,如Adam替代SGD•检查是否存在数据泄露或分布偏移•添加批归一化层缓解梯度消失如何避免过拟合?过拟合是深度学习中的常见问题,表现为模型在训练集上表现优秀但在测试集上表现不佳以下是有效的应对策略数据增强1通过转换生成更多训练样本,提高泛化能力•图像旋转、缩放、裁剪、翻转、色彩变换2正则化技术•文本同义词替换、回译、句法变换约束模型复杂度,防止过度拟合训练数据•音频添加噪声、时间伸缩、音调变化•L1/L2正则化惩罚大权重,促进权重稀疏或小值模型简化3•Dropout随机关闭神经元,防止共适应控制模型复杂度,寻找最适合数据的结构•早停Early Stopping监控验证性能,及时停止训练•减少层数或神经元数量•共享参数(如卷积操作)•剪枝移除不重要的连接或特征参考文献与资料经典教材与书籍基础理论实践指南•Goodfellow,I.,Bengio,Y.,Courville,A.
2016.《深度学习》.MIT Press.张沐等.
2021.《动手学深度学习》.https://zh.d2l.ai•周志华.
2016.《机器学习》.清华大学出版社.•Géron,A.
2019.《机器学习实战:基于Scikit-Learn、Keras和TensorFlow》第二版.人民邮电出版社.•王琦等.
2024.《深度学习详解》.人民邮电出版社.•Chollet,F.
2018.《Python深度学习》.人民邮电出版社.•李航.
2019.《统计学习方法》第二版.清华大学出版社.•陈云.
2019.《PyTorch深度学习实践》.电子工业出版社.•张皓等.
2022.《深度学习:算法与应用》.电子工业出版社.•何之源.
2023.《深度学习原理与PyTorch实战》.电子工业出版社.领域专著计算机视觉强化学习•贾佳亚等.
2020.《计算机视觉算法与应用》.电子工业出版社.•Sutton,R.S.,Barto,A.G.
2019.《强化学习简介》第二版.电子工业出版社.•刘少山、蒋冠谊.
2021.《深度学习之计算机视觉》.电子工业出版社.•周志华等.
2021.《强化学习原理、算法与应用》.科学出版社.•高翔等.
2019.《视觉SLAM十四讲》.电子工业出版社.•白晓颖等.
2020.《深度强化学习基础、算法与应用》.清华大学出版社.自然语言处理生成模型•车万翔等.
2020.《自然语言处理基于预训练模型的方法》.清华大学出版社.•赵丹宁等.
2022.《生成对抗网络理论与实践》.电子工业出版社.•刘知远.
2022.《大规模语言模型原理、技术与应用》.电子工业出版社.•何恺明等.
2023.《生成式AI从原理到应用》.人民邮电出版社.•邱锡鹏.
2020.《神经网络与深度学习》.机械工业出版社.•张家俊.
2023.《扩散模型原理与实战》.机械工业出版社.重要论文与开源项目CNN经典论文Transformer系列•Krizhevsky etal.
2012.ImageNet Classificationwith DeepConvolutional NeuralNetworks.•Vaswani etal.
2017.Attention IsAll YouNeed.•SimonyanZisserman.
2014.Very DeepConvolutional Networksfor Large-Scale Image Recognition.•Devlin etal.
2019.BERT:Pre-training ofDeep BidirectionalTransformers forLanguage Understanding.•He etal.
2016.Deep ResidualLearning forImageRecognition.•Brown etal.
2020.Language Modelsare Few-Shot Learners.开源项目https://github.com/pytorch/vision开源项目https://github.com/huggingface/transformers生成模型优化与训练•Goodfellow etal.
2014.Generative AdversarialNets.•IoffeSzegedy.
2015.Batch Normalization:Accelerating DeepNetwork Trainingby ReducingInternal CovariateShift.•KingmaWelling.
2014.Auto-Encoding VariationalBayes.•KingmaBa.
2015.Adam:A Methodfor StochasticOptimization.•Ho etal.
2020.Denoising DiffusionProbabilistic Models.•LoshchilovHutter.
2017.Decoupled WeightDecay Regularization.开源项目https://github.com/CompVis/stable-diffusion开源项目https://github.com/pytorch/pytorch以上参考资料包括学术著作、实践指南和原始研究论文,涵盖深度学习的各个方面建议根据个人兴趣和需求有选择地深入阅读,结合代码实践加深理解致谢衷心感谢本课程的编写和完善离不开众多专家学者和开源社区的贡献在此,我们向以下个人和组织表示诚挚的感谢学术先驱中文教育资源贡献者•Geoffrey Hinton教授及其团队在深度学习基础理论方面的开创性工作•李宏毅教授提供的深入浅出的中文深度学习教程和视频•Yann LeCun教授在卷积神经网络领域的杰出贡献•张沐团队开发的《动手学深度学习》开源教材及其中文版本•Yoshua Bengio教授在循环神经网络和注意力机制研究中的重要突破•王琦教授及其团队在《深度学习详解》中的系统性讲解•李飞飞教授及其团队在计算机视觉和大规模数据集建设方面的贡献•周志华教授在机器学习和深度学习教育方面的贡献•邱锡鹏教授的《神经网络与深度学习》教材开源社区与平台开源框架团队特别感谢•PyTorch团队提供的直观灵活的深度学习框架感谢所有参与课程反馈和改进的学生和同行,你们的建议使得本课程不断完善感谢开源社区的贡献•TensorFlow团队的全栈机器学习平台者们无私分享代码和知识,推动了深度学习技术的普及和发展•HuggingFace团队简化NLP模型应用的杰出工作同时,我们也要感谢所有投身于人工智能研究和教育的工作者,正是你们的努力,使深度学习这一前•FastAI团队的实用深度学习库和教程沿技术能够被更多人理解和应用,为科技进步和社会发展带来新的可能教育平台•Coursera、edX等在线教育平台推广深度学习知识如果说我看得更远,那是因为我站在巨人的肩膀上•AI研习社、机器之心等中文AI社区—艾萨克·牛顿•GitHub提供的代码托管与合作平台我们承诺将继续改进和更新本课程内容,跟进领域最新发展,为深度学习教育贡献一份力量结束语深度学习人工智能的核心驱动力在本课程中,我们系统地探索了深度学习的理论基础、经典模型、优化技术以及前沿应用从基本的神经网络到复杂的未来展望Transformer架构,从计算机视觉到自然语言处理,深度学习已经深刻改变了人工智能的发展路径深度学习的未来充满无限可能作为人工智能的核心驱动力,深度学习正在以前所未有的速度推动技术革新•模型将更加高效,减少能源消耗,实现绿色AI•大规模预训练模型展现出惊人的能力,使AI系统能够理解和生成人类语言•自监督学习将进一步减少对大量标注数据的依赖•计算机视觉系统实现了超人类水平的识别准确率,为医疗诊断、自动驾驶等领域带来突破•可解释性研究将使AI决策更加透明可信•多模态学习将不同感知信息整合,使AI更全面地理解世界•AI与领域专业知识的深度融合将解决更复杂的实际问题•生成式AI创造出前所未有的内容,从艺术创作到科学发现•人机协作将创造全新的工作方式和生产力工具这些进步不仅是技术上的飞跃,更代表着人类认知能力的延伸与增强深度学习正在重塑我们与技术交互的方式,创造同时,我们也面临着伦理、安全和社会影响等方面的挑战负责任的AI发展需要技术创新与人文关怀并重,需要我们思新的可能性考技术如何服务人类福祉,如何确保公平、包容与可持续发展持续学习的重要性在这个快速发展的领域,持续学习是保持竞争力的关键建立扎实的基础知识,保持对新技术的好奇心,勇于实践并从错误中学习,将帮助你在深度学习的旅程中不断成长我们的使命持续探索,勇于实践,未来无限可能!深度学习不仅是一项技术,更是一种探索未知的方法论希望本课程能为你打开认知的新视角,激发创新的灵感,并在这个充满可能的领域中找到自己的方向无论你是研究者、工程师、学生还是对AI充满好奇的探索者,都欢迎加入这场人工智能的伟大冒险让我们一起见证并参与塑造AI驱动的未来!©2024深度学习教学团队|本课件内容会定期更新,以反映领域最新进展。
个人认证
优秀文档
获得点赞 0