还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
随机现象与数据分析概率论入门概率论探索随机现象规律,助您掌握数据分析基础课程导入生活中的随机现象概率论的重要性从天气变化到交通拥堵科学决策的数学基础数据分析的初识从随机性中提取确定性日常实例概率无处不在天气预测准确率彩票中奖概率疫情流行趋势气象预报运用概率模型中奖几率的数学计算数据预测传播路径学习本课程的意义科学决策能力提升基于概率分析做出合理判断增强数据思维培养统计性思考方式实用性与应用性广在各行各业中的广泛应用概率论发展简史世纪赌博问题16概率理论起源于赌博分析帕斯卡、费马等人贡献通信研究奠定理论基础世纪概率论正式体系化20科尔莫戈罗夫公理化方法课程内容总览概率基本知识掌握核心计算方法随机现象概念理解不确定性的基础数据处理与初步分析实用统计分析技巧什么是随机现象?结果不可预知与确定性现象对比实验前无法确定具体结果确定性固定条件下结果唯一只能描述可能性大小随机性结果具有不确定性典型例子举例抛硬币、掷骰子、股票涨跌随机试验概念释义投骰子、抛硬币案例可重复进行的随机现象观察典型随机试验实例结果不确定但有稳定规律多次重复呈现概率规律条件与性质可在相同条件下重复结果集合可穷举单次结果不可预测样本空间定义所有可能结果的集骰子样本空间硬币样本空间合Ω={1,2,3,4,5,6}Ω={正面,反面}通常用符号Ω表示基本事件与事件样本点(基本事件)不可再分的单一结果事件样本空间的子集复杂事件多个基本事件的组合事件的关系运算并事件(A∪B)A或B至少一个发生交事件(A∩B)A和B同时发生补事件(A)A不发生的事件事件间的相互独立与互斥互斥事件独立事件不能同时发生互不影响A∩B=∅PA∩B=PAPB例骰子掷出奇数与偶数例两次抛硬币结果概率的初步概念概率的含义常用符号介绍事件发生可能性的度量PA表示事件A的概率概率的区间范围0≤PA≤1,必然事件P=1古典概率定义公式PA=m/nm为有利事件数,n为总事件数等可能性假设每个基本事件发生概率相等应用场景掷骰子、抽扑克牌等等可能性问题频率与概率的联系统计概率大量试验进行足够多次的随机试验记录频率计算事件发生的相对频率频率稳定观察频率收敛的稳定值估计概率以稳定频率作为概率估计主观概率简介风险评估中的概率专家经验判断例子基于个人经验和判断医生诊断概率判断没有客观频率依据商业决策风险评估应用领域非重复性事件评估贝叶斯统计方法基础概率的基本性质非负性PA≥0归一性PΩ=1加法法则PA∪B=PA+PB-PA∩B互斥事件加法PA∪B=PA+PB,若A∩B=∅概率的单调性若A⊂B,则PA≤PB加法公式互斥事件的概率PA∪B=PA+PB事件不能同时发生非互斥事件的概率PA∪B=PA+PB-PA∩B减去重复计算部分多事件并集概率PA∪B∪C=PA+PB+PC-PA∩B-PA∩C-PB∩C+PA∩B∩C交替加减原则乘法公式独立事件非独立事件PA∩B=PA×PB PA∩B=PA×PB|A事件之间互不影响考虑条件概率影响条件概率PA|B PA∩B/PB条件概率公式计算方法已知B发生下A的概率PB0时有定义≠PB|A非对称性方向不可随意互换全概率公式最终结果1PA=∑PB₁PA|B₁事件分解思想通过完备事件组计算完备事件组B₁,B₂,...,B互斥且和为Ωₙ贝叶斯公式随机变量及概率分布随机变量定义离散型随机变量样本空间到实数集的映射可数有限或无限个值用X、Y、Z等字母表示如抛硬币次数、骰子点数连续型随机变量取值为区间内任意值如身高、体重、时间离散型随机变量连续型随机变量概率密度函数(pdf)fx描述概率分布的密度Pa≤X≤b=∫[a,b]fxdx,表示X落在区间[a,b]的概率正态分布呈钟形曲线,在数据分析中应用广泛常用离散分布二项分布泊松分布n次独立重复试验稀有事件概率每次成功概率为p X~PλX~Bn,p PX=k=e^-λλ^k/k!PX=k=Cn,kp^k1-p^n-kλ为单位时间/空间内平均发生次数常用连续分布正态分布均匀分布指数分布X~Nμ,σ²,μ为均值,σ²为方差X~Ua,b,区间[a,b]上概率密度相等X~Expλ,描述等待时间分布函数的性质定义Fx=PX≤x单调递增性若x₁极限性质limx→-∞Fx=0,limx→+∞Fx=1连续性连续型变量的Fx为连续函数数学期望EX∑xᵢpxᵢ期望符号离散型计算随机变量的平均值加权平均数∫xfxdx连续型计算积分形式通俗解释物理中的重心思想,描述分布的中心位置实际应用投资回报预期、保险精算、游戏设计方差与标准差方差定义计算公式VarX=E[X-EX²]VarX=EX²-[EX]²2物理意义标准差描述数据分散程度σ=√VarX协方差与相关系数数据的收集与整理数据类型分类数据收集方法定量数据可测量的数值调查问卷、实验、观察定性数据描述特征的类别抽样技术、大数据抓取数据清洗基础处理缺失值、异常值数据转换与标准化描述性统计量平均数数据集的算术平均值中位数排序后的中间位置值众数出现频率最高的数值极差最大值与最小值之差四分位数Q₁25%、Q₂50%、Q₃75%划分组距与频数分布表分数区间频数频率累计频率60-
7050.
100.1070-
80120.
240.3480-
90200.
400.7490-
100130.
261.00分组原则组数选择、组距确定、边界值处理表格应用快速掌握数据分布特征直方图的绘制饼图与条形图饼图条形图堆积条形图展示部分与整体关系比较不同类别的数量显示总量及构成集中趋势度量算术平均数公式x̄=x₁+x₂+...+x/nₙ加权平均数x̄=w₁x₁+w₂x₂+...+w x/w₁+w₂+...+wₙₙₙ中位数排序后的中间位置值,能克服极端值影响离散趋势度量方差与标准差极差度量数据离散程度的标准指标最大值与最小值之间的差距四分位差变异系数Q₃-Q₁,剔除极端值的范围度量CV=σ/μ,标准差与均值的比值正态分布在数据分析中的作用自然现象普遍性身高、体重等生物特征符合正态分布中心极限定理大量独立变量之和近似服从正态分布统计推断基础参数估计与假设检验的理论基础典型偏差类型数据偏移离群值解析正偏均值中位数远离主体数据点负偏均值中位数可能是错误或特殊意义处理方法剔除或变换概率分布与数据拟合数据收集绘制直方图获取样本数据观察数据形状拟合优度检验选择理论分布卡方检验等方法正态、泊松等分布相关分析回归分析初步一元线性回归方程y=a+bx最小二乘法确定系数使残差平方和最小预测实际问题广告支出与销售额、学习时间与考试成绩概率图解法概率数轴韦恩图表示树状图方法0-1之间的直观表示事件关系的集合表示条件概率与序贯事件算法与概率模拟随机数生成计算机模拟随机过程大量重复试验模拟上万次随机事件统计结果计算频率作为概率估计验证理论比较模拟结果与理论值常见概率问题与解题策略计数类问题独立事件概率排列组合计算方法乘法法则直接应用条件概率问题贝叶斯问题基于已知信息求概率逆向概率推理方法期望值计算分布应用问题加权平均思想应用特定分布性质利用高频易错点总结概率陷阱常见错误正确思路赌徒谬误认为连续不利事件后独立事件每次概率不会回归平衡变基数忽略忽略先验概率大小贝叶斯公式考虑先验概率直觉与真实差异生日悖论低估重复概1-不重复概率的补概率率计算条件概率混淆PA|B与PB|A混淆明确条件与被求事件拓展阅读与实践建议推荐书目编程实践实际项目•《概率论与数理统•Python概率模拟•市场调查数据分析计》陈希孺•R语言数据分析•学生成绩数据解读•《漫画统计学》•Excel概率计算•金融风险评估模型•《统计学的世界》课程总结与答疑学以致用将概率思维融入日常决策知识连贯概率是统计学与数据科学基础核心内容随机现象、概率计算、数据分析。
个人认证
优秀文档
获得点赞 0