还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《定量分析方法教学》本课件旨在系统地介绍定量分析方法,涵盖从基本概念到高级应用,旨在帮助学习者掌握数据分析的核心技能,并能熟练运用相关软件进行实际操作通过本课程的学习,你将能够运用定量分析方法解决实际问题,为你的学术研究和职业发展提供有力支持课程简介为何学习定量分析?提升决策能力解决复杂问题增强竞争力定量分析提供客观的数据支持,帮助我面对日益复杂的社会和经济现象,传统在竞争激烈的职场中,掌握定量分析技们摆脱主观臆断,做出更明智的决策的分析方法往往显得力不从心定量分能能够让你脱颖而出无论是在学术研通过数据分析,我们可以更清晰地了解析能够处理大量数据,揭示隐藏在数据究还是在商业实践中,定量分析都是一问题的本质,从而制定更有效的解决方背后的规律,从而帮助我们解决复杂问项重要的工具熟练运用定量分析方法案例如,在市场营销中,可以通过定题比如,在金融领域,可以通过定量,能够让你更好地理解数据,从而为企量分析了解消费者行为,从而制定更精分析预测市场风险,从而进行更合理的业创造更大的价值准的营销策略投资定量分析的应用领域经济学1在经济学中,定量分析被广泛应用于经济模型的构建、经济预测和政策评估等方面例如,利用回归分析预测GDP增长,利用时间序列分析研究通货膨胀等金融学2金融学是定量分析应用最为广泛的领域之一无论是投资组合管理、风险管理还是金融衍生品定价,都离不开定量分析例如,利用蒙特卡洛模拟进行期权定价,利用VaR模型进行风险评估等市场营销3在市场营销中,定量分析可以帮助企业了解消费者行为、评估营销效果、制定营销策略等例如,利用聚类分析进行客户细分,利用回归分析评估广告效果等管理学4管理学也广泛应用定量分析方法,例如在运营管理中优化生产计划,在供应链管理中降低库存成本,在人力资源管理中评估员工绩效等定量分析的核心概念数据模型分析数据是定量分析的基础,模型是对现实世界的抽象分析是利用模型和数据进所有分析都基于数据数,通过数学公式或算法来行推断和预测的过程分据可以是数字、文本、图描述变量之间的关系模析方法包括描述性统计、像等多种形式数据的质型的选择取决于问题的性推断性统计、回归分析、量直接影响分析结果的准质和数据的特点时间序列分析等确性结果结果是分析的输出,可以用于决策、预测和评估结果的解释和应用需要结合实际情况进行数据的类型和测量尺度数据类型测量尺度特点例子数值型定距尺度可以进行加温度、身高减运算数值型定比尺度可以进行乘收入、体重除运算分类型定类尺度只能进行分性别、颜色类分类型定序尺度可以进行排满意度、等序级描述性统计集中趋势均值所有数据的平均值,反映数据的中心位置容易受到极端值的影响中位数将数据排序后位于中间位置的值,不受极端值的影响更稳健的中心趋势指标众数数据中出现次数最多的值,反映数据的集中程度可以用于分类型数据描述性统计离散程度方差标准差极差数据偏离均值的程度,反映数据的方差的平方根,反映数据的波动性最大值与最小值之差,反映数据的波动性单位与原始数据不同单位与原始数据相同,更易于解波动范围简单易懂,但容易受到释极端值的影响描述性统计分布形状偏度峰度反映数据分布的对称性正偏表示数据向右偏斜,负偏表示反映数据分布的尖峭程度高表示数据集中在均值附Kurtosis数据向左偏斜近,低表示数据分散Kurtosis概率论基础概率的概念概率的定义概率是事件发生的可能性大小的度量取值范围为到之间概率越01大,事件发生的可能性越大概率的性质概率具有非负性、规范性和可加性等性质这些性质是概率计算的基础概率的类型概率分为主观概率和客观概率客观概率可以通过实验或历史数据获得,主观概率是个人对事件发生的可能性的判断概率论基础概率的计算加法法则1用于计算互斥事件的并集的概率如果事件和事件互斥A B,则∪PA B=PA+PB乘法法则2用于计算独立事件的交集的概率如果事件和事件独立A B,则PA∩B=PA*PB条件概率3在事件发生的条件下,事件发生的概率B APA|B=PA∩B/PB随机变量离散型随机变量概率分布定义描述随机变量取每个值的概率常用1取值只能是有限个或可数无限个的随的表示方法有概率质量函数和累积分机变量2布函数方差期望值4随机变量偏离期望值的程度,反映随随机变量的平均值,反映随机变量的3机变量的波动性VarX=∑x-EX^2*中心位置EX=∑x*PxPx随机变量连续型随机变量定义取值可以是某个区间内的任意值的随机变量1概率密度函数2描述随机变量在某个点附近的概率密度积分可以得到随机变量在某个区间内的概率累积分布函数3描述随机变量小于或等于某个值的概率Fx=PX≤x常见概率分布二项分布适用场景概率质量函数期望值和方差描述次独立重复试验中成功的次数其,期望n PX=k=Cn,k*p^k*1-p^n-k EX=n*p VarX=n*p*1-p每次试验只有成功和失败两种结果,且中,表示从个中选取个的组合值表示次试验中平均成功的次数,方Cn,k nk n成功的概率相同数,表示每次试验成功的概率差表示成功的次数的波动性p常见概率分布泊松分布适用场景概率质量函数描述单位时间内或单位面积内其中PX=k=λ^k*e^-λ/k!随机事件发生的次数例如,,表示单位时间内或单位面积λ某段时间内发生的交通事故次内事件发生的平均次数数,某个区域内发现的缺陷产品数量等期望值和方差,泊松分布的期望值和方差相等EX=λVarX=λ常见概率分布正态分布适用场景描述自然界和社会科学中普遍存在的连续型随机变量例如,身高、体重、考试成绩等概率密度函数其中,表示fx=1/σ*√2π*e^-x-μ^2/2*σ^2μ均值,表示标准差σ性质正态分布具有对称性、单峰性和钟形等特点均值、中位数和众数相等的数据位于均值正负一个标准差范围68%内,的数据位于均值正负两个标准差范围内95%抽样分布样本均值的抽样分布定义从总体中随机抽取若干个样本,每个样本计算一个均值,所有样本均值组成的分布称为样本均值的抽样分布性质如果总体服从正态分布,则样本均值的抽样分布也服从正态分布如果总体不服从正态分布,当样本容量足够大时,样本均值的抽样分布近似服从正态分布(中心极限定理)期望值和方差样本均值的抽样分布的期望值等于总体均值样本均值的抽样分布的方差等于总体方差除以样本容量抽样分布中心极限定理随机抽样大样本容量近似正态分布从任何总体中进行随机抽样样本容量足够大(通常)样本均值的抽样分布近似服从正态分布n≥30,与总体分布无关参数估计点估计常用点估计量样本均值估计总体均值,样本比例估计总体比例,样本方差估计总体方差2定义1评价标准用样本统计量的值作为总体参数的估计值无偏性、有效性和一致性无偏性指估计值的期望值等于总体参数有效性指估计值的方差较小一致性指随3着样本容量的增加,估计值越来越接近总体参数参数估计区间估计定义用一个区间来估计总体参数的取值范围区间估计比点估计提供的信息更多1置信水平2表示区间估计的可靠程度常用的置信水平有、和90%95%99%计算公式3区间估计=点估计±边际误差边际误差与置信水平、样本容量和总体标准差有关假设检验基本原理提出假设选择检验统计量确定显著性水平做出决策提出原假设和备择假设原根据问题的性质和数据的特显著性水平是拒绝原假设的计算检验统计量的值,如p假设是研究者想要推翻的假点选择合适的检验统计量概率常用的显著性水平有果值小于显著性水平,则p设,备择假设是研究者想要常用的检验统计量有统计、和拒绝原假设,否则接受原假t
0.
010.
050.10支持的假设量、统计量和卡方统计量设F假设检验假设的提出原假设()备择假设()H0H1通常是一个关于总体参数的陈与原假设对立的陈述,研究者述,研究者试图推翻它例如希望通过证据来支持它例如,总体均值等于某个值,两个,总体均值不等于某个值,两总体均值相等个总体均值不相等单尾检验和双尾检验根据备择假设的方向选择单尾检验或双尾检验如果备择假设是大“于或小于,则选择单尾检验;如果备择假设是不等于,则选择双”“”“”尾检验假设检验检验统计量的选择检验目的检验统计量适用条件检验总体均值统计量总体标准差未知,样本容量较小()t n30检验总体均值统计量总体标准差已知或样本容量较大()z n≥30检验总体方差卡方统计量总体服从正态分布检验两个总体均值是否相等统计量两个总体标准差未知且相等,样本容量较小t假设检验显著性水平定义拒绝原假设的最大概率,通常用表示常用的显著性水平α有、和越小,拒绝原假设的条件越苛刻
0.
010.
050.10α第一类错误原假设为真,但被拒绝的错误,也称为弃真错误发生第一类错误的概率等于显著性水平α第二类错误原假设为假,但未被拒绝的错误,也称为取伪错误发生第二类错误的概率用表示β假设检验单尾检验和双尾检验双尾检验备择假设是总体参数不等于某个值例如,,H0μ=0H1μ≠0检验统计量的值是两侧尾部面积之和p左尾检验备择假设是总体参数小于某个值例如,,H0μ=0H1μ0检验统计量的值是左侧尾部面积p右尾检验备择假设是总体参数大于某个值例如,,H0μ=0H1μ检验统计量的值是右侧尾部面积0p检验单样本检验t t适用场景假设检验一个样本的均值是否与已知的总样本均值等于总体均值,样H0H11体均值存在显著差异总体标准差未本均值不等于总体均值(双尾检验)2知,样本容量较小或大于小于总体均值(单尾检验)/决策检验统计量4根据统计量的值和显著性水平做出样本均值总体均值样本标准差t pt=-/3决策如果值小于显著性水平,则拒样本容量统计量服从自由度为p/√t n-绝原假设的分布1t检验独立样本检验t t适用场景检验两个独立样本的均值是否存在显著差异两个样本来自不同的总体1假设2H0两个总体均值相等,H1两个总体均值不相等(双尾检验)或大于小于(单尾检验)/检验统计量3t=样本均值1-样本均值2/√s^2*1/n1+1/n2其中,s^2是两个样本的合并方差检验配对样本检验t t适用场景假设检验统计量检验两个配对样本的均值是否存在显著两个总体的均值差异为,两平均差异差异的标准差样本容H00H1t=//√差异两个样本来自同一个总体的不同个总体的均值差异不为(双尾检验)量0时间点,或者来自配对的个体或大于小于(单尾检验)/0方差分析基本原理目的原理检验两个或多个总体的均值是通过分析总变异的来源,判断否存在显著差异与检验不同不同总体之间的差异是否显著t,方差分析可以同时比较多个总变异分解为组间变异和组总体的均值内变异如果组间变异远大于组内变异,则认为总体均值存在显著差异假设所有总体均值相等,至少有一个总体均值与其他总体均值不H0H1相等方差分析单因素方差分析适用场景检验一个因素的不同水平对因变量的影响是否存在显著差异例如,不同品牌的广告对销售额的影响统计量F组间均方组内均方统计量服从自由度为F=/F k-1,n-k的分布,其中是水平数,是样本容量F kn决策如果统计量的值小于显著性水平,则拒绝原假设,认为F p该因素的不同水平对因变量的影响存在显著差异方差分析多重比较原因如果在方差分析中拒绝了原假设,则需要进行多重比较,以确定哪些总体之间的均值存在显著差异方法常用的多重比较方法有、、和等不同LSD BonferroniTukey Scheffe的方法有不同的适用条件和检验效力目的控制第一类错误的概率由于进行了多次比较,如果不进行调整,则第一类错误的概率会增大相关分析相关系数目的相关系数相关系Pearson Spearman数描述两个变量之间线用于描述两个连续变性关系的强度和方向量之间的线性关系用于描述两个排序变取值范围为到表量之间的关系,或者-111示完全正相关,表两个变量之间存在非-1示完全负相关,表示线性关系的情况也0没有线性关系称为等级相关系数相关分析相关系数的显著性检验目的假设检验样本相关系数是否显著异于如01总体相关系数等于,总体H00H1果相关系数不显著,则认为两个变量2相关系数不等于0之间没有线性关系决策检验统计量4如果统计量的值小于显著性水平,t p统计量服从t=r*√n-2/√1-r^2t3则拒绝原假设,认为两个变量之间存自由度为的分布n-2t在显著的线性关系回归分析简单线性回归目的建立一个线性模型,描述一个自变量如何影响一个因变量1模型2y=β0+β1*x+ε其中,y是因变量,x是自变量,β0是截距,β1是斜率,是随机误差ε最小二乘法3通过最小化残差平方和来估计回归系数β0和β1残差是实际值与预测值之间的差异回归分析回归方程的估计截距()斜率()估计方法β0β1当自变量等于时,因变量的预测值自变量每增加一个单位,因变量的平通常使用最小二乘法来估计回归系数x0y x y在实际应用中,截距的解释可能没有均变化量斜率的正负表示变量之间的通过最小化残差平方和,找到最佳的回意义关系方向归方程回归分析回归系数的显著性检验目的假设检验自变量对因变量的影响,检验xyH0β1=0H1β1≠0是否显著如果回归系数不显斜率是否显著异于0著,则认为自变量对因变量没有影响检验统计量统计量服从自由度为的分布,其中是斜率的估t=b1/SEb1t n-2t b1计值,是斜率的标准误差SEb1回归分析判定系数定义表示回归方程对因变量的解释程度取值范围为到值01越大,表示回归方程的拟合程度越高计算公式其中,是回归平方和,表示回归方程R^2=SSR/SST SSR解释的变异;是总平方和,表示因变量的总变异SST解释表示自变量能够解释因变量的百分比例如,R^2R^2=
0.8表示自变量能够解释因变量的变异80%回归分析残差分析目的检验回归模型的假设是否成立,例如,残差是否服从正态分布,残差是否具有同方差性等方法绘制残差散点图、残差直方图和图等通过观察图形的形状Q-Q,判断残差是否满足模型的假设意义如果残差不满足模型的假设,则需要对模型进行修正,例如,进行变量转换、添加交互项等多元回归分析基本原理多个自变量线性关系最小二乘法多元回归分析涉及多假设因变量与自变量使用最小二乘法估计个自变量,用于预测之间存在线性关系回归系数,以最小化一个因变量残差平方和多元回归分析变量选择目的方法从多个自变量中选择对因变量影响最常用的变量选择方法有逐步回归、向1显著的变量,构建一个简洁而有效的前选择和向后剔除等不同的方法有2模型不同的优缺点注意事项准则4避免多重共线性多重共线性是指自、等信息准则可以用于评价模型AIC BIC3变量之间存在高度相关性,会导致回的优劣和值越小,表示模型越AIC BIC归系数估计不准确好时间序列分析基本概念时间序列1按时间顺序排列的一系列数据点,例如,股票价格、销售额、气温等趋势2时间序列在长期内的变化方向,例如,上升趋势、下降趋势或平稳趋势季节性3在一年内重复出现的模式,例如,冬季的服装销售额较高循环4在较长时间内重复出现的模式,例如,经济周期随机5无法预测的随机波动时间序列分析趋势分析线性趋势指数趋势多项式趋势时间序列呈现线性增长或线性下降的趋时间序列呈现指数增长或指数下降的趋时间序列呈现非线性趋势可以使用多势可以使用线性回归模型进行拟合势可以使用指数平滑法进行预测项式回归模型进行拟合时间序列分析季节变动分析目的方法识别时间序列中的季节性模式常用的季节变动分析方法有移,并对其进行分解和预测动平均法、季节指数法和季节调整法等季节指数描述每个季节相对于平均水平的比例季节指数大于表示该季节的1数值高于平均水平,小于表示低于平均水平1时间序列分析循环变动分析定义原因预测时间序列中周期性的波动,周期通常大循环变动的原因比较复杂,可能与经济循环变动的预测比较困难,通常需要结于一年例如,经济繁荣和衰退政策、技术创新和市场情绪等因素有关合经济模型和专家判断时间序列分析随机变动分析定义时间序列中无法预测的随机波动,也称为噪声来源随机变动的原因比较复杂,可能与各种偶然因素有关处理随机变动可以通过平滑技术来降低其影响,例如,移动平均法和指数平滑法指数基本概念定义价格指数数量指数反映一组变量在不同反映一组商品或服务反映一组商品或服务时间点的相对变化程的价格在不同时间点的数量在不同时间点度通常以某个时间的相对变化程度例的相对变化程度例点为基期,将基期的如,消费者价格指数如,工业生产指数数值设为()和生产者价格100CPI指数()PPI指数综合指数定义加权算术平均数反映一组变量在不同时间点的综合变以各个变量的价值作为权重,计算加1化程度综合指数考虑了各个变量的权算术平均数常用的加权算术平均2权重数有拉氏指数和帕氏指数优点加权几何平均数4可以综合反映多个变量的变化情况,3以各个变量的价值作为权重,计算加更好地反映整体趋势权几何平均数指数平均指数定义对个体指数进行平均,以反映整体趋势常用的平均指数有算术平均数和几何平1均数算术平均数2对个体指数进行算术平均简单易懂,但容易受到极端值的影响几何平均数3对个体指数进行几何平均可以降低极端值的影响,更稳健决策分析决策过程识别问题收集信息制定方案选择方案明确决策的目标和约束条件收集相关数据和信息,了解提出各种备选方案,并对其选择最佳方案,并制定实施各种备选方案的优缺点进行评估计划决策分析风险型决策定义期望值准则决策者知道每个备选方案的可计算每个备选方案的期望值,能结果以及每个结果的概率选择期望值最大的方案期望例如,投资股票、购买保险等值(结果概率)=∑*风险规避决策者更倾向于选择风险较低的方案,即使期望值较低风险规避可以用效用函数来描述决策分析不确定型决策定义决策者不知道每个备选方案的可能结果的概率例如,新产品上市、开发新技术等乐观准则选择每个备选方案的最佳结果中最好的一个也称为最大最大准则悲观准则选择每个备选方案的最坏结果中最好的一个也称为最大最小准则后悔值准则选择使最大后悔值最小的方案后悔值是指如果选择了该方案,而实际结果不是最好的,所造成的损失线性规划基本概念目标函数需要最大化或最小化的函数,通常是一个线性函数例如,最大化利润、最小化成本等约束条件限制决策变量取值的条件,通常是一组线性不等式或等式例如,资源限制、市场需求限制等可行域满足所有约束条件的决策变量的集合最优解使目标函数达到最大值或最小值的决策变量的取值最优解必须位于可行域内线性规划图解法适用场景可行域最优解适用于只有两个决策在坐标系中画出所有在可行域内找到使目变量的线性规划问题约束条件,得到可行标函数达到最大值或域最小值的点最优解通常位于可行域的顶点上线性规划单纯形法适用场景基本思想适用于多个决策变量的线性规划问题1从可行域的一个顶点出发,逐步迭代是求解线性规划问题的通用方法2,直到找到最优解步骤优点4将线性规划问题转化为标准形式、构可以求解各种类型的线性规划问题,3建初始单纯形表、迭代计算、判断是计算效率高否达到最优解蒙特卡洛模拟基本原理定义一种通过随机抽样来模拟现实世界的过程,并对结果进行统计分析的方法1步骤2建立模型、生成随机数、模拟过程、统计分析适用场景3适用于难以用解析方法求解的问题,例如,期权定价、风险评估等蒙特卡洛模拟应用实例期权定价风险评估排队系统通过模拟股票价格的随机变化,计算期通过模拟各种风险因素的随机变化,评通过模拟顾客到达和服务时间的随机变权的期望收益,从而确定期权的合理价估项目或投资组合的风险水平化,优化排队系统的设计,提高服务效格率数据挖掘基本概念定义目标从大量数据中发现有价值的模预测、描述、分类和聚类等式和知识的过程也称为知识发现()KDD方法常用的数据挖掘方法有聚类分析、分类分析、关联规则挖掘和时间序列分析等数据挖掘聚类分析目的将数据集中的对象分成不同的组,使得同一组内的对象相似,不同组内的对象差异较大方法常用的聚类方法有、层次聚类和等不同K-means DBSCAN的方法有不同的适用场景应用客户细分、市场营销、图像处理和生物信息学等数据挖掘分类分析目的建立一个分类模型,将对象分到不同的类别中分类模型基于已知的训练数据进行学习方法常用的分类方法有决策树、支持向量机()和神经网络等SVM不同的方法有不同的优缺点应用垃圾邮件过滤、信用风险评估和医学诊断等定量分析软件介绍SPSS统计分析数据可视化用户友好是一款强大的统可以生成各种统具有用户友好的SPSS SPSSSPSS计分析软件,可以进计图表,例如,直方界面,易于学习和使行各种描述性统计、图、散点图和箱线图用推断性统计和回归分等析等定量分析软件介绍Excel统计分析数据处理可以进行一些基本的统计分析,1Excel是一款常用的数据处理软件,可Excel例如,计算均值、标准差和相关系数2以进行数据输入、编辑和转换等等易于使用图表制作4Excel是一款非常流行的软件,大多数3Excel可以制作各种图表,例如,柱状用户都比较熟悉其操作图、折线图和饼图等。
个人认证
优秀文档
获得点赞 0