还剩20页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
变量间的相关关系、统计案例【考试要求】
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程3了解独立性检验(只要求2X2列联表)的基本思想、方法及其简单应用4了解回归分析的基本思想、方法及其简单应用.【知识梳理】
1.相关关系与回归方程⑴相关关系的分类
①正相关在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关.
②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.⑵线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和域小的方法叫做最小二乘法.
②回归方程方程尸鼠+:是两个具有线性相关关系的变量的一组数据(卬6),(必》),…,的力)的回归方程,其中a,b是待定参数.AA
(4)回归分析
①定义对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心对于一组具有线性相关关系的数据3,?),(及,>2),…,(x〃,力),其中(x,y)称为样本点的中心.
③相关系数当厂>0时:表明两个变量正相关;当「<0时,表明两个变量负札I关.厂的绝对值越接近于1,表明两个变量的线性相关性越强」厂的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常M大于时,认为两个变量有很强的线性相关性.~级品.级品总计中机床15050200乙机床12080200总计270130400
(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?⑵能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异_______nad—be______附:a+bc+da+cb+d9P(群2幻ko解
(1)根据题表中数据知,甲机床生产的产品中一级品的频率是标=,乙机床生产的产品41/1/120中一级品的频率是瑞=⑵根据题表中的数据可得400X150X80—120X502401~200X200X270X130~因为,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.【教师备选】(2020・全国m)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位天)锻炼人次空气质量跑[0,200]200,400]400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720⑴分别估计该市一天的空气质量等级为123,4的概率;⑵求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);⑶若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2义2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次W400人次>400空气质量好空气质量不好_______nad—bc2_____附a+Ac+Ga+cA+d:尸群》幻露⑴由频数分布表可知,该市一天的空气质量等级为1的概率为2+25+黑空气质量等级为2的概率为5人次W400人次>400空气质量等级为3的概率为笥祟H2072+0⑵空由气频质数量分等布级表为可4知的,概一率天为中I到该公园锻炼的平均人次的估计值为100X20+300X35+500X45=
350.10032义2列联表如下:空气质量好3337空气质量不好228100X33X8—37X222〜55X45X70X30^所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.思维升华独立性检验的一般步骤1根据样本数据制成2X2列联表;«I、、、八niad—bc1一52根据公式烂=计算;/上八/八/心八+b ct+cb+d[c-v a3比较烂与临界值的大小关系,作统计推断.跟踪训练
32022.太原模拟为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度单位:iig/m3,整理数据得到下表SO的浓度空气质量等级2[0,50]50,150]150,475]1优28622良5783轻度污染3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题.⑴估计事件“该市一天的空气质量好,且S02的浓度不超过150”的概率;
(2)完成下面的2X2列联表,的浓度总计[0,150]150,475]空气质量好空气质量不好总计
(3)根据⑵中的列联表,能否有99%的把握认为该市一天的空气质量与当天SO2的浓度有关?解
(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+546+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率2=瑞=⑵由表格数据可得列联表如下,的浓度总计[0,150]150,475]空气质空气质量好461056空气质量不好242044总计7030100100046X20—24X102⑶心=70X30X56X44所以有99%的把握认为该市一天的空气质量与当天SO2的浓度有关.课时精练
1.如表是2义2列联表,则表中的
①b的值分别为()总计2国a835113445X2总计b4280B.28,38C.27,37D.28,37答案A解析4=35—8=27,/=〃+11=27+11=
38.
2.(
2022.湘豫名校模拟)根据如表样本数据23456Xy4-2-3得到的线性回归方程为:=晨+;,则()A A A AA.Q0,h0B.〃0,h0A A A AC.〃0,b0D.Q0,b0答案B解析由表中的数据可得,变量y随着x的增大而减小,则30,—2+3+4+5+6%=5=%—4H---------2—3y=5=,又线性回归方程(=£+经过点,A可得〃
0.
3.某种产品的广告费支出尤与销售额M单位万元)之间的关系如表:24568X3040605070yy与x的线性回归方程为y=x+,当广告支出6万元时,随机误差的残差为()A.-5B.-C.一6D.一答案D解析由题意结合线性回归方程的预测作用可得,当x=6时,i=X6+=,则随机误差的残差为50-=-
4.(2022・宝鸡模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x(每分钟鸣叫的次数)与气温y(单位C)存在着较强的线性相关关系.某地观测人员根据如表的A观测数据,建立了y关于1的线性回归方程丫=1+攵,则下列说法不正确的是()x(次数/分钟)2030405060M℃252936A.Z的值是20B.变量x,y呈正相关关系C.若x的值增加1,则y的值约增加D.当蟋蟀52次/分鸣叫时,该地当时的气温预测值为℃答案D解析由题意,得---I()x=TX20+30+40+50+60=40,()7=^X25++29++36=30,则k=~~~=30-X40=20,故A正确;由线性回归方程可知,b=,变量x,y呈正相关关系,故B正确;若x的值增加1,则y的值约增加,故C正确;A当x=52时,y=X52+20=33,故D不正确.
5.下列说法正确的是()A.设有一个线性回归方程(=3—5x,变量x增加一个单位时,y平均增加5个单位B.若两个具有线性相关关系的变量的相关性越强,则相关系数r的值越接近于1C.在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越低D.在线性回归模型中,相关指数N越接近于1,说明回归的效果越好答案D解析A选项,因为;=3—5羽所以变量x增加一个单位时,y平均减少5个单位,故A错误;B选项,线性相关性具有正负,相关性越强,则相关系数〃的绝对值越接近于1,故B错误;C选项,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C错误;D选项,在线性回归模型中,相关指数R2越接近于1,说明模型拟合的精度越高,即回归的效果越好,故D正确.
6.2021年5月18日,《佛山市第七次全国人口普查公报》发布.公报显示,佛山市常住人口为9498863人.为了进一步分析数据特征,某数学兴趣小组先将近五次人口普查数据作出散点图(横坐标为人口普查的序号,第三次普查记为1,…,第七次普查记为5,纵坐标为当次人口普查佛山市人口数(单位万人),再利用不同的函数模型作出回归分析,如图,以下说法正确的是()A.佛山市人口数与普查序号呈负相关关系B.散点的分布呈现出很弱的线性相关特征C.回归方程2的拟合效果更好D.应用线性回归方程1可以预测第八次人口普查时佛山市人口会超过1400万人答案C解析对于A,散点图中的点的分布从左下方至右上方,故呈正相关关系,故A错误;对于B,利用模型1,样本点基本分布在直线的两侧,故具有较强的线性相关特征,故B错误;对于C,因为6,所以回归方程2的拟合效果更好,故C正确;对于D,利用模型1,当x=6时,y=X6-=l400,故D错误.
7.(
2022.广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表零件数式个)1020304050加工时间y(min)62a758189若用最小二乘法求得线性回归方程为),=1+,则的值为10+20+30+40+50解析由已知x------------;-----------=30,答案68—62+^+75+81+
89.2+ay=5=6i+丁2I a所以61+^^=义30+,解得a=
68.8(.
2022.青岛模拟)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过.“八s n(ad-be_,,附=伍+0)(c+d)(a+c)(6+d)其中〃=++c+P(烂,公)ko答案解析由题意可得列联表如下,集中培训分散培训总计一次考过453075一次未考过102030总计5550105105X45X20—10X302_K=55X50X75X30”故犯错误的概率不超过
9.(
2022.河南九师联盟联考)机动车行经人行横道时,应当减速慢行遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.如表是某市一主干路口监控设备所抓拍的1—5月份驾驶员不“礼让行人”行为统计数据月份23451违章驾驶员人数1201051009580⑴请利用所给数据求违章人数y与月份x之间的线性回归方程并预测该路口10月份的不“礼让行人”违章驾驶员人数;⑵交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,如表所示不礼让行人礼让行人驾龄不超过1年2416驾龄1年以上1614判断是否有90%的把握认为“礼让行人”行为与驾龄有关解
(1)由表中的数据可知,—1+2+3+4+5X=7=3,-120+105+100+95+80y==100,5______________i=\A1410-1500所以匕二=----------------------------------------------------------------=—Q55-45X%—5X2!»•一5x y故=y-b x=100--9X3=127,所以所求的线性回归方程为;=—9x+127;A令x=10,则,=—9X10+127=
37.70X24X14—16X16214⑵=—40X30X40X30—=45因此,没有90%以上的把握认为“礼让行人”行为与驾龄有关.
10.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位万元)如表所示月份12345678物流成本X83808979利润y114116106122132114m132A A残差6•=%—M-3—1—1根据最小二乘法估计公式求得线性回归方程为;=X—⑴求相的值,并利用已知的线性回归方程求出8月份对应的残差值68;⑵请先求出线性回归模型;=%一的相关指数上(精确到1);若根据非线性回归模型丁=-i求得x解释变量(物流成本)对于预报变量(利润)的相关指数用=7,请说明以上两种模型哪种模型拟合效果更好?⑶通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的回归方程.8附(修正前的参考数据)1^=78880,尸1882x7=56528,x=84,Z CVL2=
904.i=l i=lA____解1因为y=x—,x=84,所以7=X84—=117,114+116+106+122+132+114+^+132=117X8,解得机=100,所以8月份对应的残差值A备=132—X+=
7.8A⑵由已知公式得Z^/2=2+2+2+—32+—12+—2+—12+72=,i=i8At⑴―M2i=lR2=1--------------=1—,904仁盟,8-E8-y2i=]所以线性回归模型—拟合效果更好.⑶第八组数据的利润应为116万元,8此时ZX,M=78880-X16=77496,i=\8-又»?=56528,x=84,i=l一16y=117—9=115,8______________i=]xyA所以z=--------------------------------------------------------------8_X i=\X%—8277496-8X84X11556528-8X842,=U5—X84=一,所以重新采集数据后,回归方程为y=x—
11.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修该课程的55名学生,得到数据如下表喜欢统计课程不喜欢统计课程男生205女生1020临界值参考:))尸(群2k()k(参考公式心=伍+二+次+4计4其中〃=+计+4参照附表,得到的正确结论是()A.在犯错误的概率不超过的前提下,认为“喜欢应用统计课程与性别有关”B.在犯错误的概率不超过的前提下,认为“喜欢应用统计课程与性别无关”C.有99%以上的把握认为“喜欢应用统计课程与性别有关”D.有99%以上的把握认为“喜欢应用统计课程与性别无关”答案Anad—be2_____a+bc+da+ch+d55义20X20—10X52539=—30X25X30X25—=行2故在犯错误的概率不超过的前提下,认为“喜欢应用统计课程与性别有关
12.已知变量y与尤的一组数据如表所示,根据数据得到y关于x的非线性回归方程为:234X1e2e3e5e6y若丁=©13,则%等于()A.6B.7C.8D.9答案B—1+2+3+4由题意知,解析由y=*-I得lny=Zu—1,—2+3+5+6z=4=4,A因为(龙,Z)满足Z=/X—1,所以4=zx—1,解得Z=2,A A所以z=2x—l,所以y=e2Li,令门=-3,解得x=
7.
13.(2022•武汉部分重点中学联考)下列选项中,正确的是()A.对于回归分析,相关系数〃的绝对值越小,说明拟合效果越好B.以模型y=c・*去拟合一组数据时,为了求出回归方程,设z=lny,将其变换后得到线性回归方程;=x+4,则c,女的值分别是e,和AAA AC.线性回归方程y=/u+i中,人的符号和相关系数〃的符号无关AAAAD.通过回归直线y=云+a及回归系数江可以精确反映变量的取值和变化趋势答案B解析对于A,回归分析中,相关系数绝对值越大,拟合效果越好,A不正确;对于B,由y=c・e米两边取对数得In y=kx-\~\n c,依题意,k=,In c=4,即c=e、B正确;对于C,由公式知,C不正确.AA A A对于D,回归直线>=+及回归系数切不能精确反映变量的取值和变化趋势,D不正确.
14.(2022•漳州模拟)根据下面的数据234X i32487288y
2.独立性检验⑴分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.⑵列联表列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和K它们的取值分别为3,Q}和{y,竺},其样本频数列联表(称为2X2列联表)为总计a ba+bXIX2C dc+d总计b~\~d o+b+c+d构造一个随机变量蜉=F浮啜哈7加7?其中〃=〃++c+d为样本容量.⑶独立性检验利用随机变量及来判断“两个分类变量有关系”的方法称为独立性检验.【常用结论】
1.回归直线过样本点的中心(X,y).»沙•一〃x yi=A A
12.求时,常用公式=-------------------.n______X%—71X2尸
13.回归分析和独立性检验都是基于样本观测数据进行估计或推断,得出的结论都可能犯错误.【思考辨析】判断下列结论是否正确(请在括号中打“J”或“X”)⑴散点图是判断两个变量相关关系的一种重要方法和手段.(V)A AA
(2)线性回归直线y—b x+a至少经过点3,yi),(及,”),…,y〃)中的一个点.(义)⑶相关系数的绝对值越接近1,样本数据的线性相关程度越强.(V)
(4)若分类变量X,丫关系越密切,则由观测数据计算得到的心的观测值越小.(X)【教材改编题】
1.实验测得四组(%,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的线性回归方程为()A AA.y=x+1B.y=x+2A AC.y=2x+1D.y—x—1答案A解析由已知可得x=(义(1+2+3+4)=,—1()y=1X2+3+4+5=,所以回归直线过点(,),求得y关于x的线性回归方程为;=x+12,则这组数据相对于所求的线性回归方程的4个残差的方差为.(注残差是指实际观测值与预测值之间的差)答案解析把%=123,4依次代入线性回归方程y=x+12,所得预测值依次为y=,AAA丁丁丁2=,3=,4=,对应的残差依次为,一,一,它们的平均数为0,所以4个残差的方差为S』错误!=
15.已知由样本数据(为,%),i=l,2,3,4,5,6求得的线性回归方程为y=2x+l,且7=
3.现发现一个样本数据(8/2)误差较大,去除该数据后重新求得的回归直线/的纵截距依然是1,则下列说法不正确的是()A.去除前变量%每增加1个单位,变量y一定增加2个单位B.去除后剩余样本数据中x的平均数为2C.去除后的线性回归方程为j=x+lD.去除后相关系数一变大答案A解析当工=3时,7=2X3+1=7,6_6_则I/=6x=18,Z%=6y=42,i=1i=1去除样本数据(8,12)后的新数据,18-842-12x==2,y==6,设去除样本数据(8,12)后重新求得的线性回归方程为=办+1,则£+1=6,解得:=,故去除后的线性回归方程为;=x+l,C正确;对于A选项,去除前变量了每增加1个单位,变量y大约增加2个单位,A错误;对于B选项,去除后剩余样本数据中x的平均数为2,B正确;对于D选项,去除了误差较大的样本数据后,线性相关性变强,因为y关于x为正相关,则r0,所以,相关系数〃变大,D正确.
16.(2022・石嘴山模拟)商务部会同海关总署、国家药监局于3月31日发布关于有序开展医疗物资出口的公告.如医疗物资出口中出现质量问题,将认真调查,发现一起,查处一起,切实维护“中国制造”的形象,更好地发挥医疗物资对支持全球疫情防控的重要作用.为了监控某种医疗物资的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个医疗物资,并测量其尺寸(单位cm).下面是检验员在一天内依次抽取的16个医疗物资的尺寸:抽取次数抽取次数医疗物资尺寸医疗物资尺寸19210311412513614715816-116经计算得x=—,116_育以”16X2产,16_ZL2〜i=\)(,一)=一,Z(XLXZ=1其中即为抽取的第,个医疗物资的尺寸,,=1,2,3,…,
16.
(1)求®,i)(i=l,2,…,16)的相关系数r,并回答是否可以认为这一天生产的医疗物资尺寸不随生产过程的进行而系统地变大或变小(若卜,则可以认为医疗物资尺寸不随生产过程的进行而系统地变大或变小);⑵一天内抽检医疗物资中,如果出现了尺寸在(三一3s,三+3s)之外的医疗物资,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.从这一天抽检的结果看,是否需对当天的生产过程进行检查?16__解
(1)由样本数据得(匚i)(i=l,2,…,16)的相关系S数出为一%»—y附样本(16如y)―(i=l,2,…ZXL X一由于k因此可以认为这一天生产的医疗物资尺寸不随生产过程的进行而系统地变大或变小.2由于X=,5弋,故x—3s,x+3s的区间范围为,,由样本数据可以看出抽取的第13个医疗物资的尺寸在,以外,因此需对当天的生产过程进行检查.所以把点,代入四个选项中验证,可得只有<=x+l成立.
2.下列关于样本数据的统计分析的判断中正确的是A.若相关系数r=0,则说明样本数据没有相关性B.相关系数r越大,样本数据的线性相关性越强C.用最小二乘法求得的线性回归模型的残差和一定是0D.相关指数R2越大,残差平方和越小,模型的拟合效果越差答案C解析对于A,当〃=0时,只表明样本数据间没有线性相关关系,但是不排除它们之间有其他相关关系,故A错误;对于B,相关系数团越大,样本数据的线性相关性越强,故B错误;nA〃AA对于c,残差和为Xyi-yd=1—1i—1n八〃n A=iyi-b ZA/—1—1i—1i—1AA=n y—nb x—na__AA=n{y—b x—〃=0,故C正确;对于D,相关指数越大,表示残差平方和越小,即模型的拟合效果越好,故D错误.
3.为了判断高中三年级学生是否选修文科与性别的关系.现随机抽取50名学生,得到如下2X2列联表:理科文科男1310女72050X13X20—10X72根据表中数据,得到群的观测值k=仁则认为选修文科与性别有关系-23X27X20X30~已知P蜉2能,户出错的可能性为.答案5%解析群的观测值攵心,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.题型一相关关系的判断例11对变量X,y有观测数据为,%i=l,2,…,10,得散点图如图1,对变量,有观测数据如si=l,2,…,10,得散点图如图
2.由这两个散点图可以判断A.变量x与y正相关,〃与0正相关B.变量%与y正相关,〃与o负相关C.变量尤与y负相关,〃与o正相关D.变量x与y负相关,〃与负相关答案C解析由题图可得两组数据均线性相关,且图1的回归直线的斜率为负,图2的回归直线的斜率为正,则由散点图可判断变量x与y负相关,〃与正相关.⑵下列有关回归分析的说法中不正确的是()A.回归直线必过点(x,y)B.回归直线就是散点图中经过样本数据点最多的那条直线C.当相关系数—0时,两个变量正相关D.如果两个变量的线性相关性越弱,则卜|就越接近于0答案B解析对于A,回归直线必过点(;,7),故A正确;对于B,回归直线在散点图中可能不经过任一样本数据点,故B不正确;对于C,当相关系数厂0时,则两个变量正相关,故C正确;对于D,如果两个变量的线性相关性越弱,则|r|就越接近于0,故D正确.【教师备选】在一组样本数据(X1,)”),(必(%〃,%)(〃22,为,孙…,X〃不全相等)的散点图中,若所有样本点5,v)(i=l,2,…,〃)都在直线y=g+l上,则这组数据的相关系数为()A.—1B.0C.T D.1答案D解析所有样本点均在同一条斜率为正数的直线上,则相关系数最大,为L思维升华判定两个变量相关性的方法
(1)画散点图点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.
(2)相关系数当/0时,正相关;当Y0时,负相关;卜|越接近于1,相关性越强.⑶线性回归方程当/0时:正相关;当,0时,负相关.跟踪训练1
(1)已知变量x和y满足关系y=-x+1,变量y与z正相关.下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,%与z正相关C.%与负相关,x与z负相关D.x与y负相关,x与z正相关答案CA A解析因为y=—x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=by+〃,AAAAAAh0,则z=/y+〃=—故%与z负相关.2对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是A.小「B.门〃20r31-4_20r3C.D.厂门〈-f4r20r3ri-240V3答案A解析由散点图知图1与图3是正相关,故n0,*0,图2与图4是负相关,故r0,r0,且图124与图⑵的样本点集中在一条直线附近,因此及々门〈门.题型二回归分析命题点1线性回归分析例22022•郑州模拟2021年2月25日,在全国脱贫攻坚总结表彰大会上,习近平总书记庄严宣告我国脱贫攻坚战取得全面胜利.目前,河南省53个贫困县已经全部脱贫摘帽,退出贫困县序列.2016年起,我省某贫困地区创新开展产业扶贫,响应第三产业的扶贫攻坚政策,经济收入逐年增加.该地的经济收入变化及构成比例如图所示年份2016年2017年2018年2019年2020年年份代号X23451经济收入y单位百万元59141720⑴根据以上图表,试分析与2016年相比,2020年第三产业与种植业收入变化情况;⑵求经济收入y关于x的线性回归方程,并预测2025年该地区的经济收入.解1
①与2016年相比,2020年第三产业的收入占比大幅度增加;
②2016年第三产业的收入为百万元,2020年第三产业的收入为6百万元,收入大幅度增加;
③与2016年相比,种植业收入占比减少,但种植业收入依然保持增长.2由表格中的数据可知,—1+2+3+4+5x=5—5+9+14+17+20y=5=13,512+22+32+42+52=55,i=]5口/=IX5+2X9+3X14+4X17+5X20=233,5__5___________________________________())Z y―X8—y5x yi=\i=\A贝防=—5_5_Z(XL X)25X2尸尸11233-5X3X13=55-5X32=,A____________A____________所以=y—b x—,故经济收入y关于x的线性回归方程为Ay—x~\~,当尤=10时,=,则预测2025年该地区的经济收入为百万元.命题点2非线性回归分析例3(2022・吉林模拟)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x(百万元)与收益y(百万元)的数据统计如下科技投入X2345671收益y19202231405070根据数据特点,甲认为样本点分布在指数型曲线y=2+的周围,据此他对数据进行了一些初步处理.如下表7_口7必i=\7»iZi i=\X y-y2Z7yf-yd2A i=li=l514012391492134130其中Zi=10g2V,Z=Zzi.⑴请根据表中数据,建立y关于x的非线性回归方程(系数精确到);
(2)
①乙认为样本点分布在直线丁=如+〃的周围,并计算得回归方程为;=x+3,以及该回归模型的相关指数股=,试比较甲、乙两人所建立的模型,谁的拟合效果更好?
②由
①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到)Z(Vi-Vi)2附相关指数R2=L-----------------------.E⑵一0)2i=l参考数据log25解
(1)将y=2叱%两边取对数得log2y=bx+a,令z=log2y,AAA则z=Zx+m•••^=4,J根据最小二乘估计可知,7_________________________________ExiZiT xzA尸i149-7X4X5h=------------------=-------------------_140_7X427X%—7X2i=\A____________A_____________.\a=z—h x=5—义4==•••线性回归方程为;=x+,即(=2#.
(2)
①甲建立的回归模型的,,
130.廨=1-万才a=•••甲建立的回归模型拟合效果更好.
②由
①知,甲建立的回归模型拟合效果更好.设2#2100,解得x+2Iog2100=2+210g25,解得尤2•••科技投入的费用至少要百万元,下一年的收益才能达到1亿元.【教师备选】
1.(2022•湖北九师联盟联考)下表是关于某设备的使用年限x(单位年)和所支出的维修费用y(单位万元)的统计表.23456Xy由上表可得线性回归方程若规定维修费用y不超过10万元,一旦大于10万元,该设备必须报废.据此模型预测,该设备使用年限的最大值约为()A.7B.8C.9D.10答案D解析由表格,得()T=±X2+3+4+5+6=4,--1y=-X++++=5,因为线性回归直线恒过点(T,7),A所以5=X4+a,解得〃=,所以线性回归方程为y=%+,由yW10,得x+W10,加,日一824解得工★亚丁仁,由于1£N*,所以据此模型预测,该设备使用年限的最大值约为
10.
2.用模型y=ce拟合一组数据时,为了求出回归方程,设z=lny,其变换后得到线性回归方程为z=x+2,则等于()A.B.e C.2D.e2答案D解析因为y=ce两边取对数得,In y=ln(ce区)=ln c+ln ea=h:+ln c,则z=-kx~\~In c而z=x+2,9于是得lnc=2,即c=e
2.思维升华求线性回归方程的步骤跟踪训练2为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y(千克)与某种液体肥料每亩使用量M千克)之间的对应数据如下.式千克)24568y(千克)300400400400500⑴由上表数据可知,可用线性回归模型拟合y与x的关系,请计算相关系数〃并加以说明(若k则线性相关程度很高,可用线性回归模型拟合);⑵求y关于x的线性回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?参考数据木解
(1)由已知数据可得2+4+5+6+8_r=5-300+400+400+400+500y=7=4009所以ZXL%8—y=-3X-100+-lX0+0X0+l X0+3X100=600,£x/—x2=^/—32+—12+02+12+32Z2=^-1002+02+02+02+1002=10072,所以相关系数—2小xioo\^一也〜因为k所以可用线性回归模型拟合y与x的关系.E为一x,/-y i=A14=400—5X30=250,所以线性回归方程为y=3Qr+
250.A当x=15时,>=30X15+250=700,即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700千克.题型三独立性检验例4(2021•全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表。
个人认证
优秀文档
获得点赞 0