还剩17页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
变量间的相关关系、统计案例§
11.3最新考纲考情考向分析
1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.回归分析,独立性检验是高考考查
2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式的重点,以解答题为主,常与概率建立线性回归方程.结合考查.难度中高档.
3.了解独立性检验的基本思想、方法及其初步应用.
4.了解回归分析的基本思想、方法及其简单应用.-----------------------------基础落实回扣基础知识训练基础题目-------------------------------------------------------------■知识梳理
1.相关关系与回归方程1相关关系的分类
①正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.2线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.3回归方程
①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.
②回归方程方程;=云+是两个具有线性相关关系的变量的一组数据3,6,X2,玖,…,区”外的回归方程,其中Q,6是待定参数.错误!中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2X2列联表,并判断是否有99%的把握认为“该校学生的每周平均体育运动时间是否‘优秀与年级有关”.基础年级高三总计优秀非优秀总计300nad—bcy附:K2=Q+bc+da+cb+d参考数据:P(烂》甸
0.
1000.
0500.
0100.005ko
2.
7063.
8416.
6357.879解
(1)该校学生每周平均体育运动时间为%=1X
0.05+3X
0.2+5X
0.3+7X
0.25+9X
0.15+11X
0.05=
5.
8.4样本中高一年级每周平均体育运动时间不足4小时的人数为300(
0.025X2+
0.100X2)=30(人).又样本中高一的人数有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数an约为1200X=300(人).120
(2)列联表如下基础年级高三总计优秀10530135非优秀10560165总计21090300假设该校学生的每周平均体育运动时间是否优秀与年级无关,口】山向、ma7300X(105X60—105X30)2则K2的观测值上=)210X90X135X165=700^
7.
0716.
635.99又「(烂三
6.635)=
0.
01.所以有99%的把握认为“该校学生的每周平均体育运动时间是否优秀与年级有关”.思维升华独立性检验的一般步骤1根据样本数据制成2X2列联表.2根据公式烂=Mad-b”计算烂的观测值ka+ba+cb+dc+d3比较人与临界值的大小关系,作统计推断.跟踪训练22017・全国H海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量单位kg,其频率分布直方图如下:1记4表示事件“旧养殖法的箱产量低于50kg”,估计Z的概率;2填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量250kg旧养殖法新养殖法3根据箱产量的频率分布直方图,对两种养殖方法的优劣进行比较.附P烂2旬
0.
0500.
0100.001ko
3.
8416.
63510.828行nfad—bc1蜉=.a+bc+a+cb+d解D旧养殖法的箱产量低于50kg的频率为
0.012+
0.014+
0.024+
0.034+
0.040X5=
0.
62.因此,事件Z的概率估计值为
0.
62.
(2)根据箱产量的频率分布直方图得列联表如下:箱产量50kg箱产量N50kg旧养殖法6238新养殖法3466力如肉肉在7200X62X66—34X382K2的观测值攵=
215.
705.100X100X96X104由于
15.
7056.635,故有99%的把握认为箱产量与养殖方法有关.
(3)箱产量的频率分布直方图表明新养殖法的箱产量平均值(或中位数)在50kg到55kg之间,旧养殖法的箱产量平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.-统计的综合问题一■核心素养之数据分析,数据分析是指针对研究对象获得相关数据,运用统计方法对数据中的有用信息进行分析和推断,形成知识的过程.主要包括收集数据、整理数据、提取信息、构建模型对信息进行分析、推断、获得结论.例(2019•全国ni)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测甲离子残留百分比直方图乙离子残留百分比直方图记为事件“乙离子残留在体内的百分比不低于
5.5”,根据直方图得到尸(O的估计值为
0.
70.
(1)求乙离子残留百分比直方图中Q,b的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).解⑴由已知得
0.70=«+
0.20+
0.15,故a=
0.
35./=1-
0.05-
0.15-
0.70=
0.
10.
(2)甲离子残留百分比的平均值的估计值为2X
0.15+3X
0.20+4X
0.30+5X
0.20+6X
0.10+7X
0.05=
4.
05.乙离子残留百分比的平均值的估计值为3X
0.05+4X
0.10+5X
0.15+6X
0.35+7X
0.20+8X
0.15=
6.
00.素养提升考题从所给直方图中的数据来进行求甲、乙离子残留百分化的平均值的过程体现的就是数据分析素养.课时精练g基础保分练
1.已知变量x和歹满足关系y=-
0.lx+l,变量y与z正相关.下列结论中正确的是()A.x与》正相关,x与z负相关B.x与歹正相关,x与2正相关C.x与y负相关,x与z负相关D.x与歹负相关,x与z正相关答案cA A A解析因为y=-
0.1x+l,-
0.K0,所以x与y负相关.又y与z正相关,故可设z=b yAA A AAA A+Q{b0),所以z=—O.lbx+b+Q,—
0.1/0,所以x与z负相关.故选C.
2.(2020・合肥检测)某公司一种型号的产品近期销售情况如下表月份X23456销售额M万元
15.
116.
317.
017.
218.4根据上表可得到线性回归方程(=
0.75x+a,据此估计,该公司7月份这种型号产品的销售额为()A.
19.5万元B.
19.25万元C.
19.15万元D.
19.05万元答案D的士匚上日百*2+3+4+5+6r解析由题意,%==4,5^
15.1+
16.3+
17.0+
17.2+
18.45=168回归直线》=0・75%+4过(%,),A可得a=
13.8,A当x=7时,可得y=
0.75X7+
13.8=
19.
05.
3.(2019・湖南衡阳联考)甲、乙、丙、丁四位同学各自对43两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数〃与残差平方和m,如下表:乙甲内丁r
0.
820.
780.
690.85m106115124103则哪位同学的试验结果体现4B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁答案D解析尸越大,加越小,线性相关性越强,故选D.
4.(2019,赣州模拟)以下五个命题:
①在匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;
②两个随机变量相关性越强,则相关系数的绝对值越接近于1;
③回归直线;=6X+Q必过点(工,歹);
④在线性回归方程;=
0.2x+12中,当解释变量x每增加1个单位时,预报变量平均增加
0.2个单位;
⑤分类变量x与匕对它们的随机变量烂的观测值人来说,后越小,“x与y有关系”的把握程度越大.其中假命题为()A.
①④B.
①⑤C.
②③D.
③④答案B与解析
①为系统抽样;
⑤分类变量X与匕对它们的随机变量群的观测值上来说,左越大,“X y有关系”的把握程度越大.
5.(2020・广东省百校联盟联考)下表是我国某城市在2017年1月份至10月份期间各月最低温度与最高温度(单位℃)的数据一览表.月份23456789101最高温度/℃59911172427303121最低温度/℃-12-3-2717192325101已知该城市的各月最低温与最高温具有相关关系,根据该一览表,则下列结论错误的是()A.最低温度与最高温度为正相关B.每月最高温度与最低温度的平均值在前8个月逐月增加C.月温差(最高温度减最低温度)的最大值出现在1月D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大答案B解析将最高温度、最低温度、温差列表如下:月份23456789101最高温度/℃59911172427303121最低温度/℃-12-31-271719232510温差度/℃171281310787611由表格可知,最低温度大致随最高温度的升高而升高,A正确;每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误;月温差的最大值出现在1月,C正确;1月至4月的月温差相对于7月至10月,波动性更大,D正确.
6.(2019,合肥模拟)2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是烂=Had—bc2参考公式:Q+bc+da+cb+dP(烂N砌
0.
150.
100.
050.
0250.
0100.
0050.001ko
2.
0722.
7063.
8415.
0246.
6357.
87910.828否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表赞成“自助游”不赞成“自助游”总计男性30其中〃=+61+5+
4.45女性451055总计7525100参照公式,得到的正确结论是()A.有
99.5%以上的把握认为“赞成自助游与性别无关”
8.有
99.5%以上的把握认为“赞成自助游与性别有关”C.在犯错误的概率不超过
0.1的前提下,认为“赞成‘自助游与性别无关”D.在犯错误的概率不超过
0.1的前提下,认为“赞成自助游与性别有关”答案D解析将2X2列联表中的数据代入计算,得K1=100X30X10-45X15)2^3,030,45X55X75X25V
2.
7063.
0303.841,・••在犯错误的概率不超过
0.1的前提下,可以认为“赞成自助游与性别有关”.
7.(2020•焦作期中)根据下表中的数据可以得到线性回归方程y=
0.7x+
0.35,则实数加,〃应满足()A.〃—
0.7加=
1.7B.n—
0.7m—
1.5C./+
0.7/77=
1.7D.〃+
0.7加=1・5答案A3m56X
2.534ny解析x=%3+加+5+6=%14+加,44歹=
12.5+3+4+〃=
19.5+〃,44故19・5+〃=
0.7义114+加+
0.35,44解得n—
0.7m=
1.
7.
8.某市居民2015〜2019年家庭年平均收入x(单位万元)与年平均支出式单位万元)的统计资料如下表所示年份20152016201720182019收入x
11.
512.
11313.315支出y
6.
88.
89.81012根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有相关关系.(填“正”或“负”)答案13正解析中位数是
13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.
9.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到如图所示2X2列联表:理科文科总计男131023女72027总计20305050X13X20-10X72“人小心的把握认为选修文科与性别有关.7Q
4.844,则有23X27X20X30己知尸(烂
23.841户
0.05,P(群
25.024户
0.
025.根据表中数据,得到K2的观测值左=答案95%解析由题意,烂=5°*(1320-10X7)2心4,844,因为
4.
8443.841,所以有95%的把握认23X27X20X30为选修文科与性别有关.
10.(2020・成都模拟)某公司一种新产品的销售额y与宣传费用x之间的关系如下表:x(单位万元)02341y(单位万元)1015203035已知销售额》与宣传费用x具有线性相关关系,并求得其线性回归方程为(=区+9,则b的值为.答案
6.5名力士匚0+1+2+3+410+15+20+30+35110”人同西古庇A2inv v解析%=$=2,歹=$=5=22,由回归直线=区+9A z17过点(2,22)得,22=26+9,解得6==6511,(2020•西南大学附中月考)下表是某地一家超市在2017年一月份某一周内周2到周6的时参考公式线性回归方程是y=bx+a,错误!/
1、〜日百*r用X2+3+4+5+62+3+5+6+9vI由题意可得X=-----------------------=4,y=--------------------------=5,2X2+3X3+4X5+5X6+6X9—5X4X5因此6==
1.7,
(1)根据4上+表9提+1供6的+数25据+,3用6-最5X小二16乘法求线性回归方程y=H+〃;⑵估计星期日获得的利润为多少万元.A A A所以Q=y—b x=5—
6.8=—
1.8,所以y=L7x—
1.
8.
(2)由
(1)可得,当x=7时,y=L7X7—
1.8=
10.1(万元),即估计星期日获得的利润为
10.1万元.
12.某淘宝店经过对春节七天假期的消费者的消费金额进行统计,发现在消费金额不超过1000元的消费者中男女比例为1:4,该店按此比例抽取了100名消费者进行进一步分析,得到下表女性消费情况:消费金额/元0,200[200,400[400,600[600,800[800,1000]人数51015473男性消费情况:消费金额/元0,200[200,400[400,600[600,800[800,1000]人数231032若消费金额不低于600元的网购者为“网购达人”,低于600元的网购者为“非网购达人”.1分别计算女性和男性消费的平均数,并判断平均消费水平高的一方“网购达人”出手是否更阔绰?2根据列表中统计数据填写如下2X2列联表,并判断能否在犯错误的概率不超过
0.005的前提下认为“是否为‘网购达人与性别有关”.女性男性总计“网购达人”“非网购达人”总计附个-/*i’其中P烂>公
0.
100.
050.
0250.
0100.005ko
2.
7063.
8415.
0246.
6357.879解1女性消费者消费的平均数为1x100X5+300X10+500X15+700X47+900X3=
582.
5.男性消费者消费的平均数为2;102+3003+500X10+700X3+900X2=
500.“女网购达人”消费的平均数为;0义700X47+900X3=
712.“男网购达人”消费的平均数为1义7003+900X2=
780.虽然女性消费者平均消费水平较高,但“女网购达人”平均消费水平低于“男网购达人“平均消费水平,所以“平均消费水平”高的一方“网购达人”出手不一定更阔绰.22X2列联表如下所示:女性男性总计“网购达人”50555“非网购达人”301545总计80201003以的、加士7100X50X15—30X52八八〜蜉的观测值上=
9.091,80X20X55X45因为
9.
0917.879,所以能在犯错误的概率不超过
0.005的前提下认为“是否为‘网购达人与性别有关”.技能提升练
13.2019•福州四校联考某汽车的使用年数x与所支出的维修总费用》的统计数据如表:使用年数力年12345维修总费用w万元
0.
51.
22.
23.
34.5根据上表可得y关于x的线性回归方程;=云一
0.69,若该汽车维修总费用超过10万元就不再维修,直接报废,据此模型预测该汽车最多可使用不足1年按1年计算X A.8年B.9年C.10年D.11年答案D解析由p关于x的线性回归直线
0.69过样本点的中心3,
2.34,得6=
1.01,即线性AA回归方程为歹=L01x—
0.69,由y=
1.01x—
0.69=10得工仁
10.6,所以预测该汽车最多可使用11年,故选D.
14.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据单价x元456789销量y件908483807568由表中数据,求得线性回归方程为:=-4X+Q.若在这些样本点中任取一点,则它在回归直线左下方的概率为.答案1解析由表中数据得1=
6.5,歹=80,由=—4%+许得〃=106,故线性回归方程为》=一4%+106,将4,90,5,84,6,83,7,80,8,75,9,68分别代入回归方程,可知有6个基本事件,因84—4*5+106=86,68〈一4乂9+106=70,故5,84和9,68在回归直线的左下方,4回归分析
①定义对具有相关关系的两个变量进行统计分析的一种常用方法.
②样本点的中心对于一组具有线性相关关系的数据xi,y,必/,…,x〃,y〃,其中*,y称为样本点的中心.
③相关系数当心0时,表明两个变量正相关:当X0时,表明两个变量负相关.〃的绝对值越接近于1,表明两个变量的线性相关性越强.厂的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常加大于运时,认为两个变量有很强的线性相关性.
2.独立性检验⑴分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2列联表列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和K它们的可能取值分别为{幻,双}和必,方},其样本频数列联表称为2X2列联表为2义2列联表总计6次X1a ha~\~bX2C dc+d总计a+c b~\~d a+b+c+d构造一个随机变量烂=,其中〃=a+b+c+d为样本容量.a+bc+da+cb+d⑶独立性检验利用随机变量及来判断“两个分类变量有关系”的方法称为独立性检验.【概念方法微思考】
1.变量的相关关系与变量的函数关系有什么区别?提示相同点两者均是指两个变量的关系.不同点
①函数关系是一种确定的关系,相关关系是一种非确定的关系.
②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.
2.线性回归方程是否都有实际意义?根据回归方程进行预报是否一定准确?提示1不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.满足条件的只有2个,故所求概率为2=163拓展冲刺练
15.在一组样本数据(xi,yi),(X2,歹2),…,(工6,6)的散点图中,若所有样本点8,为«=1,2,…,16666)都在曲线歹=反2—J附近波动.经计算?仔=12,£=14,g疗=23,则实数6的值为17答案23I II11161£(2o o解析令,=r,则曲线的回归方程变为线性的回归方程,即=从一I此时,=1=,2666尸内14小、.1Ze14,2314”曰717v x/y=z=1=,代入=初一,得=bx-,解得人=..
6626622316.(2019•山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(万元)和销售量双万台)的数据如下年份2011201220132014201520162017广告费支出X2461113191销售量y
1.
93.
24.
04.
45.
25.
35.4
(1)若用线性回归模型拟合y与x的关系,求出》关于x的线性回归方程;
(2)若用y=c+d x模型拟合歹与x的关系,可得回归方程(=
1.63+
0.99x,经计算线性回归模型和该模型的火2分别为
0.75和
0.88,请用及2说明选择哪个回归模型更好;
(3)已知利润z与x,》的关系为z=20Qy—x.根据
(2)的结果回答下列问题
①广告费x=20时,销售量及利润的预报值是多少?
②广告费x为何值时,利润的预报值最大?(精确到
0.01)参考公式回归直线(=+云的斜率和截距的最小二乘估计值分别为6=错误!=错误!,a=y-b x.参考数据A/5^
2.
24.解
(1)V x=8,y=
4.2,错误=
279.4,错误(=708,拉但,八…..b=错误!=------------------------=
0.17,708-7X82a=y-bx=
4.2—
0.17X8=
2.84,关于x的线性回归方程为y=
0.17x+
2.
84.2・・・
0.
750.88且改越大,反映残差平方和越小,模型的拟合效果越好,A,选用y=
1.63+
0.99x更好.3由2知,A
①当x=20时,销售量的预报值歹=
1.63+
0.9920-
6.07万台,利润的预报值z=200义
1.63+
0.9920-
20193.04万元.27=
2001.63+
0.99x-x=-x+198x+326=—x2+198x+326=-x-992+10127,・•・当x=99,即x=9801时,利润的预报值最大,故广告费为9801万元时,利润的预报值最大.些基础自测题组一思考辨析
1.判断下列结论是否正确(请在括号中打“或“X”)
(1)散点图是判断两个变量是否相关的一种重要方法和手段.(V)AAA
(2)线性回归方程y=bx+a至少经过点(xi,y),(如/),…,(x〃,歹〃)中的一个点.(X)
(3)若事件X,丫关系越密切,则由观测数据计算得到的烂的观测值越小.(X)
(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.(V)题组二教材改编
2.为调查生近视情况,测得某校150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A.回归分析B.均值与方差C.独立性检验D.概率答案C解析“近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.下面是2义2列联表yi2总计X1a2173X2222547总计b46120则表中a,b的值分别为()A.94,72B.52,50C.52,74D.74,52答案c解析・・7+21=73,,=
52.又+22=6,:・b=
74.
4.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y=
0.67x+
54.
9.零件数x(个)1020304050加工时间》62758189()min现发现表中有一个数据看不清,请你推断出该数据的值为答案68解析由1=30,得y=
0.67X30+
54.9=
75.设表中的“模糊数字”为Q,则62++75+81+89=75义5,.
9.a=68,题组三易错自纠
5.某医疗机构通过抽样调查(样本容量〃=1000),利用2X2列联表和烂统计量研究患肺病是否与吸烟有关.计算得烂=
4.453,经查阅临界值表知P(烂,
3.841)仁
0.05,现给出四个结论,其中正确的是()A.在100个吸烟的人中约有95个人患肺病B.若某人吸烟,那么他有95%的可能性患肺病C.有95%的把握认为“患肺病与吸烟有关”D.只有5%的把握认为“患肺病与吸烟有关”答案C解析由已知数据可得,有1—
0.05=95%的把握认为“患肺病与吸烟有关”.
6.设某大学的女生体重y(单位kg)与身高x(单位cm)具有线性相关关系,根据一组样本数据(即,勿)(,=1,2,…,〃),用最小二乘法建立的回归方程为y=
0.85x—
85.71,则下列结论中不正确的是.(填序号).
①y与x具有正的线性相关关系;
②回归直线过样本点的中心(工,歹);
③若该大学某女生身高增加1cm,则其体重约增加
0.85kg;
④若该大学某女生身高为170cm,则可断定其体重必为
58.79kg.答案
④A解析
①正确;
②正确;
③正确.对于
④,当x=170cm时,^=
0.85X170-
85.71=
58.79,但这是预测值,不可断定其体重为
58.79kg.故不正确.题型一自主演练相关关系的判断题型突破典题深度剖析重点多维探究
1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是()脂肪含量%3530-••25-••20-•15-*10-5-*年龄
0.152253354455556A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%答案B解析观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.
2.2020•云南昆明诊断某商家今年上半年各月的人均销售额单位千元与利润率统计表如下月份234561人均销售额658347利润率%
12.
610.
418.
53.
08.
116.3根据表中数据,下列说法正确的是A.利润率与人均销售额成正相关关系B.利润率与人均销售额成负相关关系C利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系答案A解析由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.思维升华判定两个变量正、负相关性的方法1画散点图点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.2相关系数当r0时,两个变量正相关;当尸0时,两个变量负相关.AA3线性回归方程当b0时,两个变量正相关;当时,两个变量负相关.题型二回归分析命题点1线性回归分析例12020•湖北部分重点联考“精准扶贫”的重要思想最早在2013年11月提出,习近平到湘西考察时首次作出“实事求是,因地制宜,分类指导,精准扶贫”的重要指导.2015年习总书记在贵州调研时强调要科学谋划好“十三五”时期精准扶贫开发工作,确保贫困人口到2020年如期脱贫.某农科所实地考察,研究发现某贫困村适合种值
4、3两种药材,可以通过种植这两种药材脱贫,通过大量考察研究得到如下统计数据药材/的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表编号12345年份20152016201720182019单价元/公斤18202325291若药材•/药材B的收购价格始终为20元/公斤,其亩产量的频率分布直方图如下:性回归方程,并估计2020年药材/的单价;⑵用上述频率分布直方图估计药材6的平均亩产量,若不考虑其他因素,试判断2020年该村应种植药材/还是药材8并说明理由.附8=错误!=错误!,=歹-bl+2+3+4+5=3,,=18+20+23+25+29=23,请求出y关于x的线所以,=—2X—5+—1X—3+0X0+1X2+2X6—22+—12+0+12+22=
2.7,又因为y—h x+Q,即23=
2.7X3+a,解得a=
14.9,所以歹=
2.7x+
14.9;当x=6时,y=
31.
1.A2360X
0.1+380X
0.2+400X
0.35+420X
0.25+440X
0.1=401,若种植力种药材每亩地的收入约为
31.1X300=9330,若种植B种药材每亩地的收入约为401X20=80209330,所以应该种植力种药材.命题点2非线性回归例2某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费武单位千元)对年销售量式单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费即和年销售量地=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.年销售量/t620600-♦♦♦
580.♦560♦
544.520500■♦480-O343638404244464B50525456年宣传费/千元错误!®—错误!助一错误!(为一错误!(助一y wX.W.))X2W23—V3—V
46.
65636.
8289.
81.
61469108.8表中助=x w=;错误!i.i9⑴根据散点图判断歹=+6与y=c+d{哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据
(1)的判断结果及表中数据,建立y关于x的回归方程;
(3)已知这种产品的年利润z与x,y的关系为z=
0.2y—x.根据
(2)的结果回答下列问题
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?AAA附:对于一组数据Qi,判),(由,2),…,(〃〃,办),其回归直线=a+饱的斜率和截距的最小二乘估计分别为八AA幻一4=错误!,a=6u.解
(1)由散点图可以判断,>=c+d心适宜作为年销售量歹关于年宣传费x的回归方程类型.
(2)令讪=4,先建立y关于次的线性回归方程,由于d=错误!=项劣=68,
1.6A AC=y-dw=563-68X
6.8=
100.6,所以y关于的线性回归方程为y=
100.6+68IP,因此y关于X的回归方程为y=
100.6+68x.3
①由2知,当x=49时,A年销售量y的预报值y=
100.6+6849=
576.6,A年利润Z的预报值Z=
576.6X
0.2-49=
66.
32.
②根据2的结果知,年利润z的预报值AZ=
0.
2100.6+68x-x=-x+
13.6x+
20.
12.所以当X=16=
6.8,即x=
46.24时,z取得最大值.2故年宣传费为
46.24千元时,年利润的预报值最大.思维升华回归分析问题的类型及解题方法⑴求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数4A
③待定系数法利用回归直线过样本点的中心求系数Q.2利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.A3利用回归直线判断正、负相关,决定正相关还是负相关的是系数44回归方程的拟合效果,可以利用相关系数判断,当川越趋近于1时,两变量的线性相关性越强.跟踪训练12018・全国H下图是某地区2000年至2016年环境基础设施投资额双单位亿元的折线图.投资额24022020018016014012010080604020O为了预测该地区2018年的环境基础设施投资额,建立了j,与时间变量t的两个线性回归模型.根据2000年至2016年的数据时间变量,的值依次为1,2,…,17建立模型
①》=-
30.4+
13.5/;根据2010年至2016年的数据时间变量,的值依次为1,2,…,7建立模型
②:y=99+
17.5人
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.解
(1)利用模型
①,可得该地区2018年的环境基础设施投资额的预测值为;=—
30.4+
13.5X19=
226.1(亿元).利用模型
②,可得该地区2018年的环境基础设施投资额的预测值为;=99+
17.5X9=
256.5(亿元).⑵利用模型
②得到的预测值更可靠.理由如下(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线>=一
30.4+
13.5/上下,这说明利用2000年至2016年的数据建立的线性模型
①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型(=99+173可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型
②得到的预测值更可靠.(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型
①得到的预测值
226.1亿元的增幅明显偏低,而利用模型
②得到的预测值的增幅比较合理,说明利用模型
②得到的预测值更可靠.师生共研独立性检验例3(2020湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某在了解到♦学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一高二基础年级与高三三个年级学生中按照433的比例分层抽样,收集300位学生每周平均体育运动时间的样本数据(单位小时),得到如图所示的频率分布直方图.(已知高一年级共有1200名学生)
0.
1500.
1250.
1000.025]时间(小哂O
10120.075⑴据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;
(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据。
个人认证
优秀文档
获得点赞 0