还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
酒类销售数据分析项目
一、实践目的
1.实践背景近几年年,大数据一词越来越多地被提及,象征着信息大爆炸时代的来临数据正在迅速膨胀并变大,它决定着社会的未来发展虽然很多企业一开始可能并没有意识到数据爆炸性增长意味着什么,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性《纽约时报》2012年的一篇专栏中提到,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于各种经验和直觉哈佛大学社会学教授加里・金说“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程”
2.实践目的随着IT行业的发展,IT技术已经不像以前那样简单了,我们学习计算机相关专业的学生找工作也是越来越难,所以学习大数据的分析对我们来说更新掌握一种学校学不到的技术,在往后的求职过程中也会有所帮助对于个人来说学习大数据技术,可以接触到很多算法,这些算法往往是通用的,可以为转型人工智能相关热点方向做准备数据的价值越来越被企业所重视,基于数据的分析、基于数据的运营、基于数据的决策成为了现代企业的必然选择,而数据本身也变得越来越庞大、处理过程越来越复杂,在这种背景下,大数据技术成为了行业的必然的选择,成为了IT技术中的一大基石
二、实践内容此次的实训历时一个月,我们主要学习了python的数据分析在一开始因为对这一门新语言的不了解,针对性的讲了一下python的基础语法以及在后面数据分析时需要掌握的技能,为后期的数据分析任务做了充足的的准备在实训中期重点讲了数据清洗、数据可视化以及机器学习模型数据清洗是top_Wine=re_Wine.iloc[10,:J print top Wine上个月销售量商品名称江小白白酒清香型40度Se.100ml*6瓶整箱装高粱泗63913红星二锅头酒大二绿瓶56度500ml清香型白泗酒厂直供50849贵州茅台集团茅坛窖龄酒52度浓香型国产白泗500ml4821852度五粮液股份52度A级金装版500nli浓香型国产白酒42137五粮液股份公司五星A级上品52度500ml浓香型白酒29628【天猫超市】红星二锅头酒大二绿瓶56度500ml清香型白酒酒厂直供23850五粮液股份公司A级精品52度500ml浓香型国产白泗20925江小白白酒清香型40度J0YY0UTH150nil*6版整箱高粱酒11629牛栏山二锅头百年陈酿(三牛)52度400ml浓香型白酒11251古井贡酒年份原浆献礼50度500nli*2浓香型白酒古井贡93918条形图展示销售数量前十的酒top_Wine.plotkind=bar pit.title酒品销售前十情况pit.xlabel C酒品种类plt.ylabelC上个月销售量pit.legendloc=0pit.savefig,Wine,png pit.show酒品错售前+情况
60000.50000■400003000020000仁印A胸根s0果黑N S林8一0也整-H索8升原黑期M H二mw集M XR及蛾匕H到e mzs责I IF冏M-茹t t.回K n*2B Jttz黑V K⑼s上蒯lm至原l m京e N乩於便水深一索洋M*t fB回利餐附U吗l a*H»l蒯M誓*NI长嫌隈R9a»Q$II用水注z gI Q制H”回【出即限而茎蜜慢H9・-3s吩原梅番金H次z赛酬口加以条因t Dw一R m】卷内苴展l no uo r8副枷口婆目反e8W“端«I ms l一王如H副事专i10000•酒品於美MSKG-H«*$-*8«««*$«|||»
四、实践体会持续了一个月的实训也结束了,现在的自己和一个月之前的自己相比也是掌握了更多的关于计算机的知识,确切的说应该是关于数据分析的知识和以前学过的C语言、C++,jave来说,Python的核心是简洁直接清晰,Python认为最好的方式只有一种,它也只呈现那最好的一面Python底层的源代码其实可以理解为C语言的一些常用功能的库,Python进程就是加载了C库然后读取配置文件执行相应的代码相同的功能,Python进行了一次转义,肯定会比直接用C要慢,但你不一定能这么快的写出这样运行比Python快的C代码这是我学习完python之后的第一印象在没有了解python以前,一直用的是C/C++来写自己的东西,觉得C和C++没有什么是不可能的但是在这一个月接触python以来,觉得C/C++还是太慢了,python自己分装的函数总会给你意想不到的结果其实python基础的语法和函数之类的都和C/C++没有太大的区别,例如输入、输出、变量类型,自定义函数之类的但是python在大数据处理这块却有着C/C++望尘莫及的方便,和R语言处理数据有很大的相似之处Python和R语言的数据结构基本上相同,例如,列表、矩阵、数据框这些在处理数据这块更是有着惊人的相似,它们都会重编码某些值为缺失值或者在分析中排除缺失值;除了重编码还会进行类型转换,例如将如期转换为字符型变量等等这让本就对R语言感兴趣的我产生了极大的兴趣在一开始导入数据之前,我们需要明白每一个数据的字段含义,初始数据越多,我们前期的工作量越大,你需要理解的东西也就越多,在后期你才可以更加快速的处理数据导入数据之后,我们需要选取合适的数据结构来保存数据,以便于能更快的处理数据;后期数据处理的快慢取决于我们用到的数据结构和算法,可见数据结构的重要性接下来处理就该梳理数据了,处理数据最重要的一点就是细心细心在细心,谨慎谨慎在谨慎,如果处理失误,就需要重新处理,这是一件很麻烦的事情数据可视化图表是可视化技术在非空间数据领域的应用,使人们不再局限于通过数据表格来观察和分析数据信息,而能以更直观的方式看到数据及其关系,清晰而明确地展示数据分析的结果,提供更好的用户体验简单的说就是用户不用在通过枯燥无味的数据来了解数据,而是通过简洁明了的图形来了解数据构建模型和可视化的时候,大概是我们最觉得有成就感的时候,不管前期做多少铺垫,在这一环节才是出最重要的时候,这要这一步绘制处的图和模型正确,我们的预测就会正确,才不会辜负这次所有的努力到这一步,大数据的处理也就基本完成了总的来说还是对这次的实训比较满意的,不仅仅是因为这次的酒类大数据分析任务圆满完成,还有因为学习到了python这一门语言,让我看到了计算机领域的前景从2012年大数据时代到来已经有7年时间了,大数据处理的热度一直在直线上升;现在非常火热的人工智能也是在大数据的基础之上进行的,在未来的非常多的领域中都离不开大数据的身影,所以我觉得在未来掌握这一门技术也是非常有必要的作为一个全新互联网的产业,大数据仍然处于快速发展初期,在这个快速发展的领域,每时每刻都在产生新的事物从整体发展角度评价,大数据行业的未来将呈现直线上升发展趋势,就业前景非常乐观,这对于我们即将走上求职道路的大四同学也是一个不可多得的选择加油吧,奇迹总会出现在你的身上,只要你做好准备指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等一致性consistency check是检查每个变量合适的取值范围,检查数据是否符合要求,发现超出正常范围、逻辑上不合理的数据无效值和缺失值是指数据中可能存在一些无效值和缺失值,需要给予合适的处理常用的处理方法有估算,整例删除,变量删除和成对删除数据可视化主要指在借助于数据图形化,清晰有效地表达想要传递的信息它被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量机器学习的研究来源于人工智能领域,但是机器学习的方法却应用于数据科学领域,因此我们将机器学习看作是一种数学建模更合适机器学习的本质就是借助数学模型理解数据当我们给模型装上可以适应观测数据的可调参数时,“学习”就开始了;此时的程序被认为有从数据中“学习”的能力一旦模型可以拟合旧的观测数据,那么它们就可以预测并解释新的观测数据在后期我们开展了大型的综合案例预测,对于案例中的数据进行清洗,可视化等人为的预估案例以后的销售情况
三、实践过程
1.数据分析的目数据分析是指用合适的统计分析方法对收集来的大量数据进行分析和预测,提取有用的信息和形成结论而对数据加以详细概括总结的过程这一过程也是质量管理体系的支持过程在实用中,数据分析可帮助人们作出判断,以便采取适当行动数据分析是数学与计算机科学相结合的产物
2.数据分析基本过程数据分析基本过程包括获取数据、数据清洗、构建模型、数据可视化以及消费趋势获取数据是数据分析的前提条件,拿到数据我们首先要将数据导入才能继续下一步的操作数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等构建模型是机器学习的一大要素,它和策略、算法共称为机器学习的三大要素模型、策略、算法的确定意味着机器学习的方法的确定数据可视化图表是可视化技术在非空间数据领域的应用,使人们不再局限于通过数据和表格来了解和分析数据信息,而能用更直观的方式看到数据和其关系,清晰而明确地展示数据分析的结果,提供更好的用户体验消费趋势建立在以上的四个部分基础之上才能更好的分析消费的趋势,才能给出建议
3.采集数据1读取数据import pandasas pddf=pd.read_excel J酒类销售数据.xlsx,,dtype=str2查看数据df.shape8141,9统计出来总共有8141行9列数据3查看数据字段df.columns工ndex[商品工D\商品名称‘价格元,,近30天销量件、•广告词促销活动;‘评论数曰期:‘品牌dtype=object14统计字段的缺失情况df.count商品动8141商品8141价格8139近名8141广告件4726促错天®4150环论词7081日期活称品牌数元81418141销总共有8141行9列数据,但是“价格元”、“广告词”、“促销活动”、“评论数”这四列的数据都不够8141行,这就意味着数据中存在缺失值,这些缺失数据在后面步骤中需要进一步处理
4.数据清洗1选择子集在我们获取到的数据中,可能数据量非常庞大,并不是每一列都有价值都需要分dt30ypiIDIe:C4nt析,这时候就需要从整个数据中选取合适的子集进行分析,这样能从数据中获取最大价值在本次案例中不需要选取子集,暂时可以忽略这一步2列名重命名在数据分析过程中,有些列名和数据容易混淆或产生歧义,不利于数据分析,这时候需要把列名换成容易理解的名称,可以采用rename函数实现使用rename函数,把〃近30天销量件〃改为〃上个月销售量”df.rename columns二{近30天销量件:上个月销售量},inplace=True3缺失值处理获取的数据中很有可能存在缺失值,如果不处理这些缺失值会干扰后面的数据分析结果缺失数据常用的处理方式为删除含有缺失数据的记录print删除缺失值前:,df.shapedf.infodf=df.dropnasubset[价格元‘,‘广告词‘,‘促销活动‘,‘评论数],how=anyprint\n删除缺失值后,df.shape df.info删除缺不值前8141,9,class pandas,core,frame.DataFrame Rangeindex8141entries,0to8140Data columnstotal9columns:商品ID8141non-nullobject商品名称8141non-null object价格元8139non-null object上个月销售量8141non-null object广告词4726non-null object促销活动4150non-null object评论数7081non-null object日期8141non-null object品牌8141non-null objectdtypesobject9memory usage:
572.5+KB删除缺失值后2411,9class pandas,core,frame.DataFrameInt64Index2411entries,3to8089Data columnstotal9columns商品ID商品名2411non-null object称价格(元)2411non-null object上个月销售量2411non-null object广告词促销活2411non-null object动评论数日2411non-null object期品牌2411non-null object2411non-null object2411non-null object2411non-null objectdtypes:object9memory usage:
188.4+KB
(4)数据类型转换在导入数据时为了防止导入不进来,会强制所有数据都是object类型,但实际数据分析过程中有些列的数据需要浮点型(float)数据,有些数据需要改成整型(int)数据,“日期”需要改成时间格式,因此需要对数据类型进行转换df[价格(元)]=df[价格(元)astypeC float)df[上个月销售量]=df[上个月销售量’].astype(int64)df[评论数]=df[评论数astypeC int64df.dtypes商品ID商品名object称价格(元)上object个月销售量float64广告词int64促销活动object评论数object日期int64品牌objectdtypeobject object
(5)去除日期数据中的时分秒def splitSaletimetimeColser:timelist=[]for valin timeColser:data=val.split J
[0]timelist,appenddatatimeSer=pd.Series timelistreturn timeSertime=df.loc[:,日期]data=splitSaletimetimedf.loc[:,日期]=datadf.head
(5)日期数据转为类型字符串转日期errors:coerce如果原始数据不符合日期的格式,转换后的值为NaTdf.loc[:日期]=pd.to_datetime(df.loc[:,日期],format=,errors=coerce,)6UH勺除存在缺失值的行df.dtypes转换日期过程中不符合日期格式的数值会被转换为空值Nonedf=df.dropna(subset=「价格(元)‘,‘广告词‘,‘促销活动‘,’评论数],how=any7数据排序此时时间是没有按顺序排列的,所以还是需要排序一下,排序之后索引会被打乱,所以也需要重置一下索引其中by:表示按哪一列进行排序,ascending二True表示升序排列,ascending=False表示降序排列按销售时间进行降序排序df二df.sort valuesby=上个月车肖售量ascending=Falsedf.head8重置排序时被打乱的索引df=df.reset_indexdrop=Truedf.head9查看数据的描述统计信息价格元上个月销售量评论数
2411.
0000002411.
0000002411.000000count
351.
449444373.
9344671085.967234mean
507.
7205011282.
8931872464.528391std
8.
5000000.
0000000.000000min25%
99.00000019,
00000065.00000050%
188.00000066,
000000275.00000075%
388.
000000237.
000000882.
0000005394.
00000026620.
00000022575.000000maxdf.describe
5.构建模型及数据可视化数据清洗完成后,需要利用数据构建模型就是计算相应的业务指标,并用可视化的方式呈现结果1每种酒每天均销售的瓶数kpil Df=df.drop_duplicates subset二「商品名称]totall=kpil_Df.shape
[0]print,酒种类=,totallSales=kpil_Df,loc[:,[商品名称,价格元‘,’上个月销售量]]Sales_matrix=Sales.as_matrixfor iin rangelenSalesmatrix:print C%_50s%-10s%-10d,%Sales_matrix[i]
[0],日均销售瓶数,Sales_matrix[i]
[2]/3052度五粮液股份52咬A级金装版500ml浓件型国产白酒H均销售瓶数887贵州茅台集团茅坛窖龄酒52度浓香型国产白酒500ml日均销售瓶数500江小白白酒清香型40度Se.100ml*6瓶整箱装高粱酒日均销售瓶数:484红星二锅头酒大二绿版56度500nli清杏型白酒酒厂工[供口均销售粒数481【天猫超市】红星二锅头酒大二绿瓶56度500ml清香型白酒酒厂直供日均销售瓶数400五粮液股份公司五星A级上品52度500ml浓香型白酒H均销售瓶数384fi粮液股份公司A级精品52度500ml浓香型国产白酒H均销传瓶数318【天猫超市】江小白白酒迷你小酒版清香型45度100ml*2瓶高粱酒日均销售粒数254“粮液股份52度A级窖陈500nli浓香型国产口酒日均销售瓶数:248牛栏山二锅头百年陈酿三牛52度400ml浓香型白酒H均销售瓶数190古井贡酒年份原浆献礼50度500ml*2浓香型白酒古井贡日均销售瓶数172江小白白酒清香型40度J0YY0UTH150ml*6瓶整箱高粱酒H均销售瓶数159古井贡酒年份原浆献礼50度500ml*6浓香型白酒整箱U均销传瓶数156五粮液股份公司富贵天下柔和级52度500ml白酒II均销售粒数1422每种酒每天平均消费金额for iin rangelenSales_matrix:print J%-50s%-10s%~
10.2fJ%Sales_matrix[i]
[0],J日均消费金额,Sales_matrix[i]
[2]/30*Sales_matrix[i]
[1]52度五粮液股份52度A级金装版500nli浓行型国产门酒II均消费金额
119790.00贵州茅台集团茅坛窖龄酒52度浓香型国产白酒500ml H均消费金额
49969.98江小臼白酒清香型40度Se.100ml*6瓶整箱装高粱酒日均消费金额:
52369.20红星二锅头酒大绿瓶56度500ml清香型白酒酒厂宜供日均消费金额
5774.80【天猫超市】红星二锅头酒大二绿瓶56度500ml清香型白酒酒厂直供日均消费金额
4802.40五粮液股份公司五星A级上品52度500ml浓吞型臼酒日均消费金额
53061.00五粮液股份公nj A级精品52度500ml浓吞型国产白酒日均消费金额
16574.13【天猫超市】江小白白酒迷你小酒版清香型45度100ml*2瓶高粱酒日均消费金额
9156.00五粮液股份52度A级窖陈500ml浓香型国■酒日均消费金额:
34283.80牛栏山二锅头百年陈酿三牛52度400nli浓香型白酒U均消费金额
18892.50古井贡酒年份原浆献礼50度500ml*浓否型门酒古井贞H均消贽金额
30996.00江小臼白酒清香型40度J0YY0UTH150ml*6瓶整箱高粱酒H均消费金额
20554.00古井贡酒年份原浆献礼50度500ml*6浓香型白酒整箱H均消费金额
85800.00五粮液股份公司富贵天卜.柔和级52度500ml白酒日均消费金额
9823.30泸州老窖六年陈/六年窖头曲52度500ml*6瓶整箱装白酒礼品酒日均消费金额
49781.33[天猫超市】洋河海之蓝42度480ml蓝色经典之绵柔型白酒优惠日均消费金额:
17725.3342度洋河海之找480ml蓝色经典绵柔型白酒猫超自营3消费趋势import matplotlib.pyplot aspitimport matplotlibfrompylab importmplmpl.rcParams[J font,sans-serif5]=[SimHei]groupDf=dfgroupDf.index=groupDf[J日期’]groupDf.head gb=groupDf.groupbygroupDf.index,dayprint gbdayDf=gb.sumprintdayDf价格(元)上个月销售量评论数日期
1.
025608.
30492911047333.
052135.
1020080207686.
020798.
805294622300815.
043447.
00262318095124.
034675.
30153844464926.
041495.
0015423728375827.
020057.
9116378634281429.
049202.4032487350604描绘每天的消费金额图pit.plot dayDf[价格元]pit.title按天消费金额图’pit.xlabel天pit.ylabel价格元pit.savefig dayDf.pngpit.show
(5)酒类销售数量前十的品牌。
个人认证
优秀文档
获得点赞 0