还剩1页未读,继续阅读
文本内容:
f1f**〜*工*,〜*.,*\.*,**********分隔符不本***************I
1./f
2.*************Author:Mrxianglx率***本不本本不不率不#II
3.#L数据审核
4.data.head
6.data.describeinclude=,all.round
27.*****************分隔符-----------率*率*率率率率率率率率率率率率#Ii
5.data.dtypes
8.#
2.缺失值处理
9.#查看缺失值记录
10.na_records=data.isnull.anyaxis=l#彳亍
11.if na_records.sum0:
12.print缺失值i己录有na_records.sum「条,sep=簿nd=n
13.printna_records[na_records]==True
14.else:
15.print(无缺失值!i)
16.#分类型字段填充
17.data[sex]=data[sex].fillna,others,
18.#数值型字段填充
19.data[age*]=data[age,].fillnaO
20.datafage1]=data[age].fillnadata[age].mean
21.data[age]=data[age].fillnamethod=pad
22.data[age]=data[age].fillnamethod=bfiir
23.data[age*]=data[age1].fillnamethod=linear#or polynomialor from_derivatives orakima
24.#丢弃NA值
26.*****************分隔符*****************
25.data=data.drona
27.#
3.异常值处理
28.#基于3原则选择
29.def outlierdatacol:z
30._mean=data[col].mean
31._std=data[col].std
32.s_min s_max=_m ean-3*_std_m ean+3*_stdz z
33.is_outlier=data[col]s_min|data[col]s_max
34.print#Mi£i§^i+np.sumis_outlier/\sep=,end=,\n,z
35.print,异常数据列下,
36.printdata[is_outlier==True]
37.data.loc[is_outlier==True,col]=_mean,
38.print修改后的值如下
39.printdata[is_outlier==True]
40.return data
41.#基于分位数选择
42.def outlierdata,col:
43.desc=data.describe.T
44.per_25=desc[25%].values
[0]
45.per_75=desc[75%].values
[0]
46.spacing=per_75-per_
2547.s_min,s_max=per_25-
1.5*spacing,per_75+
1.5*spacing
48.is_outlier=data[col]s_min|data[col]s_max
49.print,异常数据总计,np.sumis_out:lier/条/Sep=,end=,\n
50.print异常数据列下
51.printdata[is_outlier==True]
52.data.loc[is_outlier==True,col]=desc[mean,].values[O]
53.print修改后的值如下
54.printdata[is_outlier==True]
55.return data分隔符
56.
57.#4,重复值处理
58.if lendata[data.duplicated]==0:,
59.print无重复值!
60.else:
61.print,重复值检测结果如下\n,data[data.duplicated],sep=#查看重复值
62.data=data.drop_duplicates#删除重复值
64.II〜上一分隔符、工—fI****************木*****************
63.print\n开始删除重复值\n…\n重复值已删除
65.#
5.数据标准化
66.from sklearn.preprocessing importStandardScaler,MinMaxScaler
67.ss_model=StandardScaler#Z-socre标准化
68.#mm_model=MinMaxScalerO,l#MaxMin数据归一化
69.data[age]=ss_model.fit_transformdata[[age,]]分隔符
70.。
个人认证
优秀文档
获得点赞 0