Python_pandas_数据清洗和预处理_pd

佚名 · 0743

资料

文件大小17.08 KB

文件格式docx

分享时间2025-05-11

更多此类文档

立即下载

还剩1页未读，继续阅读

文本内容:

f1f**〜*工*，〜*.，*\.*,**********分隔符不本***************I

1./f

2.*************Author:Mrxianglx率***本不本本不不率不#II

3.#L数据审核

4.data.head

6.data.describeinclude=,all.round

27.*****************分隔符-----------率*率*率率率率率率率率率率率率#Ii

5.data.dtypes

8.#

2.缺失值处理

9.#查看缺失值记录

10.na_records=data.isnull.anyaxis=l#彳亍

11.if na_records.sum0:

12.print缺失值i己录有na_records.sum「条,sep=簿nd=n

13.printna_records[na_records]==True

14.else:

15.print（无缺失值！i）

16.#分类型字段填充

17.data[sex]=data[sex].fillna,others,

18.#数值型字段填充

19.data[age*]=data[age,].fillnaO

20.datafage1]=data[age].fillnadata[age].mean

21.data[age]=data[age].fillnamethod=pad

22.data[age]=data[age].fillnamethod=bfiir

23.data[age*]=data[age1].fillnamethod=linear#or polynomialor from_derivatives orakima

24.#丢弃NA值

26.*****************分隔符*****************

25.data=data.drona

27.#

3.异常值处理

28.#基于3原则选择

29.def outlierdatacol:z

30._mean=data[col].mean

31._std=data[col].std

32.s_min s_max=_m ean-3*_std_m ean+3*_stdz z

33.is_outlier=data[col]s_min|data[col]s_max

34.print#Mi£i§^i+np.sumis_outlier/\sep=,end=,\n,z

35.print,异常数据列下,

36.printdata[is_outlier==True]

37.data.loc[is_outlier==True,col]=_mean，

38.print修改后的值如下

39.printdata[is_outlier==True]

40.return data

41.#基于分位数选择

42.def outlierdata,col:

43.desc=data.describe.T

44.per_25=desc[25%].values

[0]

45.per_75=desc[75%].values

[0]

46.spacing=per_75-per_

2547.s_min,s_max=per_25-

1.5*spacing,per_75+

1.5*spacing

48.is_outlier=data[col]s_min|data[col]s_max

49.print,异常数据总计,np.sumis_out:lier/条/Sep=,end=,\n

50.print异常数据列下

51.printdata[is_outlier==True]

52.data.loc[is_outlier==True,col]=desc[mean,].values[O]

53.print修改后的值如下

54.printdata[is_outlier==True]

55.return data分隔符

56.

57.#4,重复值处理

58.if lendata[data.duplicated]==0:，

59.print无重复值！

60.else:

61.print,重复值检测结果如下\n,data[data.duplicated],sep=#查看重复值

62.data=data.drop_duplicates#删除重复值

64.II〜上一分隔符、工—fI****************木*****************

63.print\n开始删除重复值\n…\n重复值已删除

65.#

5.数据标准化

66.from sklearn.preprocessing importStandardScaler,MinMaxScaler

67.ss_model=StandardScaler#Z-socre标准化

68.#mm_model=MinMaxScalerO,l#MaxMin数据归一化

69.data[age]=ss_model.fit_transformdata[[age,]]分隔符

70.。

更多此类文档

关于文档

个人认证

优秀文档

获得点赞 0

文件大小17.08 KB

文件格式docx

分享时间2025-05-11

更多此类文档

立即下载