还剩2页未读,继续阅读
文本内容:
实验报告WEKA
一、数据集实验采用Wisconsin医学院的William H.Wolberg博士提供的乳腺癌的数据样本所有数据来自真实临床案例,每个案例有10个属性其中前九个属性是检测指标,每个属性值用1到10的整数表示,1表示检测指标最正常,10表示最不正常第十个属性是分类属性,指示该肿瘤是否为恶性数据集中的肿瘤性质是通过活检得出的结果Clump Thicknessinteger[1,10]肿块厚度Cell_Size_Uniformity integer[1,10]细胞大小的均匀性Cell_Shape_Uniformity integer[1,10]细胞形状的均匀性边缘粘性Marginal_Adhesion integer[1,10]单上皮细胞的大小Single_Epi_Cell_Size integer[1,10]裸核Bare_Nuclei integer[1,10]Bland Chromatininteger[1,10]乏味染色体Normal Nucleoliinteger[1,10]正常核Mitoses integer[1,10]有丝分裂Class{benign,malignant肿瘤性质该数据集共有个实例669聚类、关联规则三部分操作,以熟悉weka软件的本次实验对以上数据集进行了分类、操作使用,并尝试挖掘数据中的实际价值分类中,尝试用前九个属性值来预测肿瘤的性质(良性、恶性);聚类中,寻找各个簇病人(尤其是恶性肿瘤病人)的显著特征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性
二、分类
1.数据预处理
2.将数据集分割为两个,分别作为(个)和(个)wisconsin-breast-cancer trainset469test set
2003.实验过程用分类树对进行分类运算,结果如下j48train setClassifi«routput===Evaluation ontraining set======Summary===Correctly ClassifiedInstances
48096.1924%Incorrectly ClassifiedInstances Kappa
193.8076%scacisclc Meanabsoluce error Root mean
0.
92080.0684squared errorRelative absoluteerrorRoot
0.1848relative squared error TotalNumker of
14.3187Instances
37.8035%%499—Detailed AccuracyBy Class——■TP RateFP RatePrecision]Recall F-Measure ROCArea Class
0.
9570.
030.
980.
9570.
9680.977kenlgn
0.
970.
0430.
9360.
970.
9530.977malignantWeighted Avg.
0.
9620.
0350.
9630.
9620.
9620.977——Confusion Matrix——a b--classified as28913I a—benignt6191I=malignant结果表明,模型分类的准确率达到了表明有例良性肿瘤被错位的归类为96%Confusion Matrix13O恶性;有例恶性肿瘤被错误的归类为良性
4.5%
63.1%o将以上模型应用于以检验预测准确率,运行结果如下test setClassifieroutput===Evaluation ontest set===A=Summary=Correctly ClassifiedInstances19899%Incorrectly ClassifiedInstances21%Kappa statistic
0.9713Mean absoluteerror
0.0291Root meansquared error
0.096Relative absoluteerror
6.5859%Root relativesquarederror
21.3521%Total Numberof Instances200===Detailed AccuracyBy Class===TP RateFP RatePrecision1Recall F-Measure ROCArea Class
0.
987010.
9870.
9940.997benign
10.
0130.
95710.
9780.997malignantWeighted Avg.
0.
990.
0030.
990.
990.
990.997=Confusion Matrix===a b--classified as1542I a=benign044I b=malignant结果表明,预测准确率达到了表示有例良性肿瘤被错误的归类为恶性99%o Confusion Matrix2;而恶性肿瘤均被正确分类
1.3%
4.结果分析Cell_Size_Uniformity首先,通过检验,方法通过训练集生成的决策树对肿瘤性质的预测准确率可以稳定在较高水j48平,因此可以将此模型用于临床诊断这对于因医疗条件不佳而不能进行活检或病灶位置不易进行活检的病人来说具有较高的实用价值其次,从分类树可以看出,肿瘤性质与“细胞大小均匀性”“裸核”属性的关联度较高;而“细胞形状均匀性”“边缘粘性”“单上皮细胞大小”“乏味染色体”“有丝分裂”对肿瘤良、恶性的诊断几乎没有参考意义这表明在日常诊断中,若受医疗条件和治疗时机的制约,可以适当减少检测指标,根据预测结果尽早采取治疗措施最后,通过对的分析可知,该模型存在两类错误:将良性误诊为恶性、将恶性误诊ConfusionMatrix为良性这两类错误都是应该极力避免的,第一类错误可能导致病人情绪低落、不配合治疗,最终Ynalignant1045/
2.23,|benign90/
1.0,导致病情恶化;第二类错误可能导致治疗方案的错误,过于激进的治疗可能适得其反很难评判这两类错误哪种更为严重,但模型的结果表明,犯第二类错误的概率较低,特别在测试集中,准确率达到了100%
三、聚类
1.数据预处理
2.由于聚类中对于离散属性将显示其众数,不利于了解数值结构,所以将属性类型由Class Nominal转换为用表示即良性;表示即恶性这样各个簇中的数值越NumeriCo0benign,1malignant,接近表明该簇中恶性肿瘤比例越高1,
3.实验过程用算法,设置参数进行聚类运算,得到结SimplekMeans numClusters=5,seed=50果如下ClustereroutputkMeansNumber ofiterations:22Within clustersum ofsquared errors:
193.5838509852088Missing valuesglobally replacedwith mean/modeCluster centroids:Cluster#Attribute FullData0123469917253188110131Clump_Thickness
4.
41775.
05884.
0871.
24477.
15457.229Cell_Size_Uniformity
3.
13454.
35291.
27271.
12234.
48188.3282Cell_Shape_Uniformity
3.
20744.
35291.
4191.
21284.
79098.0458Marginal_Adhesion
2.
80694.
17651.
34391.
13834.
34556.5573Single_Epi_Cell_Size
3.
21652.
03561.
97343.
86366.5038Bare_Nuclei
3.
54474.
65231.
26981.
31537.
9057.3324Bland_Chromatin
3.
43784.
11762.
04351.
99474.
84556.9313Normal_Nucleoli
2.
8675.
41181.
18181.
06383.
77277.6183Mitoses
1.
58941.
17651.
02771.
10111.
77273.2748Class
0.344800011Time takento buildmodel fulltraining data:
0.08seconds===Model andevaluation ontraining set===Clustered Instances0172%125336%218827%31101€%413119%
4.结果分析上述聚类结果共有五个簇,而且恰巧属性的均值均为整数,这表明每一个簇中的各实例的Class肿瘤性质相同#0:这一簇中各属性偏离正常值的成都相对较高,但肿瘤性质为良性这种情况仅有17个实例,表明该情况出现的概率很低#1:除“肿块厚度”这一属性外,其他指标都很正常,肿瘤性质为良性这种情况有253个实例,甚至超过了“典型良性”簇中的实例数,这表明“肿块厚度”这一属性要较大程度偏离正常值才可能对应恶性肿瘤#2:我们可以称这一簇为“典型良性”,其各属性偏离正常程度都很低#3:除“肿块厚度”“裸核”外,其他属性值都不是很高,但肿瘤性质为恶性这种情况占比约为所有恶性肿瘤患者一半#4这一簇可称为“典型恶性”,几乎每一个属性都很不正常,然而只有约一半的恶性肿瘤患者属于这种情况根据聚类分析结果,可以帮助医生针对可能的几种发病情况,制定不同的治疗计划另外,对各个簇所占比例的研究可以帮助医药工作者更好地了解乳腺癌症状的分布
四、关联规则
1.数据预处理
2.为使用Apriori算法,将前九个属性数据类型改为离散型使用filter中的NumericToNominal方法将integer[1,10]离散化为{1,2,3,4,5,6,7,8,9,10)
3.实验过程首先选用置信度作为衡量参数,设置接受的最小参数值为
0.8,结果如下Best rulesfound:
1.Normal_Nucleoli=l Class=benign402=Mitoses=l394conf:
0.
982.Class=benign458=Mitoses=l445conf:
0.
973.Bare_Nuclei=l402=Mitoses=l389conf:
0.
974.Bare_Nuclei=l402=Class=benign387conf:
0.
965.Normal_Nucleoli=l443=Mitoses=l426conf:
0.
966.Marginal_Adhesion=l407=Mitoses=l388conf:
0.
957.Normal_Nucleoli=l Mitoses=l426=Class=benign394conf:
0.
928.Normal_Nucleoli=l443=Class=benign402conf:
0.
919.Normal_Nucleoli=l443=Mitoses=l Class=benign394conf:
0.
8910.Mitoses=l Class=benign445=Normal_Nucleoli=l394conf:
0.89再选用提升度作为衡量参数,设置接受的最小参数值为L5,结果如下:
1.Cell_Size_Unifonnity=l384=Nonnal_Nucleoli=l Mitoses=l Class=benign349conf:
0.91lift:
1.61lev:
0.19
[132]conv:
4.
652.Normal_Nucleoli=l Mitoses=l Class=benign394=Cell_Size_Uniformity=l349conf:
0.89lift:
1.61lev:
0.19
[132]conv:
3.
863.Cell_Size_Uniformity=l Mitoses=l377=Normal_Nucleoli=l Clas3=benign349
[132]conv:
5.52conf:
0.93lift:
1.61lev:
0.
194.Normal_Nucleoli=l Cla33=benign402=Cell_Size_Uniformity=l Mitose3=l349
[132]conv:
3.43conf:
0.87lift:
1.61lev:
0.19Best rulesfound:
5.Cell_Size_Uniformity=l384=Normal_Nucleoli=l Class=benign355conf:
0.92lift:
1.61lev:
0.19
[134]conv:
5.
446.Normal_Nucleoli=l Cla33=benign402=Cell_Size_Uniformity=l355conf:
0.88lift:
1.61lev:
0.19
[134]conv:
3.
777.Cell_Size_Uniformity=l Normal_Nucleoli=l356=Mitoses=l Clas3=benign349conf:
0.98lift:
1.54lev:
0.18
[122]conv:16,
178.Mitoses=l Clas3=benign445=Cell_Size_Uniformity=l Normal_Nucleoli=l349conf:
0.78lift:
1.54lev:
0.18
[122]conv:
2.
259.Cell_Size_Uniformity=l384=Mitoses=l Cla33=benign374conf:
0.97lift:
1.53lev:
0.19
[129]conv:
12.
6910.Mitose3=l Cla33=benign445=Cell_Size_Uniformity=l374conf:
0.84lift:
1.53lev:
0.19
[129]conv:
2.
794.结果分析不难发现,以上这些关联规则有一些是没有价值的,这说明在数据预处理阶段以及关联规则算法的参数设置上还有很大的改进空间这些规则不仅仅可以用于肿瘤病情的预测由于挖掘出的关联规则并不是简单的因果关系,而是多维的相关性,所以还可以辅助乳腺癌的病理研究比如“细胞大小的均匀性”和“有丝分裂”之间、“边缘粘性”和“有丝分裂”之间的强关联性等等。
个人认证
优秀文档
获得点赞 0