sas12周 聚类分析

SAS中实现聚类分析的过程
CLUSTER过程:用11种不同的(计算距离的)方法,实现系统聚类
FASTCLUS过程:用k平均值法进行快速聚类
VARCLUS过程:通过斜交多组分量分析,对变量进行聚类
TREE过程:画树状图(谱系图)

 

董大均书p395,第2、5、6题

image

 

data test1;

input age tj sg ts xx xs ck bj jj bs @@;

cards;
16  17  09  14  05.14  4  09  54  35.32  03.92
18  12  08  14  03.57  5  11  46  30.66  03.30
19  11  08  02  11.67  3  12  53  37.01  03.08
20  18  09  05  07.04  5  09  47  30.10  03.90
21  15  09  06  06.57  5  10  57  37.14  02.72
22  19  08  14  03.29  5  11  46  30.66  03.24
24  16  09  05  03.50  2  10  43  27.64  04.41
25  19  09  06  03.57  1  09  42  26.54  04.49
26  17  09  14  03.86  3  09  52  29.24  03.54
27  15  08  01  06.00  4  09  42  32.30  04.38
28  18  07  14  03.98  5  09  51  33.94  03.03
29  20  10  14  01.93  5  08  43  30.79  04.51
30  14  10  14  02.93  5  07  45  32.67  04.45
31  19  08  10  03.73  5  10  33  19.91  05.71
32  14  10  14  03.57  2  12  44  31.92  04.12
33  15  09  14  03.36  5  06  42  28.61  05.39
34  15  07  14  03.94  5  10  43  30.26  04.31
35  17  09  14  02.64  2  11  27  27.79  04.45
36  18  09  12  03.23  5  10  38  25.83  04.68
37  19  08  07  03.00  5  09  38  25.38  03.73
38  16  08  07  04.38  4  11  35  23.34  04.99
39  20  08  14  01.43  5  11  46  30.30  03.41
40  17  08  07  02.05  2  12  37  24.56  04.49
41  17  09  11  03.70  5  11  35  23.76  04.33
42  16  09  08  03.33  5  09  12  32.11  02.63
43  20  08  03  02.50  2  10  39  25.90  03.77
44  14  09  14  02.57  4  10  43  27.03  03.71
45  18  08  02  02.67  5  08  39  27.51  03.94
46  20  08  10  02.82  5  10  40  27.06  03.54
47  18  09  14  01.93  5  09  43  27.95  05.01
48  20  08  03  05.00  5  12  37  24.70  03.73
49  18  08  05  01.87  5  10  34  22.54  04.77
50  13  08  04  03.20  5  11  45  33.47  02.78
51  16  07  14  03.58  5  02  40  26.27  04.38
52  17  08  14  02.86  5  07  34  23.93  05.10
53  10  08  14  03.43  3  04  41  26.01  04.04
54  11  08  08  06.18  5  02  37  25.45  03.80
55  11  08  14  02.15  4  00  42  29.68  02.61
56  08  07  09  22.10  1  05  45  29.80  06.67
57  12  10  07  04.50  5  08  24  15.95  07.29
58  10  06  09  09.50  2  04  43  28.96  03.50
59  11  10  12  08.69  0  12  44  31.15  02.89
60  12  07  08  08.78  2  08  18  12.92  07.43
61  10  05  02  06.35  5  00  15  08.96  11.14
62  12  08  07  17.00  5  08  32  21.83  04.71
63  14  09  04  09.40  2  12  42  28.96  04.01
64  12  09  05  03.00  5  12  30  22.18  05.41
66  07  07  03  08.49  5  01  29  20.62  05.67
67  15  08  06  03.43  5  06  37  24.65  05.50
68  14  05  06  08.00  0  08  40  28.06  04.34
69  06  07  02  08.34  2  02  29  17.02  04.69
70  13  09  11  09.40  4  01  38  25.83  03.70
71  15  09  14  04.50  5  06  41  28.01  05.06
72  10  07  02  03.33  5  07  38  24.80  03.88
73  00  07  06  05.77  1  00  31  21.27  05.73
74  20  08  08  04.11  5  07  39  27.69  05.60
75  12  08  14  08.14  3  04  28  19.23  06.26
76  06  07  03  06.75  3  05  24  16.63  07.56
78  09  07  04  08.20  2  04  13  09.44  08.91
79  13  05  01  09.50  0  06  38  25.53  03.24
;

proc cluster data=test1 method=average pseudo ccc;
        id age;

proc tree;

run;

 

这两列中ccc、psf为峰值,pst2为峰值前一行,似乎符合要求,因此根据average方法,分为2类或者10类

image

 

image

 


image

image

 

data test2;

    input n x1-x4;

    cards;
1   11.03 50.3  11.81 11.27
2    5.47  19.3  5.2   7.18
3    3.58  9.85  3.14  2.11
4    2.01  4.17  1.47  1.58
6    2.13  5.65  1.04  2.11
8    2.06  1.74  0.17  1.57
10  1.63  2.04  1.04  1.46
12  1.17  1.6   0.89  0.76
15  1.03  2.34  0.53  0.89
18  0.69  1.33  0.48  0.58
24  0.77  1.41  0.52  0.42
30  0.59  1.25  0.3   0.14
36  0.65  1.19  0.49  0.38
42  0.51  0.93  0.16  0.25
48  0.73  1.13  0.35  0.55
54  0.53  0.82  0.16  0.34
60  0.36  0.52  0.19  0.21
66  0.52  1.03  0.3   0.55
72  0.34  0.49  0.18  0.16
;

proc fastclus data=test2 maxclusters=4 out=out1 ;
        var x1 x2 x3 x4;
        id n;

proc sort data=out1 out = out2;
        by cluster;
proc print data= out2;
run;

 

 

image

 

结果: 具体4类是:1;2;3、6;others

 


 

 

image

 

image

分2类时候,psf=7.9,为峰值,pst2后一行为7.9,也是峰值,最后一类nrd变化也较大,认为分2类较合理,同时,通过不同的method(cen、ward)验证,结果基本相同。

 

 image

您可以选择一种方式赞助本站