sas13周主成分分析 PRINCOMP过程、FACTOR过程 -作业

基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标

董大均书p422 第6,7,8,9,10题
使用SAS的方法完成对薛毅书例9.2,例9.3和例9.7的分析

image

data week13_6;
input local :$10. A1-A10;
cards;
北京 5.09 400 624 1871 3987 861 280 0.49 3674 7.71
天津 2.19 201 330 943 760 269 101 0.47 4307 9.91
河北 0.73 60 110 67 70 65 26 0.34 3681 9.82
山西 0.72 61 118 193 60 74 30 0.33 4092 10.17
内蒙古 0.8 46 77 211 53 71 32 0.36 2617 7.43
辽宁 1.53 120 211 565 272 143 60 0.4 3685 10.38
吉林 1.5 114 197 525 323 144 57 0.38 2617 7.43
黑龙江 1.03 80 165 414 223 112 42 0.5 4027 10.56
上海 2.78 273 429 1263 1656 409 136 0.45 4544 10.05
江苏 1 85 176 457 252 104 42 0.39 581 11.69
浙江 0.8 59 118 309 166 68 29 0.38 3849 11.1
安徽 0.59 37 83 213 72 44 20 0.36 3595 10.36
福建 0.9 62 117 309 118 63 27 0.34 3419 11.85
江西 0.8 59 103 262 37 60 24 0.37 3261 11.8
山东 0.59 56 93 242 73 56 24 0.42 4109 10.68
河南 0.6 42 84 197 25 46 20 0.33 3312 11.25
湖北 0.96 83 162 434 329 119 47 0.4 4524 10.04
湖南 0.78 60 118 296 85 65 27 0.38 3795 10.83
广东 0.69 66 117 304 132 61 25 0.39 4416 11.61
广西 0.62 41 69 192 34 40 18 0.33 3113 10.45
海南 0.66 49 64 191 12 47 19 0.33 2914 10.16
四川 0.75 66 112 314 164 77 32 0.39 4199 10.1
重庆 0.5 41 77 211 120 53 21 0.37 4192 10.1
贵州 0.54 28 67 152 21 35 16 0.33 2823 8.95
云南 0.57 38 66 176 49 44 20 0.38 3079 8.361
西藏 1.56 42 65 157 3.9 68 30 0.14 1005 5.1
陕西 1.19 100 188 496 398 140 55 0.36 4173 9.9
甘肃 0.71 55 90 246 113 65 27 0.31 3480 9.23
青海 1.18 49 68 183 17 68 34 0.2 1558 5.32
宁夏 0.92 49 83 242 25 73 33 0.33 2624 7.52
新疆 0.96 66 110 305 51 96 42 0.3 3180 7.23
;
proc princomp data=week13_6 out=week13_6_tmp standard;
proc corr data= week13_6_tmp;
var A1-A10;
with Prin1-Prin10;
run;

运行结果:

wps_clip_image-31585

A1和A2-7的相关系数非常高

wps_clip_image-19066

可以看出A1和A2为主成分

wps_clip_image-26404

CORR过程分析

wps_clip_image-26615

结论:

前两个主成分已经包括了超过80%的信息,后面的可以忽略

Prin1=0.95769A1+0.99248A2+0.99031A3+0.99006A4+0.97218A5+0.98621A6+0.98661A7+0.59684A8+0.28421A9-0.10841A10

Prin2=-0.25669A1-0.03547A2+0.00530A3-0.01674A4-0.10347A5-0.12084A6-0.13214A7+0.68254A8+0.87568A9+0.12686A10

 

image

data test;

input no x1-x10 @@;

drop no;

cards;

1  947.00 23.40 14.80 45.30 0.46 85.20 373.00 9.54 0.37 3.88

2  935.00 23.20 16.20 41.70 0.40 83.30 305.00 7.90 0.38 4.81

3  918.20 20.90 14.80 43.30 0.38 82.60 320.00 9.51 0.43 4.52

4  910.70 23.40 16.10 44.00 0.46 85.20 338.00 8.60 0.33 3.84

5  905.00 22.90 17.00 39.80 0.45 80.40 348.00 9.53 0.42 4.40

6  892.60 22.30 15.70 44.00 0.41 85.40 286.00 8.67 0.39 4.50

7  853.40 20.90 15.90 41.60 0.35 85.40 273.00 9.79 0.42 4.29

8  837.80 20.20 14.40 37.30 0.33 82.50 326.00 7.62 0.36 4.73

9  833.30 22.20 15.20 38.30 0.37 82.20 310.00 7.84 0.40 5.10

10 760.30 20.40 15.50 40.70 0.32 84.20 268.00 7.75 0.35 4.52

;

proc factor data=test priors=one rotate=promax;

run;

运行结果:

wps_clip_image-2948

前四个因子已经占据了大于91%的信息,选择前四个因子

wps_clip_image-17080

通过varimax方法旋转:

wps_clip_image-14661

等到新的矩阵:

wps_clip_image-25234

结论:

因素1和x1,x2,x5,x7有很强的相关性,代表了产量因素,包括穗长和穗重

因素2和x4,x6有很强的相关性,和x10的负相关最强,代表出粒数

因素3和x8,x9有很强的相关性,代表了玉米的营养价值

因素4和x3有很强的相关性

 

image

data test;

input no x1-x9 @@;

drop no;

cards;

91.01  4.34   389 99.06  1.23   25.46  93.15  3.56   97.51  61.66

91.02  3.45   271 88.28  0.85   23.55  94.31  2.44   97.94  73.33

91.03  4.38   385 103.97 1.21   26.54  92.53  4.02   98.48  76.79

91.04  4.18   377 99.48  1.19   26.89  93.86  2.92   99.41  63.16

91.05  4.32   378 102.01 1.19   27.63  93.18  1.99   99.71  80.00

91.06  4.13   349 97.55  1.10   27.34  90.63  4.38   99.03  63.16

91.07  4.57   361 91.66  1.14   24.89  90.60  2.73   99.69  73.53

91.08  4.31   209 62.18  0.52   31.74  91.67  3.65   99.48  61.11

91.09  4.06   425 83.27  0.93   26.56  93.81  3.09   99.48  70.73

91.10  4.43   458 92.39  0.95   24.26  91.12  4.21   99.76  79.07

91.11  4.13   496 95.43  1.03   28.75  93.43  3.50   99.10  80.49

91.12  4.10   514 92.99  1.07   26.31  93.24  4.22   100.00 78.95

92.01  4.11   490 80.90  0.97   26.90  93.68  4.97   99.77  80.53

92.02  3.53   344 79.66  0.68   31.87  94.77  3.59   100.00 81.97

92.03  4.16   508 90.98  1.01   29.43  95.75  2.77   98.72  62.86

92.04  4.17   545 92.98  1.08   26.92  94.89  3.14   99.41  82.35

92.05  4.16   507 95.10  1.01   25.82  94.41  2.80   99.35  60.61

92.06  4.86   540 93.17  1.07   27.59  93.47  2.77   99.80  70.21

92.07  5.06   552 84.38  1.10   27.56  95.15  3.10   98.63  69.23

92.08  4.03   453 72.69  0.90   26.03  91.94  4.50   99.05  60.42

92.09  4.15   529 86.53  1.05   22.40  91.52  3.84   98.58  68.42

92.10  3.94   515 91.01  1.02   25.44  94.88  2.56   99.36  73.91

92.11  4.12   552 89.14  1.10   25.70  92.65  3.87   95.52  66.67

92.12  4.42   597 90.18  1.18   26.94  93.03  3.76   99.28  73.81

93.01  3.05   437 78.81  0.87   23.05  94.46  4.03   96.22  87.10

93.02  3.94   477 87.34  0.95   26.78  91.78  4.57   94.28  87.34

93.03  4.14   638 88.57  1.27   26.53  95.16  1.67   94.50  91.67

93.04  3.87   583 89.82  1.16   22.66  93.43  3.55   94.49  89.07

93.05  4.08   552 90.19  1.10   22.53  90.36  3.47   97.88  87.14

93.06  4.14   551 90.81  1.09   23.06  91.65  2.47   97.72  87.13

93.07  4.04   574 81.36  1.14   26.65  93.74  1.61   98.20  93.02

93.08  3.93   515 76.87  1.02   23.88  93.82  3.09   95.46  88.37

93.09  3.90   555 80.58  1.10   23.08  94.38  2.06   96.82  91.79

93.10  3.62   554 87.21  1.10   22.50  92.43  3.22   97.16  87.77

93.11  3.75   586 90.31  1.12   23.73  92.47  2.07   97.74  93.89

93.12  3.77   627 86.47  1.24   23.22  91.17  3.40   98.98  89.80

;

proc factor priors=one rotate=promax;

run;

运行结果:

wps_clip_image-22662

根据累积贡献率,第五行时累积贡献率超过80%,但是第四行时特征值小于1,所以要分成3个因子

wps_clip_image-24570

通过旋转调整

wps_clip_image-21176

结论:

因素1和x2,x5,x8,9相关,代表住院后的医疗效果

因素2和x1,x3,x4相关,代表患者住院的整体情况

因素3和x6,x7相关,代表医院的诊断准确率

 

image

data test;

input y x1-x3 @@;

drop y;

cards;

1951   1.0    -2.7   -4.3

1952   -5.3   -5.9   -3.5

1953   -2.0   -3.4   -0.8

1954   -5.7   -4.7   -1.1

1955   -0.9   -3.8   -3.1

1956   -5.7   -5.3   -5.9

1957   -2.1   -5.0   -1.6

1958   0.6    -4.3   -0.2

1959   -1.7   -5.7   2.0

1960   -3.6   -3.6   1.3

1961   3.0    -3.1   -0.8

1962   0.1    -3.9   -1.1

1963   -2.6   -3.0   -5.2

1964   -1.4   -4.9   -1.7

1965   -3.9   -5.7   -2.5

1966   -4.7   -4.8   -3.3

1967   -6.0   -5.6   -4.9

1968   -1.7   -6.4   -5.1

1969   -3.4   -5.6   -2.9

1970   -3.1   -4.2   -2.0

1971   -3.8   -4.9   -3.9

1972   -2.0   -4.1   -2.4

1973   -1.7   -4.2   -2.0

1974   -3.6   -3.3   -2.0

1975   -2.7   -3.7   0.1

1976   -2.4   -7.6   -2.2

;

proc princomp data=test out=out;

run;

proc corr data=out;

var x1-x3;

with Prin1-Prin3;

run;

proc factor data=test priors=one rotate=promax;

run;

运行结果:

wps_clip_image-23449

通过主成分分析,1月和12月的气温为主因

wps_clip_image-26263

最后做因子分析:

wps_clip_image-1065

结论:

只能分成一个因素

image

data test;

input city murder rape robbery assault burglary larceny auto @@;

drop city;

cards;

Alabama        14.2 25.2   96.8   278.3  1135.5 1181.9 280.7

Alaska         10.8   51.6   96.8   284.0  1331.7 3369.8 753.3

Arizona        9.5    34.2   138.2  312.3  2346.1 4467.4 439.5

Arkansas       8.8    27.6   83.2   203.4  972.6  1862.1 183.4

California     11.5   49.4   287.0  358.0  2139.4 3499.8 663.5

Colorada       6.3    42.0   170.0  292.9  1935.2 3903.2 477.1

Connectieat   4.2    16.8   129.5  131.8  1346.0 2620.7 593.2

Delaware       6.0    24.9   157.0  194.2  1682.6 3678.4 467.0

Florida        10.2   39.6   187.9  449.1  1859.9 3840.5 351.4

Georgia        11.7   31.1   140.5  256.5  1351.1 2170.2 297.9

Hawaii          7.2    25.5   128.0  64.1   1911.5 3920.4 489.4

Idaho       5.5    19.4   39.6   172.5  1050.8 2599.6 237.6

Illinois       9.9    21.8   211.3  209.0  1085.0 2828.5 528.6

Indiana        7.4    26.5   123.2  153.5  782.2  1662.1 245.5

Iowa        2.3    10.6   41.2   89.8   812.5  2685.1 219.9

Kansas         6.6 22.0   100.7  180.5  1270.4 2739.3 244.3

Kentucky       10.1   19.1   81.1   123.3  872.2  1552.1 245.4

Louisiana      15.5    30.9   142.9  335.5  1165.5 2469.9 337.7

Maine          2.4 13.5   38.7   170.0  1253.2 2350.7 246.9

Maryland       8.0 34.8   292.1  358.9  1400.0 3177.7 428.5

Massachusetts 3.1    20.8   169.1  231.6  1532.2 2311.3 1140.1

Michigan       9.3    38.9   261.9  274.6  1522.7 3159.0 545.5

Minnsota       2.7    19.5   85.9   85.8   1134.7 2559.3 343.1

Mississippi1  4.3    19.6   65.7   189.1  915.6  1239.9 144.4

Missouri       9.6    28.3   189.0  233.5  1318.3 2424.2 378.4

Montana        5.4    16.7   39.2   156.8  804.9  2316.1 309.2

Nebraska       3.9    18.1   64.7   112.7  760.0  2773.2 249.1

Nevada          5.8    49.1   323.1  355.0  2453.1 4212.6 559.2

NewHampshire  3.1    10.7   23.2   76.0   1041.7 2343.9 293.4

NewMexico      9.8    39.1   109.6  343.4  1418.7 3008.6 259.5

NewYork        10.7   29.4   472.6  319.1  1728.0 2782.0 745.8

NorthCarolina 10.6   17.0   61.3   318.3  1154.1 2037.8 192.1

NorthDakota   0.9    9.0     13.3    43.8   446.1  1843.0 144.7

Ohio        7.8    27.3   190.5  181.1  1216.0 2696.8 400.4

Oklahoma       8.6    29.2   93.0   205.0  1288.2 2228.1 326.8

Oregon          8.9    39.0   124.1  286.9  1636.4 3506.1 388.9

Pennsylvania  5.6    19.0   130.3  128.0  877.5  1624.1 333.2

RhodeIsland   3.6    10.5   86.5   201.0  1489.5 2844.1 791.4

SouthCarolina 11.9   33.0   105.9  485.3  1613.6 2342.4 245.1

SouthDakota   2.0    13.5   17.9   155.7  570.5  1704.4 147.5

Tennessee      10.1   29.7   145.8  203.9  1259.7 1776.5 314.0

Texas       13.3   33.8   152.4  208.2  1603.1 2988.7 397.6

Utah        3.5    20.3   68.8   147.3  1171.6 3004.6 334.5

Vermont        1.4    15.9   30.8   101.2  1348.2 2201.0 265.2

Virginia       9.0    23.3   92.1   165.7  986.2  2521.2 226.7

Washington     4.3    39.6   106.2  224.8  1605.6 3386.9 360.3

WestVirginia  6.0    13.2   42.2   90.9   597.4  1341.7 163.3

Wisconsin      2.8    12.9   52.2   63.7   846.9  2614.2 220.7

Wyoming        5.4    21.9   39.7   173.9  811.6  277.2  282.0

;

proc princomp data=test out=out;

run;

proc corr data=out;

var x1-x3;

with Prin1-Prin3;

run;

proc factor data=test priors=one rotate=promax;

run;

运行结果:

wps_clip_image-23962

根据特征值和累积贡献率,分成2个因子

经过因子分析:

wps_clip_image-9827

旋转后得到

wps_clip_image-23965

结论:

因素1代表求财的犯罪,和larceny,auto,burglary,robbery相关

因素2代表伤人的犯罪,和murder,assault,rape相关

 

image

data test(type=corr);

input x1-x16 @@;

cards;

1.00 0.79 0.36 0.96 0.89  0.79 0.76 0.26  0.21  0.26  0.07  0.52  0.77 0.25 0.51 0.21

0.79 1.00 0.31 0.74 0.58  0.58 0.55 0.19  0.07  0.16  0.21  0.41  0.47 0.17 0.35 0.16

0.36 0.31 1.00 0.38 0.31  0.30 0.35 0.58  0.28  0.33  0.38  0.35  0.41 0.64 0.58 0.51

0.96 0.74 0.38 1.00 0.90  0.78 0.75 0.25  0.20  0.22  0.08  0.53  0.79 0.27 0.57 0.26

0.89 0.58 0.31 0.90 1.00  0.79 0.74 0.25  0.18  0.23  -0.02 0.48  0.79 0.27 0.51 0.23

0.79 0.58 0.30 0.78 0.79  1.00 0.73 0.18  0.18  0.23  0.00  0.38  0.69 0.14 0.26 0.00

0.76 0.55 0.35 0.75 0.74  0.73 1.00 0.24  0.29  0.25  0.10  0.44  0.67 0.16 0.38 0.12

0.26 0.19 0.58 0.25 0.25  0.18 0.24 1.00  -0.04 0.49  0.44  0.30  0.32 0.51 0.51 0.38

0.21 0.07 0.28 0.20 0.18  0.18 0.29 -0.04 1.00  -0.34 -0.16 -0.05 0.23 0.21 0.15 0.18

0.26 0.16 0.33 0.22 0.23  0.23 0.25 0.49  -0.34 1.00  0.23  0.50  0.31 0.15 0.29 0.14

0.07 0.21 0.38 0.08 -0.02 0.00 0.10 0.44  -0.16 0.23  1.00  0.24  0.10 0.31 0.28 0.31

0.52 0.41 0.35 0.53 0.48  0.38 0.44 0.30  -0.05 0.50  0.24  1.00  0.62 0.17 0.41 0.18

0.77 0.47 0.41 0.79 0.79  0.69 0.67 0.32  0.23  0.31  0.10  0.62  1.00 0.26 0.50 0.24

0.25 0.17 0.64 0.27 0.27  0.14 0.16 0.51  0.21  0.15  0.31  0.17  0.26 1.00 0.63 0.50

0.51 0.35 0.58 0.57 0.51  0.26 0.38 0.51  0.15  0.29  0.28  0.41  0.50 0.63 1.00 0.65

0.21 0.16 0.51 0.26 0.23  0.00 0.12 0.38  0.18  0.14  0.31  0.18  0.24 0.50 0.65 1.00

;

proc princomp data=test;

run;

proc factor data=test priors=one rotate=promax;

run;

运行结果:

wps_clip_image-25474

因子分析:

wps_clip_image-5603

可以得出3个因子的结论

wps_clip_image-1267

经过旋转调整后得到:

wps_clip_image-11285

结论:

因素1代表身体各个部位的长度,包括x1 ,x2, x4, x5, x6, x7, x12, x13

因素2代表身体各个部位的围度,包括x3, x8, x14, x15, x16, x11

因素3代表身体部位的面积,包括x9, x10

 

 image

data test;

input no x1-x3 y @@;

drop no y;

cards;

1  149.3 4.2 108.1 15.9

2  161.2 4.1 114.8 16.4

3  171.5 3.1 123.2 19.0

4  175.5 3.1 126.9 19.1

5  180.8 1.1 132.1 18.8

6  190.7 2.2 137.7 20.4

7  202.1 2.1 146.0 22.7

8  212.4 5.6 154.1 26.5

9  226.1 5.0 162.3 28.1

10 231.9 5.1 164.3 27.6

11 239.0 0.7 167.6 26.3

;

proc princomp data=test out=out;

run;

proc corr data=out;

var x1-x3;

with Prin1-Prin3;

run;

proc factor data=test priors=one rotate=promax;

run;

运行结果:

wps_clip_image-27058

princomp过程

wps_clip_image-8469

corr过程

wps_clip_image-14638

可以看出 x1 和 x3具有很强的相关性,可以用同一指标代替

wps_clip_image-16584

结论:

可以看出 x1 和 x3具有很强的相关性,可以用同一指标代替

 

 image

 

data test(type=corr);

input x1-x8 @@;

cards;

1.000 0.923 0.841 0.756 0.700 0.619 0.633 0.520

0.923 1.000 0.851 0.807 0.775 0.695 0.697 0.596

0.841 0.851 1.000 0.870 0.835 0.779 0.787 0.705

0.756 0.807 0.870 1.000 0.918 0.864 0.869 0.806

0.700 0.775 0.835 0.918 1.000 0.928 0.935 0.866

0.619 0.695 0.779 0.864 0.928 1.000 0.975 0.932

0.633 0.697 0.787 0.869 0.935 0.975 1.000 0.943

0.520 0.596 0.705 0.806 0.866 0.932 0.943 1.000

;

proc princomp data=test;

run;

proc factor data=test priors=one rotate=promax;

run;

运行结果:

wps_clip_image-32338

因子分析:

wps_clip_image-21602

得出1个因子的结论

wps_clip_image-32341

您可以选择一种方式赞助本站