用SPSS进行列联表分析(Crosstabs)实例
2010-12-18 MedSci原创 MedSci原创
列联表分析(Crosstabs) 列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x
列联表分析(Crosstabs)
列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。
例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为 15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。数据如下表。
山东烟台历年观测数据分级表()
年份 |
59 |
60 |
61 |
62 |
63 |
64 |
65 |
66 |
67 |
69 |
70 |
71 |
72 |
73 |
74 |
75 |
76 |
77 |
y |
1 |
3 |
1 |
1 |
3 |
1 |
1 |
2 |
1 |
3 |
2 |
1 |
2 |
2 |
3 |
2 |
2 |
1 |
x1 |
3 |
2 |
2 |
3 |
1 |
3 |
2 |
3 |
3 |
1 |
2 |
3 |
1 |
1 |
1 |
2 |
2 |
1 |
x2 |
1 |
2 |
3 |
1 |
1 |
2 |
2 |
1 |
1 |
1 |
1 |
2 |
3 |
1 |
1 |
1 |
1 |
2 |
x3 |
3 |
1 |
1 |
3 |
1 |
2 |
1 |
3 |
2 |
2 |
1 |
2 |
1 |
2 |
3 |
2 |
3 |
1 |
x4 |
3 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
1 |
3 |
1 |
1 |
2 |
1 |
1 |
1 |
1 |
注:摘自《农业病虫统计测报》 131页。
1) 输入分析数据
在数据编辑器窗口打开“data1-3.sav”数据文件。
数据文件中变量格式如下:
2) 调用分析过程
在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图
3) 设置分析变量
选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”变量选入“Rows:”行变量框中。
选择列变量:将“玉米螟卵高峰发生期[y]”变量选入 “Columns:”列变量框中。
4) 输出条形图和频数分布表
Display clustered bar charts: 选中显示复式条形图。
Suppress table: 选中则不输出多维频数分布表。。
5) 统计量输出
点击“Statistics”按钮,弹出统计分析对话框(如下图)。
Chi-Square: 卡方检验。选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验
(Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。
Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。
Nominal: 两分类变量的关联度(Association)测量
Contingency Coefficient: 列联系数,其值越大关联性越强。
Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。
Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。
Uncertainty Coefficient: 不定系数
Ordinal: 两有序分类变量(等级变量)的关联度测量
Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。
Somers’d:列联度,其取值范围和意义同上。
Kendall’s tau-b:
Nominal by Interval: 一个定性变量和一个定量变量的关联度
Eta:关联度统计量。
Kappa:吻合度系数,其取值-1至+1,其值越大吻合程度越高。
Risk:危险度分析。
McNemar:配对计数资料的卡方检验。
Cochran’s and Mantel-Haenszel statistics: 检验在协变量存在下,两个二分类变量是否独立。
6) 设置列联表的显示
单击“Cells”按钮,弹出列联表显示内容对话框(如下图)。
Counts: 频数
Observed: 观测频数。
Expected: 期望频数。
Percentages: 百分比
Row: 占本行的百分比。
Column: 占本列的百分比。
Total: 占全部的百分比。
Residuals: 残差分析
Unstandardized: 非标准化残差分析。
Standardized: 标准化残差分析。
Adj. Standardized: 调整的标准化残差分析。
Noninteger Weights:
⊙ Round cell counts: 临近列计算。
○ Truncate cell counts:。
○ Round case Weights临近记录度量
○ Truncate case Weights
○ No adjustments: 不调整。
7)设置输出格式
单击Format按钮,弹出列联表输出格式对话框(如下图)。
Row Order: 频数
⊙ Ascending: 行变量从小到大升序排列。
○ Descending: 行变量从大到小降序排列。
8)设置检验
单击“Exact”按钮,弹出精确检验对话框(如下图)。
⊙Asymptotic only 近似的,系统设置。
○Monte Carlo
Confidence level: 99% 置信度,系统默认99%。
Number of samples: 10000 样本数量,系统默认10000。
○Exact
Time limit per test: 5 minutes 限时检验时间,系统默认值5分钟。
9)提交执行
设置完成后,在列联表分析对话框中,点击OK 按钮,计算结果输出在结果窗口中。
10)结果与分析
在结果窗口中查看计算结果,主要输出内容如下。
五月气温 * 玉米螟卵高峰发生期
Crosstab
|
玉米螟卵高峰发生期 |
Total | ||||
6月20日前 |
6月21-25日 |
6月25日以后 |
||||
五月气温 |
16.5以下 |
Count(频数) |
1 |
2 |
3 |
6 |
16.6-17.8 |
Count(频数) |
2 |
3 |
1 |
6 | |
17.8以上 |
Count(频数) |
5 |
1 |
0 |
6 | |
Total |
Count(频数) |
8 |
6 |
4 |
18 |
Chi-Square Tests
Value |
df |
Asymp. Sig. (2-sided) | |
Pearson Chi-Square |
7.750(a) |
4 |
.101 |
Likelihood Ratio |
8.510 |
4 |
.075 |
Linear-by-Linear Association |
6.248 |
1 |
.012 |
N of Valid Cases |
18 |
a 9 cells (100.0%) have expected count less than 5. The minimum expected count is 1.33.
(其余的省约)
结果分析:
从交叉表(Crosstab)对角线中看出,只有“五月气温与玉米螟卵高峰发生期”对角线上出现的频数大于期望值(5>2.7,3>2.0,3>1.3)。
从卡方检验表得知,也只有“五月气温与玉米螟卵高峰发生期”能通过线性间的联合检验(Linear-by-Linear Association),双尾检验p<0.012。
因此,玉米螟卵高峰发生期与五月气温有密切的关系,五月气温越高,发生越早。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
perfect!!!
153
好!
137
very good
170
#CRO#
71
很喜欢
118
hao
171
#ROS#
53