第二章 描述性统计命令与输出结果说明
2012-04-17 生物谷 生物谷
本 节STATA 命 令 摘 要 by 分组变量:]summarize 变 量 名1 变 量 名2 … 变 量 名m[,detail] ci 变 量 名1 变 量 名2 … 变 量 名m [, level(#)
本 节STATA 命 令 摘 要
by 分组变量:]summarize 变 量 名1 变 量 名2 … 变 量 名m[,detail] ci 变 量 名1 变 量 名2 … 变 量 名m [, level(#) binomial poisson exposure(varname) by(分组变 量) ] cii 样 本 量 均 数 标 准 差 [, level(#) ] tab1 变量名 [,generate(变量名)] |
· 资 料 特 征 描 述( 均 数, 中 位 数, 离 散 程 度)
例: 某 地 测 定 克 山 病 患 者 与 克 山 病 健 康 人 的 血 磷 测 定 值 如 下 表( 数 据 摘 自 四 川 医 学 院 主 编 的 卫 生 统 计 学,1978 出 版, p21):
患 者 |
2.6 |
3.24 |
3.73 |
3.73 |
4.32 |
4.73 |
5.18 |
5.58 |
5.78 |
6.40 |
6.53 |
||
健康人 |
1.67 |
1.98 |
1.98 |
2.33 |
2.34 |
2.50 |
3.60 |
3.73 |
4.14 |
4.17 |
4.57 |
4.82 |
5.78 |
并 假 定 这 些 数 据 已 以STATA 格 式 存 入 ex2.dta 文 件 中, 其 中 变 量 x1 为 患 者 的血 磷 测 定 值 数 据, 变 量 x2 为 健 康 人 的血 磷 测 定 值 数 据。 上 述 数 据 也 可 以 用 变 量 x 表 示 血 磷 测 定 值, 分 组 变 量 group=0 表 示 患 者 组 和 group=1 表 示 健 康 组( 如: 患 者 组 中 第 一 个 数 据 为 2.6, 则 x=2.6,group=0; 又 如: 健 康 组 中 第 三 个 数 据 为 1.98, 则 x 为 1.98 以 及 group 为 1), 并 假 定 这 些 数 据 已 以 STATA 格 式 存 入 ex2a.dta 文 件 中。
计 算 资 料 均 数, 标 准 差 命 令 summarize, 以 述 资 料 为 例:
use ex2,clear
summarize x1 x2
结 果:
变量 样本数 均 数 标准差 最小值 最大值 Variable | Obs Mean Std. Dev. Min Max ---------+------------------------------------------------------------------- x1 | 11 4.710909 1.302977 2.6 6.53 x2 | 13 3.354615 1.304368 1.67 5.78 |
即: 本 例 中 急 性 克 山 病 患 者 组 的 样 本 数 为 11,血 磷 测 定 值 均 数 为 4.711 (mg%), 相 应 的 标 准 差 为 1.303, 最 小 值 为2.6 以 及 最 大 值 为6.53;健 康 组 的 样 本 量 为 13,血 磷 测 定 值 均 数 为3.3546, 相 应 的 标 准 差 为 1.3044, 最 小 值 为1.67 以 及 最 大 值 为5.78。
计 算 资 料 均 数, 标 准 差, 中 位 数, 低 四 分 位 数 和 高 四 分 位 数 的 命 令 summarize 以 及 子 命 令 detail, 仍 以 述 资 料 为 例:
use ex2,clear
summarize x1 x2,detail
结 果:
x1 ------------------------------------------------------------- Percentiles Smallest( 最 小 值) 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11(样本数) 25% 3.73 (低四分位) 3.73 Sum of Wgt. 11 50% 4.73 (中位数) (最大值) Mean 4.710909(均数) Largest Std. Dev. 1.302977(标准差) 75% 5.78(高四分位) 5.58 90% 6.4 5.78 Variance 1.697749 (方差) 95% 6.53 6.4 Skewness -.0813446(偏度) 99% 6.53 6.53 Kurtosis 1.809951 (峰度) x2 ------------------------------------------------------------- ④ Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% ① 2.33 2.33 Sum of Wgt. 13 50% ② 3.6 Mean 3.354615 ⑤ ⑥ Largest Std. Dev. 1.304368 75% ③ 4.17 4.17 90% 4.82 4.57 ⑥Variance 1.701377 95% 5.78 4. 82 ⑦Skewness .2963943 99% 5.78 5.78 ⑧ Kurtosis 1.875392 |
由 上 述 结 果 可 知:summarize 命 令 并 使 用 子 命 令 detail, 不 仅 可 以 得 到 各 变 量 资 料 的 均 数 和⑥ 标 准 差, 而 且 可 以 得 到 主 要 的 非 参 数 描 述 指 标: ①低 四 分 位 (lower quartile), ②中 位 数 (Median) 以 及 ③高 四 分 位 (upper quartile)。 对 于 非 正 态 资 料, 一 般 不 应 用 均 数 ± 标 准 差 进 行 描 述, 而 应 使 用 中 位 数 以 及(低 四 分 位- 高 四 分 位, 称 interquartile range, IQR) 进 行 描 述。 如: 若 本 资 料 不 正 态 [1] , 则 x1 的Median 以 及IQR 为: 4.73 (3.73-5.78) 以 及 x2 的Median 以 及 IQR 为 : 3.6 (2.33-4.17)。⑥ 为 样 本 方 差;⑦ 为 偏 度, 偏 度 的 绝 对 值 越 小, 表 明 该 数 据 的 正 态 对 称 性 越 好; ⑧峰 度, 峰 度 值 越 大 表 明 该 数 据 的 正 态 峰 越 明 显;④ 在 该 数 据 中 最 小 的 四 个 数 据;⑤在 该 数 据 中 最 大 的 四 个 数 据。
若 调 用 ex2a.dta 文 件, 进 行 描 述 性 统 计, 可 用 下 列 命 令:
use ex2a,clear
sort group ( 将 资 料 以 group 变 量 为 例 从 小 到 大 排 序)
by group:summarize x
结 果:
-> group= 0 x ------------------------------------------------------------- Percentiles Smallest 1% 2.6 2.6 5% 2.6 3.24 10% 3.24 3.73 Obs 11 25% 3.73 3.73 Sum of Wgt. 11 50% 4.73 Mean 4.710909 Largest Std. Dev. 1.302977 75% 5.78 5.58 90% 6.4 5.78 Variance 1.697749 95% 6.53 6.4 Skewness -.0813446 99% 6.53 6.53 Kurtosis 1.809951 -> group= 1 x ------------------------------------------------------------- Percentiles Smallest 1% 1.67 1.67 5% 1.67 1.98 10% 1.98 1.98 Obs 13 25% 2.33 2.33 Sum of Wgt. 13 50% 3.6 Mean 3.354615 Largest Std. Dev. 1.304368 75% 4.17 4.17 90% 4.82 4.57 Variance 1.701377 95% 5.78 4.82 Skewness .2963943 99% 5.78 5.78 Kurtosis 1.875392 |
上 述 结 果 与 前 面 的 结 果 对 应 相 同。
· 根 据 样 本 数 据 计 算 可 信 限 [2]
95% 可 信 限 计 算:
正 态数 据:ci 变量名
0-1 数 据:ci 变量名, binomial
poisson 分 布 数 据: ci 变 量 名,poisson
90% 可 信 限 计 算( 其 它 可 信 限 类 推)
正 态数 据:ci 变量名, level(90)
0-1 数 据:ci 变量名, level(90) binomial
poisson 分 布 数 据: ci 变 量 名,level(90) poisson
以 ex2.dta 为 例 计 算 x1,x2 的 95% 可 信 限。
use ex2.dta,clear ① ② ③ ④ Variable | Obs Mean Std. Err. [95% Conf. Interval] ---------+---------------------------------------------------------------------- x1 | 11 4.710909 .3928624 3.835557 5.586261 x2 | 13 3.354615 .3617667 2.566393 4.142837 |
以 上 结 果 中:① 为 样 本 数;② 为 均 数;③ 为 标 准 误;④ 为 95% 的 可 信 限, 因 此 x1 的95% 可 信 限 为[3.8356,5.5863],x2 的 95% 可 信 限 为[2.5664,4.1428]。
· 根 据 样 本 数, 样 本 均 数 和 标 准 差 计 算 可 信 限 [3] 。
若 数 据 服 从 正 态
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言