第三章 两组资料均数比较的SAS编程实现
2012-04-17 生物谷 不详
一、均数差别比较的t检验 1. 样本均数和总体均数比较的t检验 样本均数和总体均数差别的比较可以直接进行比较,也可以将其看成每个测量值和总体均数差值的均数和0的比较,均为单变量分析的形式,可用前面介绍的三个执行描述性统计分析功能的过程来完成。这里我们用univariate过程和means过程分别演示这种分析的SAS编程实现方法,summary过程的操作方法各位可以自己试着练习一下。 以Mea
一、均数差别比较的t检验
1. 样本均数和总体均数比较的t检验
样本均数和总体均数差别的比较可以直接进行比较,也可以将其看成每个测量值和总体均数差值的均数和0的比较,均为单变量分析的形式,可用前面介绍的三个执行描述性统计分析功能的过程来完成。这里我们用univariate过程和means过程分别演示这种分析的SAS编程实现方法,summary过程的操作方法各位可以自己试着练习一下。
以Means过程实现对单变量分布位置的t检验,只需在proc means语句后添加t和probt(以前的版本为prt,SAS8.2中也可通用)两个选项,SAS即给出样本均数与0比较的t检验值和t分布曲线下该t值对应的双侧尾部面积。univariate过程在默认状态下即可给出单变量分布位置的t检验结果。
例3-1 通过以往大规模调查,已知某地婴儿出生体重均数为3.30kg,今测得35名难产儿出生体重如下表(表3.1),请问该地难产儿出生体重与一般婴儿出生体重是否不同?
表3.1
3.83 |
3.28 |
4.05 |
3.62 |
3.49 |
2.86 |
3.91 |
4.24 |
3.20 |
4.30 |
3.39 |
3.54 |
4.16 |
2.79 |
3.25 |
3.14 |
3.44 |
3.11 |
3.14 |
3.16 |
3.80 |
3.87 |
3.29 |
3.23 |
3.18 |
3.63 |
3.48 |
3.48 |
3.87 |
3.50 |
3.53 |
2.95 |
3.72 |
3.52 |
3.36 |
和以前的方法相同,先将数据以文本方式录入,存入“e:\data\data3_1.txt”,然后编制程序完成分析过程。程序如下:
libname a 'e:\data\'; |
data a.data3_1; |
Infile 'e:\data\data3_1.txt'; |
input x@@; |
proc univariate mu0=3.30 alpha=0.05; |
var x; |
histogram x/normal cbarline=green cfill=red barwidth=8 |
midpoints=2.75 to 4.35 by 0.2; |
run; |
Proc univariate语句后选项mu0=3.30用来指定univariate过程对样本进行分布位置的假设检验时的位置参数,以便进行样本均数和指定值之间差别的假设检验;alpha=0.05用来指定进行各种总体参数的估计时可信区间的置信水平。
这里我们顺便演示一下univariate过程绘制直方图的方法。histogram语句用来指示univariate过程对变量x绘制直方图,其后的normal选项指示在直方图上拟合并绘制出正态分布的密度曲线;cbarline=green选项用来指定条形的边框颜色,此处表示将条形的边框显示为绿色;cfill=red选项用来指定条形内部的填充色,此处设置为红色;这里的‘barwidth=’选项和gchart过程中vbar语句后的‘width=’选项含义完全相同,用来指定条形的宽度,此处设置为8个字符宽度;‘midpoints=’选项则和gchart过程中vbar语句后的‘midpoints=’选项在含义及使用方法上完全相同。
提交以上程序,输出结果如下:
The SAS System |
The UNIVARIATE Procedure |
Variable: x |
Moments | |||
N |
35 |
Sum Weights |
35 |
Mean |
3.49457143 |
Sum Observations |
122.31 |
Std Deviation |
0.37759567 |
Variance |
0.14257849 |
Skewness |
0.34778371 |
Kurtosis |
-0.3363107 |
Uncorrected SS |
432.2687 |
Corrected SS |
4.84766857 |
Coeff Variation |
10.8052067 |
Std Error Mean |
0.06382532 |
Basic Statistical Measures | |||
Location |
Variability | ||
Mean |
3.494571 |
Std Deviation |
0.37760 |
Median |
3.480000 |
Variance |
0.14258 |
Mode |
3.140000 |
Range |
1.51000 |
|
|
Interquartile Range |
0.60000 |
|
Tests for Location: Mu0=3.3 | ||||
Test |
Statistic |
p Value | ||
Student's t |
t |
3.048499 |
Pr > |t| |
0.0044 |
Sign |
M |
4.5 |
Pr >= |M| |
0.1755 |
Signed Rank |
S |
166 |
Pr >= |S| |
0.0048 |
Quantiles (Definition 5) | |
Quantile |
Estimate |
100% Max |
4.30 |
99% |
4.30 |
95% |
4.24 |
90% |
4.05 |
75% Q3 |
3.80 |
50% Median |
3.48 |
25% Q1 |
3.20 |
10% |
3.11 |
5% |
2.86 |
1% |
2.79 |
0% Min |
2.79 |
Extreme Observations | |||
Lowest |
Highest | ||
Value |
Obs |
Value |
Obs |
2.79 |
14 |
3.91 |
7 |
2.86 |
6 |
4.05 |
3 |
2.95 |
32 |
4.16 |
13 |
一、计量资料的统计描述
计量资料统计描述的内容主要包括平均指标和变异指标的计算、资料分布形态(或特征)的图形表现等。
(一)实现描述性统计功能的几个过程
描述性统计指标的计算可以用四个不同的过程来实现,它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别,下面我们大概了解一下它们的异同点。
相同点:他 2.1 利用SAS软件描述样本数据
用SAS可以对样本数据进行全面描述,得出样本的各种特征数以及频数分布图。在阅读以下内容之前请先阅读第一章“SAS软件基本操作”。
2.1.1 用MEANS语句描述数据
例 2.1 计算课本上习题1.2的平均数和标准差。
解 一、SAS系统简介
SAS是一个庞大的系统,它目前的版本可以在多种操作系统中运行。当前在国内被广泛使用的最新版本是8.2版,功能很强大,我深有体会。
据说9.0版已在国外面世,已经有一些有关它的抢先报道在网络上广为流传,说它如何如何美妙,令人不禁充满期待。
SAS8.2的完整版本包含以下数十个模块。
BASE,GRAPH,ETS,FSP,AF,OR,IML,SHARE,QC,STAT,IN 二、计数资料的统计描述
计数资料的描述性统计量,最为主要的是相对数,即率、构成比、相对比等。统计图形表述方式有圆图和百分条图等。下面我们将例2-1的数据转换为计数资料的形式,用以展示计数资料统计描述的SAS编程实现方法。
例2-3 我们假设甘油三酯水平高于1.5者为异常,将160名女子划分为正常和异常两组。分别计算正常组和异常组占总人数的构成比,并用圆图和百分条图展示其构成情况。
|
#SAS#
85