第二章计量资料的统计描述

2012-04-17 生物谷不详

一、计量资料的统计描述计量资料统计描述的内容主要包括平均指标和变异指标的计算、资料分布形态（或特征）的图形表现等。（一）实现描述性统计功能的几个过程描述性统计指标的计算可以用四个不同的过程来实现，它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别，下面我们大概了解一下它们的异同点。相同点：他

一、计量资料的统计描述

计量资料统计描述的内容主要包括平均指标和变异指标的计算、资料分布形态（或特征）的图形表现等。

（一）实现描述性统计功能的几个过程

描述性统计指标的计算可以用四个不同的过程来实现，它们分别是means过程、summary过程、univariate过程以及tabulate过程。它们在功能范围和具体的操作方法上存在一定的差别，下面我们大概了解一下它们的异同点。

相同点：他们均可计算出均数、标准差、方差、标准误、总和、加权值的总和、最大值、最小值、全距、校正的和未校正的离差平方和、变异系数、样本分布位置的t检验统计量、遗漏数据和有效数据个数等，均可应用by语句将样本分割为若干个更小的样本，以便分别进行分析。

不同点：（1）means过程、summary过程、univariate过程可以计算样本的偏度（skewness）和峰度（kurtosis），而tabulate过程不计算这些统计量；（2）univariate过程可以计算出样本的众数（mode），其它三个过程不计算众数；（3）summary过程执行后不会自动给出分析的结果，须引用output语句和print过程来显示分析结果，而其它三个过程则会自动显示分析的结果；（4）univariate过程具有统计制图的功能，其它三个过程则没有；（5）tabulate过程不产生输出资料文件（存储各种输出数据的文件），其它三个均产生输出资料文件。

以上是它们的主要异同点，其它更为具体的异同点需要在实际应用中去体会。掌握了各种过程的异同点，就可以根据具体需要选择最佳的过程进行工作。

统计制图的过程均可以实现对样本分布特征的图形表示，一般情况下可以使用的有chart过程、plot过程、gchart过程和gplot过程。大家有没有发现前两个和后两个只有一个字母‘g’（代表graph）的差别，其实它们之间（只差一个字母g的过程之间）的统计描述功能是相同的，区别仅在于绘制出的图形的复杂和美观程度。

chart过程和plot过程绘制的图形类似于我们用文本字符堆积起来的图形，只能概括地反映出资料分布的大体形状，实际上这两个过程绘制的图形并不能称之为图形，因为他根本就没有涉及一般意义上图形的任何一种元素（如颜色、分辨率等）。而gchart过程和gplot过程给出的是真正意义上的图形，可以用很多的语句和选项来控制图形的各方面的性质和特征。

chart和gchart与plot和gplot的区别则体现在不同的作图功能，前两个过程可以绘制出的图形主要有条形图（包括横条和竖条）、圆图、环形图和星形图等，后两个过程通常用一个记录中的两个变量值表示点的坐标来绘制图形，如散点图和线图等。

（二）描述性统计过程的一般格式

1. means过程的一般格式

proc means 选项列表；

by 变量名称（分组变量）；

class 变量名称（分组变量）；

freq变量名称（数值变量，用以表示相应记录出现的频数）

weight变量名称（数值变量，用以表示相应记录的权重系数）

var 变量名称（待分析的数值变量）；

run；

Proc means 语句后的选项主要用来指定所要计算的统计量，默认情况下，Means过程会给出频数、均数、标准差、最大值和最小值等，其余统计量的计算均需要在选项中指定。class语句所指定的分组变量用来进行分组，而by语句所指定的分组变量是用来将数据分为若干个更小的样本，以便SAS分别在各小样本内进行各自独立的处理。freq语句和weight语句分别引导代表记录出现频数和权重系数的数值变量。var语句引导所要进行分析的所有变量的列表，SAS将对var语句所引导的所有变量分别进行描述性统计分析。

2. summary过程的一般格式

proc summary 选项列表；

by 变量名称（分组变量）；

class 变量名称（分组变量）；

freq变量名称（数值变量，用以表示相应记录出现的频数）

weight变量名称（数值变量，用以表示相应记录的权重系数）

output 数据集名> <统计量关键字=自定义变量名>

var 变量名称（待分析的数值变量）；

run；

summary过程的格式和means过程可以说是完全相同的，各条语句和选项的含义也是相同的，包括在means过程中未列出的output语句也可以应用于means过程，只是此语句在summary过程应用较多（这样才能将分析结果显示出来），所以才将其列入一般格式中。output语句用来对分析结果输出为数据文件进行控制，其后的选项可有可无，若无则SAS按照默认方式进行。“out=数据集名”用来定义输出数据文件的文件名称，文件名的格式和数据步中数据文件名相同。“统计量关键字=自定义变量名”用来自定义输出数据文件中各种统计量的变量名称，前者是系统定义的（和proc语句后选项中的统计量关键字完全相同），必须正确无误，后者可自行定义。默认状态下输出统计量只有频数、均数、标准差、最大值和最小值，在默认状态不能满足需要时这一选项则是必需的。

3. univariate过程的一般格式

proc univariate 选项列表；

by 变量名称（分组变量）；

class 变量名称（分组变量）；

freq变量名称（数值变量，用以表示相应记录出现的频数）

weight变量名称（数值变量，用以表示相应记录的权重系数）

histogram 变量名称/选项列表

output 数据集名> <统计量关键字=自定义变量名>

var 变量名称（待分析的数值变量）；

run；

univariate过程和以上两个过程的格式非常相似，相同的语句和选项其含义也相同，所不同的是某些统计量只能在univariate过程中计算（如众数），以及univariate过程中所具有的绘图功能。histogram语句即用来指示SAS对其后所指定的变量绘制直方图，其后的选项用来指示SAS添加不同类型的拟合图形（如正态分布的分布密度曲线）。

4. tabulate过程的一般格式

proc tabulate 选项列表；

by 变量名称（分组变量）；

class 变量名称（分组变量）；

freq变量名称（数值变量，用以表示相应记录出现的频数）

weight变量名称（数值变量，用以表示相应记录的权重系数）

table <<页变量表达式>，<行变量表达式>，<列变量表达式>>表格选项>

var 变量名称（待分析的数值变量，统计量列入相应的表单元格）；

run；

tabulate过程和上述几个过程的格式也基本相似，相同的语句和选项也代表相同的含义。最大的不同也是tabulate过程中最为重要的是table语句，他用来定义表格的具体格式以及表格中所要包括的统计量。

5. gchart过程的一般格式

proc gchart 选项列表；

图形关键词变量名称/选项列表

run；

此过程格式简单，复杂的地方在于图形关键字（每个图形关键字对应一种图形类型）所引导的语句，这里是控制图形类型及图形要素的地方，涉及到众多的关键字和选项。gchart过程可以使用的图形关键字及其所绘制的图形类型见下表（表2.1）。

表2.1 gchart过程可以使用的图形关键字及其所绘制的图形类型

图形关键字	绘制的图形类型	图形关键字	绘制的图形类型
block	方块图	pie	圆图
hbar	水平的条形图	pie3d	三维圆图
hbar3d	水平的三维条形图	donut	环形图
vbar	竖立的条形图	star	星形图
vbar3d	竖立的三维条形图

图形关键字后的变量名用以指定进行图形描述时的分组变量，可以是数值型的（此时以各组的组中值为分组的标志），也可以是字符型的。其后的选项比较重要的有：（1）type=统计量关键字，表示以图形对变量（sumvar所指定的变量）的哪一种统计量进行描述，比如频数（freq）、均数（mean）、总计（sum）、频数百分比（pctn）等；（2）subgroup=变量名（分组变量），指定要进行分组（各组段内再分组）的变量；（3）sumvar=变量名（数值变量），指定要进行统计计算的变量，也就是“type=统计量关键字”选项中统计量的计算所依据的变量。其它的选项较少用到或系统默认值即可基本满足要求，这里还是少罗嗦，以后用到再说。

6. gplot过程的一般格式

proc gplot 选项列表；

bubble 散点图表达式

bubble2 散点图表达式

plot散点图表达式

plot2散点图表达式

run；

从gplot过程的一般格式中我们就可看出，此过程只能绘制两种类型的图形，bubble语句指示SAS绘制泡状散点图，plot语句指示SAS绘制点状散点图。bubble2语句和plot2语句指示SAS在同一区域内（bubble2和bubble在同一区域，plot2和plot在同一区域）绘制第二个图形，两者的横坐标相同（同一变量），纵坐标分别位于左右两侧（可以是同一变量，也可以是两个不同的变量）。

散点图表达式的一般形式为：

（1）bubble和bubble2语句：纵坐标变量名*横坐标变量名=泡尺寸变量名（变量值以泡的大小表示），三者均应为数值变量；

（2）plot和plot2语句：纵坐标变量名*横坐标变量名<=n/分类变量名>，此处等号及其后的部分可以省略，此时SAS以默认的散点类型绘制散点图；若等号后为n（n为正整数，是散点类型的编号），SAS则以指定的编号对应的散点类型绘制散点图；若等号后为分类变量名（可为字符型或数值型，为数值型时作为离散型变量处理，每一个值将被当作一个类别），此变量的具体值（或与每个具体值对应的图形）将被作为散点用来绘制散点图。

chart过程和plot过程的一般格式及各选项使用方法分别与gchart过程和gplot过程是基本相同的，不同之处仅在于后两者中涉及到有关三维和图形元素（颜色等）的语句和选项在前两者中是无效的。例如vbar3d语句在chart过程中无效，bubble语句在plot过程中无效。其余的语句和选项使用方法完全相同，所以在掌握了gchart过程和gplot过程后，chart过程和plot过程你会不学自通。

（三）描述性统计关键字及其含义

SAS中可计算的描述性统计量多达二十余种，大部分可在以上介绍的前四个过程中计算，个别统计量在某些过程中不能计算，大家需要注意，要不然系统显示错误信息时还不知道是怎么回事。

我经常遇到这种情况，系统提示错误（此类提示信息显示在log窗口中）时总是摸不着头脑，费半天劲才能搞明白。没办法，摸着石头过河嘛！不过这样也并非一无是处，最起码可以积累很多使用经验。

下表（表2.2）列出SAS中可以计算的所有描述性统计量关键字及其含义，供大家使用时参考。

表2.2 SAS中可以计算的描述性统计量关键字及其含义

关键字	所代表的含义
n	有效数据记录数
nmiss	缺失数据记录数
mean	均数
std	标准差
stderr	标准误
var	方差
median	中位数
mode	众数
cv	变异系数
max	最大值
min	最小值
range	全距
sum	总计
sumwgt	加权值总计
css	校正的离均差平方和
uss	未校正的离均差平方和
clm	可信限（上下界值）
lclm	可信限下侧界值
uclm	可信限上侧界值
skew（skewness）	偏度
kurt（kurtosis）	峰度
t	分布位置假设检验之t统计量
probt	上述t统计量对应的概率值
q1	小提示：本篇资讯需要登录阅读，点击跳转登录版权声明：本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。在此留言评论区 (0) #插入话题插入图片下载梅斯医学APP，方便讨论，随时阅读！立即前往下载 >> 相关资讯 SAS常用程序(1) 2.1 利用SAS软件描述样本数据用SAS可以对样本数据进行全面描述，得出样本的各种特征数以及频数分布图。在阅读以下内容之前请先阅读第一章“SAS软件基本操作”。 2.1.1 用MEANS语句描述数据例 2.1 计算课本上习题1.2的平均数和标准差。解第一章 SAS编程操作预备知识一、SAS系统简介 SAS是一个庞大的系统，它目前的版本可以在多种操作系统中运行。当前在国内被广泛使用的最新版本是8.2版，功能很强大，我深有体会。据说9.0版已在国外面世，已经有一些有关它的抢先报道在网络上广为流传，说它如何如何美妙，令人不禁充满期待。 SAS8.2的完整版本包含以下数十个模块。 BASE，GRAPH，ETS，FSP，AF，OR，IML，SHARE，QC，STAT，IN adminms 关注互相关注最近发布查看更多亚瑟医药宣布完成数亿元人民币A轮融资，推动高端制剂研发生产及连续化生产布局，凯乘资本担任本轮融资财务顾问华芯医疗完成A+轮数亿元战略融资，鱼跃医疗和盛宇投资共同投资，凯乘资本连续担任主要财务顾问普瑞金生物完成超2000万欧元首付款欧美市场license out！凯乘资本担任普瑞金生物财务顾问话题 #统计学SAS# 进入话题论坛创建人：小M 创建时间：2020-05-29 梅斯医学 App 前往APP阅读全文，体验更佳取消前往扫描二维码下载梅斯医学APP,参与讨论！梅斯医学MedSci APP 医路相伴，成就大医 x 梅斯医学MedSci-临床医生发展平台梅斯医学是面向医生的综合互联网平台，应用大数据和人工智能技术链接医生、患者、药械企业等，提供精准数字化医学传播解决方案，优化医疗生态，改善医疗质量，共创美好生活。关于我们关于我们加入我们版权合作投资者关系 MedSci Healthcare 友情链接我们的业务真实世界研究科研数智化数字化学术传播我们的产品期刊智能查询国自然查询分析临床指南医学公式计算医药生物大词典梅斯精品课梅斯公开课新媒体矩阵梅斯医学肿瘤新前沿血液新前沿风湿新前沿呼吸新前沿皮肤新前沿神经新前沿循证中医药儿科新前沿罕见新前沿心血管新前沿梅斯学术生物谷 MedSci App ©Copyright 2012-至今梅斯（MedSci）增值电信业务经营许可证 \| 备案号沪ICP备14018916号-1 \| 互联网药品信息服务资格证书((沪)-非经营性-2020-0033) \| 出版物经营许可证上海工商 \| 上海网警网络110 \| 网络社会征信网 \| 违法和不良信息举报中心 \| 信息举报中心 \|违法举报：021-54485309 \| 沪公网安备 31010402000380 本站旨在介绍医药健康研究进展和信息，不作为诊疗方案推荐。如需获得诊断或治疗方面指导，请前往正规医院就诊。用户应遵守著作权法，尊重著作权人合法权益，不违法上传、存储并分享他人作品。投诉、举报、维权邮箱：editor@medsci.cn，或在此留言 map map 科室订阅+ 更多科室工具服务 map map

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

研究设计与统计

第二章计量资料的统计描述

相关资讯

科室

工具

服务

研究设计与统计

第二章 计量资料的统计描述

相关资讯

SAS常用程序(1)

第一章 SAS编程操作预备知识

科室

工具

服务

第二章计量资料的统计描述