设,所以数据呈现正态分布。习题6答案
1.PROC FREQ过程可以做哪两种频率表?
答:PROC FREQ过程可以做单变量的频率表和双变量的交叉汇总频率表。 2.试指出以下变量哪个是行变量哪个是变量? DATA=score ORDER=FREQ ;
TABLES sex*edu/MISSING CHISQ;
答:这是要做双变量的交叉汇总频率表的过程命令,TABLES后面的第1个变量sex 是行变量,第2个变量edu是列变量。
MISSING表示把缺失值当作有效值统计。CHISQ表示要显示卡方检验及基于卡方检验的泊松卡方、似然度卡方、曼特尔-亨撒尔(Mantel-Haenszl)卡方,以及PHI系数、列联系数、克莱姆系数V、2*2表格的Fisher精确检验。
3.试计算sex变量的一维频数分布,并把缺失值当作有效值统计。
答:例子见程序A.27。 程序A.27: DATA;
LABEL edu= '文化水平' sex= '性别' l= '含磷' xt= '血糖'; INPUT id sex edu xt l @@; CARDS;
001 1 1 8.1 3.1 002 2 2 9.1 2.8 003 1 3 9.0 4.8 004 2 3 8.7 5.1
005 1 2 . 4.7 006 2 . 6.2 . PROC FREQ xt2;
TABLES sex/MISSING;/*把缺失值当有效值统计*/ PROC PRINT; RUN;
4.试计算“定类-定类”双变量交叉汇总与结合测量。
答:例子见程序A.28。 程序A.28:
DATA a28;
INPUT sex $ edu @@; CARDS; m 4 f 3 f 2 m 2 m 1 f 2 m 3 f 2 f 3 ; PROC FREQ; TABLES sex*edu/CHISQ EXACT ; /*计算卡方分布及费歇尔的精确检验*/ TITLE '两维频率表,按FREQ值降序排序'; RUN;
运行程序A.28产生图A.7-图A.8。
图A.7 双变量交叉汇总
从图A.7看:女性5人,其中文化水平为2的有3人,占女性5人中的60%。男性4人,各种文化程度的各占1人(25%)。
图A.8 双变量的结合测量
从图A.8看:Cramer 的 V系数0.6021比较大,表明此样本的性别与文化水平呈现较强的相关。接着有以下的总体推论。
H0:总体上性别与文化水平双变量互为。 验证:
因为卡方值3.2625,自由度3,计算得概率为0.3529。
又因为0.3529>α值0.05,所以没有足够的理由拒绝H0,即总体上说,sex和edu双变量互为。
5.试计算“定比-定比”双变量交叉汇总与结合测量。
答:例子见程序A.29。 程序A.29:
DATA xt; INPUT sex location cy dy mp xt 3.1; LABEL location='地区' sex= '性别' cy = '抽烟量:支' mp= '脉搏' dy= '低压' xt= '血糖'; CARDS; 1 1 15 85 66 8.5 2 1 20 88 68 7.3 1 2 30 90 70 8.6 2 2 25 90 70 7.8 1 1 35 95 75 9.2 2 2 35 91 76 9.0 ; PROC FORMAT; VALUE cyF LOW-10=1 11-20=2 21-HIGH=3; VALUE dyF LOW-85=1 86-90=2 91-HIGH=3; FORMAT cy cyF. Dy dyF.; PROC FREQ; TABLE Dy*xt/ALL;
运行程序A.29产生图A.9-图A.10。
图A.9 “定比-定比”双变量的结合测量 图A.9中有多个相关系数,具体到“定比-定比”双变量的测量,要看最高级的Pearson 相关系数,此系数0.5256较大,表明此样本的低压与血糖呈现较强的相关。接着有以下的总体推论,见图A.10。
图A.10 “定比-定比”双变量的总体推论 H0:总体上低压与血糖双变量互为。 验证:
因为卡方值24,自由度20,计算得概率为0.2424。 又因为0.2424>α值0.05,所以没有足够的理由拒绝H0,即总体上说,低压与血糖双变量互为。
6.试用PROC CHART过程中的水平直方图描述血糖数据。
答:例子见程序A.30。 程序A.30:
DATA xt; INPUT sex location cy dy mp xt 3.1; LABEL location='地区' sex= '性别' cy = '抽烟量:支' mp= '脉搏' dy= '低压' xt= '血糖'; CARDS; 1 1 15 85 66 8.5 2 1 20 88 68 7.3 1 2 30 90 70 8.6 2 2 25 90 70 7.8 1 1 35 95 75 9.2 2 2 35 91 76 9.0 ; PROC FORMAT; VALUE cyF LOW-10=1 11-20=2 21-HIGH=3; VALUE dyF LOW-85=1 86-90=2 91-HIGH=3; FORMAT cy cyF. Dy dyF.; PROC CHART;
HBAR xt/GROUP=sex SUMVAR=xt TYPE =MEAN; 运行程序A.30产生图A.11。
图A.11 男女分开的血糖直方图
分析:图A.11是直方图。直方图比条形图更能充分的描述数据。条形图只能描述性别等nominal(标称,定类)数据,它测量不到区间。直方图适宜于interval(区间,定距)数据和ratio(比例,定比)数据。
从图A.11看:它先按性别粗分为2组。区间中点(Midpoint)的8.7表示血糖区间值为8.4-9.0的有2人,区间的中点9.3表示血糖区间值为9.0-9.5的有1人。而不能说血糖8.7的有2人,血糖9.3的有1人。 余者依此类推。
7.什么情况下要采用RANK过程进行非参数检验?
答:对于标称(定类)数据、次序(定序)数据,以及从非正态分布的总体数据中抽取的区间(定距)和比例(定比)数据,由于不能采用参数检验,所以只能进行非参数检验来观察数据
处于什么分布。这时是对原始数据做秩分变换,即对原始数据从大到小(或从小到大)排列,进而赋予序号成为秩分。
8.试对低压变量dy进行单因素双样本秩和检验。
答:例子见程序A.31。 程序A.31:
DATA xt; INPUT sex location cy dy mp xt 3.1; LABEL location='地区' sex= '性别' cy = '抽烟量:支' mp= '脉搏' dy= '低压' xt= '血糖'; CARDS; 1 1 15 85 66 8.5 2 1 20 88 68 7.3 1 2 30 90 70 8.6 2 2 25 90 70 7.8 1 1 35 95 75 9.2 2 2 35 91 76 9.0 ; PROC RANK NORMAL=VW OUT=OU2; VAR dy;
RANKS rankdy;
PROC NPAR1WAY WILCOXON; CLASS sex;
VAR rankdy; /*单因素双样本秩和检验*/
运行程序A.31产生图A.12。
图A.12 单因素双样本秩和检验
从图A.12看,双侧概率(Two-Sided Pr>|Z|)为1.0000,单侧概率(One-Sided Pr>Z)为0.5000,都极不显著。说明秩和趋于正态分布。
双样本的秩和(Sum of Scores)分别为10.50,相等。
习题7答案
1.简述两个均值的比较方法。 答:见正文的表7.1。
2.试用MEANS过程及其t统计量对变量血糖与标准均值5进行两个均值差异的检验。
答:例子见程序A.32。 程序A.32: DATA xt7; INPUT v @@;
Y=v-5; /*血糖含量与标准均值5的差值 */ CARDS;
8.0 6.9 5.1 8.8 5.2
PROC MEANS MEAN STD T PRT; /*计算最主要的统计量*/
VAR Y; RUN;
运行程序A.32产生图A.13。
图A.13 两个均值差异的检验1 结果分析:
H0:两个均值之差为0。 验证:
从图A.13看,均值差为1.8,标准偏差为1.65。t值2.44,t的概率值0.0713大于α值0.05。
所以没有足够的理由拒绝H0,说明平均血糖与标准均值5很接近。
3.配对样本t检验。对20位肿瘤患者,其中的10 个人采用药物+化疗治疗,另10 个人采用药物+放疗治疗。两周后测得体重增加见程序A.33中的数据处理(单位:公斤)。试对程序A.33中的数据做两种平均疗效的差异性检验。
答:解法见程序A.33中的命令。 程序A.33: DATA TZ; INPUT v1 v2;
D= v1-v2; /*20位肿瘤患者体重之差*/ LABEL v1= '药物+化疗' v2= '药物+放疗'; CARDS;
0.90 0.75 0.80 0.81 0.69 0.78 0.53 0.66 0.51 0.59 0.80 0.85 0.98 0.82 0.66 0.63 0.60 0.51 0.67 0.68 PROC MEANS MEAN STD T PRT; /*计算最主要的统计量*/
VAR D; RUN;
运行程序A.33产生图A.14。
图A.14 两个均值差异的检验2
结果分析:
H0:两个均值之差为0。 验证:
从图A.14看,均值差为0.05,标准偏差为0.1414。t值0.50,t的概率值0.704于α值0.05。
所以没有足够的理由拒绝H0,说明两组血糖平均值没有差异。 4.将被试者分为对照组和实验组2组,使用同一种抗癌药物,一个月后测得肿块大小见程序A.34中的数据所示。试用“TTEST过程及其t检验”做两组疗效差异性的检验。
答:命令语句见程序A.34。 程序A.34:
DATA dbs; INPUT group x @@; CARDS; 1 78 1 90 1 90 1 50 1 85 1 88 1 85 1 88 1 84 1 88 2 40 2 80 2 75 2 48 2 70 2 60 2 70 2 60 2 70 2 62 ; PROC TTEST; CLASS group; VAR x; RUN;
运行程序A.34产生图A.15。
图A.15 用“TTEST过程及其t检验”做两组疗效差异性的检验 结果分析:
①方差相等的检验
H0:两个子总体(两个样本)的方差相等。 检验:
从图A.15的F值的概率“Pr > F”为0.9506。此值大于α值0.05,所以没有足够的理由拒绝H0,说明两个子总体(两个样本)的方差相等。
当方差相等时应该再观察图7.4中的Equal一行的t值及其显著性水平。
②均值相等的检验
H0:两个子总体(两个样本)的均值相等。 检验:
从图7.4中的Equal一行的t值的显著性水平0.0024看,小于α值0.05,所以有足够的理由拒绝H0,说明两个子总体(两个样本)的均值差异显著(注:不宜说均值不相等)。
5.用WILCOXON秩和检验对程序A.35中的实验组与对照组此双样本(即二水平)均差进行显著性检验。
答:命令语句见程序A.35。 程序A.35:
DATA dbs; INPUT group x @@; CARDS; 1 78 1 90 1 90 1 50 1 85 1 88 1 85 1 88 1 84 1 88 2 40 2 80 2 75 2 48 2 70 2 60 2 70 2 60 2 70 2 62 ;
PROC NPAR1WAY WILCOXON;
CLASS group; /*指定group为分类变量*/ VAR x; /*指定数字型因变量x*/ RUN;
运行程序A.35产生图A.16。
图A.16 双样本(即二水平)均差的WILCOXON秩和检验
结果分析:
H0:实验组与对照组消肿效果没有差异。
从图A.16看, WILCOXON统计量Z为3.0742。t检验的概率为0.0062小于α值0.05,所以有足够的理由拒绝H0,表明实验组与对照组消肿效果有显著差异。
习题8答案
1.常用的方差分析法有哪4种?
答: 常用的方差分析法有下列4种:
·完全随机设计数据的方差分析(即单因素方差分析)
·随机区组数据的方差分析(即二因素方差分析) ·拉丁方设计数据的方差分析(即三因素方差分析) ·R*C析因设计数据方差分析(有交互作用的方差分析) 2.均衡数据和非均衡数据各用什么过程命令进行分析?
答:每个因素水平(每组)的个案数目相等的情形,即均衡数据的方差分析要用PROC ANOVA程命令进行分析。如果只考虑组内变异和组间变异(One-Way单向方差分析)时,ANOVA也能处理非均衡数据。
每个因素水平(每组)的个案数目不相等的情形,即非均衡数据的方差分析要用PROC GLM程命令进行分析.
3.对血小板偏低者用4种不同的药物治疗后血小板的数据见程序A.36。试用PROC ANOVA程命令检验4种药物平均疗效有无显著性差异。
程序A.36: DATA f2;
DO i=1 TO 8; DO g=1 TO 4; INPUT Y @@; OUTPUT; END; END; CARDS;
10.1 9.0 10.6 10.1 9.5 11.2 9.2 11.5 10.0 11.6 10.0 10.2 9.2 10.8 8.9 10.5 8.5 10.0 8.8 11.5 9.0 10.2 8.4 10.6 9.5 11.8 10.1 10.5 10.1 11.8 10.5 11.9 ;
PROC ANOVA; CLASS i g; MODEL Y= i g;
MEAN g/DUNNETT; /*增加两两比较的功能*/ 答:运行程序A.36产生图A.17-图A.18。
图A.17 四种药物平均疗效有无显著性差异的检验
(a)DUNNETT检验法
(b)SNK检验法
图A.18 四种药物平均疗效成对显著性差异的检验 结果分析:
H0: 治疗后4组血小板平均含量没有显著差异。 检验:
从图A.17看,模型的显著性水平0.0028<α值0.05,非常很显著。模型很好。
从图A.17的因素i一行看,显著性水平0.096>α值0.05,不显著。所以没有足够的理由拒绝H0,说明4组血小板平均含量没有显著差异。
但,8位受试者血小板平均含量检验的显著性水平0.0005<α值0.05,有显著差异。 再看图A.17的R-square(单向方差分析)值为0.6977,说明总体方差有67%是来自组间变异,比较理想。
图A.18显示组与组之间疗效的检验,由于图A.18(a)中的第4组和第1组的显著性水平有3个*,表明这两组疗效有显著差异。同理, 第2组和第1组疗效有显著差异。第3组和第1组疗效没有显著差异。
再从图A.18(b)看,第4组和第2组疗效没有显著差异。
4.GLM过程的统计功能有哪些? 答: GLM过程的统计功能如下。
·一元回归(简单回归) ·多元回归及多重回归
·方差分析(对非均衡数据更佳) ·协方差分析 ·反应面模型分析 ·加权回归 ·多项式回归 ·偏相关分析
·多元方差分析 ·重复测量方差分析
5.试用GLM过程检验程序A.37中各组平均红细胞数目有无显著差异。 程序A.37: DATA RBC;
DO J=1 TO 3; INPUT n;
DO I=1 TO n; INPUT x @@; OUTPUT; END; END; CARDS; 9
6.35 6.50 6.70 5.80 6.35 6.80 6.40 5.75 6.15 8
5.65 5.50 6.30 5.60 5.15 5.75 6.10 6.85 7
3.80 5.20 5.10 4.50 4.95 5.15 5.85 ;
PROC GLM;
CLASS j; /*定义j为分类变量*/ MODEL x=j; /*指定x为数字型因变量*/ MEANS tl/SNL; /*用SNK的Q检验法检验*/
答:这是单因素3水平方差分析,运行程序A.37产生图A.19。
图A.19 单因素3水平方差分析
H0: 各组平均红细胞数目没有显著差异。 检验:
从图A.19看,模型的显著性水平0.0001<<α值0.05,非常显著。模型很好。
从图A.19的因素j一行看,显著性水平0.0001<<α值0.05,非常显著。所以有足够的理由拒绝H0,说明各组平均红细胞数目有显著差异。
6.已知健康人的甲胎蛋白含量为0~25ng/ml。现用两种药物治疗(8+6)例受试者,2个月后测得甲胎蛋白含量如程序A.38所示。试检验两种药物对甲胎蛋白含量的平均效用。 程序A.38: DATA jj;
DO J=1 TO 2; /*j为甲乙两种药物*/ INPUT n;
DO I=1 TO n; /*n为输入数据的次数*/
INPUT x y@@; /*x为药量,y为甲胎蛋白量*/ OUTPUT; END; END; DROP I n; CARDS; 8
580 25 680 23 700 25 800 22 900 21 1000 20 980 18 940 19 6
530 22 500 20 480 18 450 15 488 17 500 19 ;
PROC GLM;
CLASS j; /*定义j为分类变量*/
MODEL Y=x j/SOLUTION; /*指定x为数字型因变量*/ LSMEANS j/STDERR; OUTPUT P=yp; PROC PLOT;
PLOT yp*x='*'; RUN;
答:这是用GLM做协方差分析,运行程序A.40产生图A.20。
图A.20 检验2种药物对甲胎蛋白含量的平均效用 结果分析:
H0: 检验2种药物对甲胎蛋白含量的平均效用没有差异。
检验:由图A.20看,模型的F值为7.80,F的概率值为0.00078<α值0.05。所以有足够的理由拒绝H0,表明药物对甲胎蛋白含量的平均效用有显著差异。可继续分析因素的作用。
由于因素j的F值为14.98,其概率为0.0026<α值0.05。所以2种药在药效调整后甲胎蛋白含量的平均效用有显著差异。
本例只有主效应,应该观察TYPE Ⅲ SS的离差平方和。对于因素x(药量),其F的概率为0.0188<α值0.05。表明药物与甲胎蛋白含量之间关系显著,即x与y之间呈现线性关系。
所以调整后的直线模型为:甲胎蛋白含量=25.11104777-0.01345532*药量。 两组调整的均值分别如下: Y(1)=7.58095384 Y(2)=0.00000000
因为y的检验概率P为0.0026<α值0.05,所以Y(1)一组调整后的平均甲胎蛋白含量显著差异。但是Y(2)例外。
习题9答案
1.变量的层次有哪四种?
答:1.标称变量(Nominal Variable):国内称之为“定类变量”或“名义变量”。
2.次序变量(Ordinal Variable):国内称之为“定序”变量。 3.区间变量(Internal Variable):国内称之为“定距”变量。
4.比例变量(Ratio Variable):国内称之为“定比”变量,其变量值既具有次序
变量和区间变量的性质,还存在一个有意义的“零点”。比如,甲高2米,乙高1米,甲则是乙的两倍高度。
2.比例-比例变量要用哪一种相关测量? 答:见第9章§9.2节的皮尔逊积差相关。
3.二分变量-区间以上变量要用哪一种相关测量?
答:用第9章§9.3节的皮尔逊二分“点-距”相关。 4.“次序-次序”等级变量要用哪一种相关测量?
答:用第9章“§9.4节肯氏(Kendall)等级相关”τb。 5.次序-比率数据要用哪一种相关测量? 答:用§9.5节的肯氏相关系数。
6.“次序-次序”等级变量要用哪一种相关测量? 答:用§9.6节的斯皮尔曼等级相关。
7.“定类-定类”变量要用哪一种相关测量? 答:用§9.7节所述的Phi(Φ)系数或V系数。 8.哪一个相关系数值是乘以30倍?
答:计算出的Hoeffding 的D统计量应乘以30倍。其D值范围为:-0.5<D<1。当D值为较大的正值时,才表明变量间存在相关。见§9.9节。
9.请写出计算身高(height)与体重(Weight)的Spearman相关系数。 答:PROC CORR Spearman;
VAR Height Weight;(此句Weight指体重变量) 10.请分析图A.21的结果。
图A.21 皮尔逊积差相关
答:从图A.21可看出,SAL2与SAL1的相关系数为0.6795,且概率值小于0.0001(很
显著),说明当前工资与初始工资有较强的相关。
习题10答案
1.GLM过程有哪些功能? 答:GLM过程不仅可处理次序(定序)变量的数据,而且可分析非次序变量的数据,比如: .简单回归(Simple Regression);
.多元(自变量)回归(Multiple Regression);
.方差分析(ANOVA):尤其适用于非均衡、非对称的数据的方差分析(Unbalanced data);
.加权回归(Weighted Regression); .偏相关(Partial Correlation); .多元方差分析(MANOVA);
.多项式回归(Polynomial Regression),或称高次回归; .协方差分析。
2.从图A.22和图A.23看,有无必要创建X*X项?
图A.22 含有X*X项的回归结果
2
答:从图A.22看,R=0.9235,接近百分百,判定系数非常好,而且X的概率P=0.00(非常显著)。所以不需要去设置X的平方项Xsq。当删除X*X项(Xsq)后,回归输出见图A.23。
图A.23 模型中删除X*X项后的回归输出
从图A.23的最后一行结果看,模型中删除X*X项(Xsq)后,自变量X的回归系数不为0(Pr值0.0006<α值0.05)。 表明图A.23比图A.22中的X的回归系数显著。
习题11答案
1.答:在微机SAS系统中REG过程包含以下几个回归方法。
微机SAS系统中的REG过程中则包含了RSQUARE(判定法)、STEPWISE(逐步回归法)、Forward Selection(向前选择法)、Backward dimination(自后淘汰法)等回归法;而GLM过程是一个单独存在的回归过程。
2.答:图A.24的回归结果分析如下。 H0:模型的回归系数全为0。 ①从model(模型)拟合度的检验值F看,其概率值小于0.001,必定小于α值(0.05),因此有足够的理由拒绝原假设,表明回归模型正确。
②再从模型中各个自变量的回归系数的显著性水平看,它们都小于α值(0.05)而非常显著,所以,回归预测模型为Y=截距+v7f+edc+v8f,即:
月收入=136.45759+24.09807*总人数+23.94608*文化程度+1.76143*居住面积。
习题12答案
1.什么是完全模型的路径图和限定性模型的路径图?
答:凡是根据完全模型的方差分析和参数估计统计量画出的,都是完全模型的路径图。请参阅正文第30章的图30.2。
所谓限定性模型是在完全模型的基础上剔除影响力甚微(系数绝对值小于0.2)的效应项,而成为非完全模型,因此被称为限定性模型。请参阅第30章的图30.3。
2.请仿照第30章30.1节的程序30.1画出更好的“完全模型的路径图和限定性模型的路径图”。
答案略。
习题13答案
1.答:结果分析如下。 ①模型拟合度
从正文图13.11(c)看,“Pr > ChiSq”值小于α值0.05的变量有:Intercept(截距)、cell(细胞类型)变量和KPS(手术前的综合体质)变量。把它们继续留在模型中,其余变量删掉,然后重新建立回归模型如下(见程序A.39)。
程序A.39:
DATA valung2;
DROP I N;
INPUT therapy $ cell $ n @ ;
Cellth= therapy ||cell;
LABEL T='追踪时间或非追踪时间' kps='手术前的综合素质评分'
diagtime='从诊断到手术治疗的时间'
age='年龄' prior='事先是否有治疗' cell='细胞类型'
therapy='疗法';
DO I=1 TO N;
INPUT t kps diagtime age prior $ @@;
CENSOR=(t<0);
t=ABS(t);
OUTPUT;
END;
CARDS;
STANDARD SQUAMOUS 15
072 60 7 69 n 411 70 05 y 228 60 3 38 n
126 60 9 63 y 118 70 11 65 y 10 20 5 49 n
082 40 10 69 y 110 80 29 68 n 314 50 18 43 n
-100 70 06 70 n 042 60 04 81 n 008 40 58 63 y
144 30 04 63 n -25 80 9 52 y 11 70 11 48 y
STANDARD SMALL 30
030 60 3 61 n 384 60 9 42 n 04 40 02 35 n
80 4 63 y 13 60 4 56 n -123 40 03 55 n
-97 60 5 67 n 153 60 14 63 y 59 30 2 65 n
117 80 3 46 n 016 30 04 53 y 151 50 12 69 n
22 60 4 68 n 56 80 12 43 y 21 40 2 55 y
18 20 15 42 n 139 80 02 n 20 30 5 65 n
31 75 3 65 n 052 70 02 55 n 287 60 25 66 y
18 30 4 60 n 51 60 1 67 n 122 80 28 53 n
27 60 8 62 n 70 1 67 n 007 50 7 72 n
63 50 11 48 n 392 40 04 68 n 10 40 23 67 y
STANDARD ADENO 9
08 20 19 61 y 92 70 10 60 n 35 40 6 62 n
117 80 02 38 n 132 80 5 50 n 12 50 4 63 y
162 80 5 n 003 30 03 43 n 95 80 4 34 n
STANDARD LARGE 15
177 50 16 66 y 162 80 5 62 n 216 50 15 52 n
553 70 2 47 n 278 60 12 63 n 012 40 12 68 y
260 80 5 45 n 200 80 12 41 y 156 70 2 66 n
-182 90 2 62 n 143 90 8 60 n 105 80 11 66 n
103 80 5 38 n 250 70 8 53 y 100 60 13 37 y
TEST SQUAMOUS 20
999 90 12 y 112 80 6 60 n -87 80 3 48 n
-231 50 8 52 y 242 50 1 70 n 991 70 7 50 y
111 70 3 62 n 001 20 21 65 y 587 60 3 58 n
3 90 2 62 n 033 30 06 n 25 20 36 63 n
357 70 13 58 n 467 90 2 n 201 80 28 52 y
001 50 7 35 n 30 70 11 63 n 44 60 13 70 y
283 90 2 51 n 15 50 13 40 y
TEST SMALL 18
25 30 2 69 n -103 70 22 36 y 21 20 04 71 n
13 30 2 62 n 087 60 02 60 n 02 40 36 44 y
20 30 9 y 007 20 11 66 n 24 60 8 49 n
99 70 3 72 n 008 80 02 68 n 99 85 4 62 n
61 70 2 71 n 025 70 02 70 n 95 70 1 61 n
80 50 17 71 n 051 30 87 59 y 29 40 8 67 n
TEST ADENO 18
24 40 02 60 n 018 40 05 69 y -83 99 3 57 n
31 80 03 39 n 051 60 05 62 n 90 60 22 50 y
52 60 03 43 n 073 60 03 70 n 08 50 05 66 n
36 70 08 61 n 048 10 04 81 n 07 40 04 58 n
140 70 03 63 n 186 90 03 60 n 84 80 4 62 n
019 50 10 42 n 45 40 03 69 n 80 40 04 63 n
TEST LARGE 12
052 60 04 45 n 1 70 15 68 y 19 30 04 39 y
053 60 12 66 n 015 30 05 63 n 43 60 11 49 y
340 80 10 y 133 75 01 65 n 111 60 05 n
231 70 18 67 y 378 80 04 65 n 049 30 03 37 n
;
PROC FORMAT;
VALUE CELLf 1='鱼鳞状' 2='小型' 3='大型' 4='腺状';
FORMAT CELL CELLf.;
PROC LIFEREG;
CLASS therapy cell prior cellth;
MODEL t*CENSOR(1)=cell kps/D=WEIBULL;
OUTPUT OUT=OUT2 P=PRED; RUN;
PROC PRINT;
运行程序A.39产生图A.24。
(a)寿命分析简图1
(b)寿命分析简图
图A.24 寿命分析预测 下面分析图A.24中的寿命分布。
图A.24(a)中的CELL(细胞类型)是分类变量,其值有4个水平(用单词SQUAMOUS 、SMALL、ADENO、LARGE表示),由于这4个单词是字符型,便按单词的首字母升序排列出ADENO、LARGE、SMALL、SQUAMOUS(如果是图A.24(b)那样的数字型,便按1、2、3、4升序排序)。并且以第4项SQUAMOUS项作为基准项(分母),其他项(分子)分别与之比较。
但图A.24(b)中的CELL(细胞类型)其值有4个水平(数字1为“鱼鳞状”癌、2为“小型”、3为“大型”、4为“腺状”),便按1、2、3、4升序排序,并以第4项(ADENO,腺状)
项作为基准项(分母),其他项(分子)分别与之比较。
这些是它们的主要区别。
从A.24(a)看,CELL=SMALL(小细胞)将是CELL= SQUAMOUS(“鱼鳞状”癌细胞)生存时间的e -0.708倍
2.答案略。 习题14答案
1.对数曲线回归的数学表达式是什么?多项式回归(拟合抛物线)的数学表达式是什
么?
答:对数曲线回归的数学表达式是:Y=A+B×Log(X)。
2
多项式回归(拟合抛物线)的数学表达式是: Y=B0+B1X+B2X
2.正文图14.23是19~22岁男生各个年龄组的平均体重,试建立生长发育曲线。 答:请仿照第14章14.3.3节中多项式回归的SAS程序完成本题作业。
3.拟合Logistic曲线回归习题
下述是一个 “产量与劳动力(L)、资金(K)”的非线性回归的经济模型。 (1) 非线性回归的数据及程序见第14章表14.1。 (2) 此非线性回归模型为:
LOGq= B0 + C*Log(D *( L**r)+(1-D)*(k**r)) 参数说明:
B0:截距 D:分布参数 C:斜率,即效率参数 R:替代参数
(3)请分析图14.20的结果。(略) (4)请分析图14.21的结果。(略) (5)请分析图14.22的结果。(略)
(6) 请写出产量的预测公式。答:请参阅14.2节。
习题15答案
1.SAS中的NLIN过程的迭代法主要有哪几种?
答:主要有Gauss、Dud、Gradient、Newton、Marquardt等5种。其中第15章中用得最多的是Gradient和Marquardt法。
2.拟合Logistic曲线回归的数学表达式是什么?
A+BTi
答:拟合Logistic曲线回归的数学表达式是: Yi=C/(1+e)+E 详见第15章15.2节。
3.负指数生长曲线的数学模型是什么?
-B1X
答:负指数生长曲线模型是:Y=B0(1-e)。详见第15章15.4.1节。 4.指数生长曲线的数学模型是什么?
BX
答:拟合指数生长曲线的数学模型是:Y=Ae 详见15.6节。
习题16答案
1.多个自变量的Logistic Regression模型是什么?
答:Logistic Regression模型是: Prob(event)= 1/( 1+ e-z)
2.二分的Logistic Regression回归对因变量和自变量各有什么要求?
答:二分的Logistic Regression回归的因变量必须是(0,1)编码的两个水平的定类变量。自变量可以是多水平的定类变量。
3. Logistic Regression回归输出的回归系数和截距是什么值? 答:在默认情况下,Logistic Regression回归输出的回归系数和截距是对数值,最后
x
要复原为e值。
4. 下面是Logistic Regression回归的常识问题。
(1)预测一个事件是否已经发生,以及判别“一个因变量对于这种预测”的结果如何等,为什么要用Logistic回归法?
(2)对于规模较大的样本,可利用什么统计量检验一个回归系数是否为0? (3)当回归系数的绝对值变大时,为什么不能拒绝“系数为0”的原假设? (4)当回归系数的绝对值变大时怎么办? (5)如何才能更直接地解释回归系数? 答:参阅第16章“16.5 假设与检验”。
5. 试举出一个用PROC Logistic编程法进行逻辑斯蒂克回归的例子。 答:参阅第16章16.4节的程序16.2。
习题17答案
1.什么是2*2维Logistic Regression模型? 答:参阅第17章17.1节。
2.表17.2是某单位200名职工中20年间抽烟与否和心脏病的关系数据,请建立2*2维Logistic Regression模型,并且计算Odds率。
解答:2*2维Logistic Regression模型见程序A.40。 程序A.40: DATA XZB0;
INPUT xzb chy freq @@; CARDS; 1 1 68 1 0 32 0 1 18 0 0 82 ;
PROC LOGISTIC DATA=xzb0; MODEL xzb=chy; WEIGHT freq; RUN;
运行程序A.40输出图A.25所示的优势率。 编码说明:xzb=1(有心脏病) xzb=0(无心脏病) chy=1(抽烟) chy=0(不抽烟)
图A.25 犯心脏病方面抽烟是不抽烟的相对危险度
答:从图A.25看,抽烟犯心脏病是不抽烟犯心脏病的近10倍Odds率。
习题18答案
解答:首先编出简单的程序命令见程序A.41。 程序A.41: DATA a3;
INPUT v1 v2 @@; log=LOG(v1); log2=LOG2(v1); log10=LOG10(v1); LIST; CARDS; 2 3 10
PROC PRINT; RUN;
运行程序A.41产生图A.26的结果。 如图A.26所示:
图A.26 函数输出 然后解答如下:
1.请写出LOG函数(自然对数)的表达式。
LOG(v1)=LOG(10)=2.30259。 (∵e=10,∴输出为2.30259) 2.请写出LOG2函数的表达式。
LOG2(v1)=LOG2(10)=3.32193。
3.请写出LOG10函数(常用对数) 的表达式。
1
LOG10(v1)=LOG10(10)=( ∵10=10,∴输出为1。)
2.30259