1.面板数据定义。
时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据示意图见图1。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。
面板数据用双下标变量表示。例如
yi t, i = 1, 2, …, N; t = 1, 2, …, T
N表示面板数据中含有N个个体。T表示时间序列的最大长度。若固定t不变,yi ., ( i = 1, 2, …, N)是横截面上的N个随机变量;若固定i不变,y. t, (t = 1, 2, …, T)是纵剖面上的一个时间序列(个体)。
图1 N=7,T=50的面板数据示意图
例如1990-2000年30个省份的农业总产值数据。固定在某一年份上,它是由30个农业总产总值数字组成的截面数据;固定在某一省份上,它是由11年农业总产值数据组成的一个时间序列。面板数据由30个个体组成。共有330个观测值。
对于面板数据yi t, i = 1, 2, …, N; t = 1, 2, …, T来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。
注意:EViwes 3.1、4.1、5.0既允许用平衡面板数据也允许用非平衡面板数据估计模型。 例1(file:panel02):1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费(不变价格)和人均收入数据见表1和表2。数据是7年的,每一年都有15个数据,共105组观测值。
人均消费和收入两个面板数据都是平衡面板数据,各有15个个体。人均消费和收入的面板数据从纵剖面观察分别见图2和图3。从横截面观察分别见图4和图5。横截面数据散
点图的表现与观测值顺序有关。图4和图5中人均消费和收入观测值顺序是按地区名的汉语拼音字母顺序排序的。
表1 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据(不变价格) 地区人均消费 1996 CP-AH(安徽) 3282.466 CP-BJ(北京) 5133.978 CP-FJ(福建) 4011.775 CP-HB(河北) 3197.339 CP-HLJ(黑龙江) 2904.687 CP-JL(吉林) 2833.321 CP-JS(江苏) 3712.260 CP-JX(江西) 2714.124 CP-LN(辽宁) 3237.275 CP-NMG(内蒙古) 2572.342 CP-SD(山东) 3440.684 CP-SH(上海) 6193.333 CP-SX(山西) 2813.336 CP-TJ(天津) 4293.220 CP-ZJ(浙江) 5342.234
1997
36.150 6203.048 4853.441 3868.319 3077.9 3286.432 4457.788 3136.873 3608.060 2901.722 3930.574 6634.183 3131.629 5047.672 6002.082
1998 3777.410 6807.451 5197.041 36.778 32.990 3477.560 4918.944 3234.465 3918.167 3127.633 4168.974 6866.410 3314.097 98.503 6236.0
1999 39.581 7453.757 5314.521 4104.281 3596.839 3736.408 5076.910 3531.775 4046.582 3475.942 46.878 8125.803 3507.008 5916.613 6600.749
2000 4203.555 8206.271 5522.762 4361.555 30.580 4077.961 5317.862 3612.722 4360.420 3877.345 5011.976 8651.3 3793.908 6145.622 6950.713
2001 4495.174 86.433 6094.336 4457.463 4159.087 4281.560 88.829 3914.080 46.420 4170.596 5159.538 9336.100 4131.273 6904.368 7968.327
2002 4784.3 10473.12 6665.005 5120.485 4493.535 4998.874 6091.331 44.775 02.063 4850.180 5635.770 10411.94 4787.561 7220.843 8792.210
资料来源:《中国统计年鉴》1997-2003。
表2 1999-2002年中国东北、华北、华东15个省级地区的居民家庭人均收入数据(不变价格) 地区人均收入 IP-AH(安徽) IP-BJ(北京) IP-FJ(福建) IP-HB(河北) IP-HLJ(黑龙江) IP-JL(吉林) IP-JS(江苏) IP-JX(江西) IP-LN(辽宁) IP-NMG(内蒙古) IP-SD(山东) IP-SH(上海) IP-SX(山西) IP-TJ(天津) IP-ZJ(浙江)
1996 4106.251 6569.901 4884.731 4148.282 3518.497 39.935 4744.7 3487.269 39.194 31.414 4461.934 74.451 3431.594 74.963 46.515
1997 40.247 7419.905 6040.944 4790.986 3918.314 4041.061 5668.830 3991.490 4382.250 3774.804 5049.407 8209.037 3869.952 09.690 7158.288
1998 4770.470 8273.418 6505.145 5167.317 4251.494 4240.565 60.175 4209.327 49.7 4383.706 12.555 8773.100 4156.927 7146.271 7860.341
1999 5178.528 9127.992 6922.109 68.940 4747.045 4571.439 6624.316 4787.606 4968.1 4780.090 5849.909 10770.09 4360.050 7734.914 8530.314
2000 5256.753 9999.700 7279.393 5678.195 4997.843 4878.296 6793.437 5088.315 5363.153 5063.228 77.016 11432.20 46.785 8173.193 9187.287
2001 50.597 11229.66 8422.573 5955.045 5382.808 5271.925 7316.567 5533.688 5797.010 5502.873 6975.521 12883.46 01.8 8852.470 10485.
2002 6093.333 12692.38 9235.538 6747.152 6143.565 6291.618 8243.5 6329.311 6597.088 6038.922 7668.036 13183.88 6335.732 9375.060 11822.00
资料来源:《中国统计年鉴》1997-2003。
110001000090008000700060005000400030002000199619971998199920002001CPSDCPSHCPSXCPTJCPZJ20024000200019968000600012000100001400019971998IPAHIPBJIPFJIPHBIPHLJ199920002001IPSDIPSHIPSXIPTJIPZJ2002CPAHCPBJCPFJCPHBCPHLJCPJLCPJSCPJXCPLNCPNMGIPJLIPJSIPJXIPLNIPNMG 图2 15个省级地区的人均消费序列(纵剖面) 图3 15个省级地区的人均收入序列(file:4panel02)
140001200010000800060004000200024CP1996CP1997CP199868101214140001200010000800060004000200024IP1996IP1997IP199868101214CP1999CP2000CP2001CP2002IP1999IP2000IP2001IP2002
图4 15个省级地区的人均消费散点图 图5 15个省级地区的人均收入散点图(7个横截面叠加)
(每条连线表示同一年度15个地区的消费值) (每条连线表示同一年度15个地区的收入值)
用CP表示消费,IP表示收入。AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省。
15个地区7年人均消费对收入的面板数据散点图见图6和图7。图6中每一种符号代表一个省级地区的7个观测点组成的时间序列。相当于观察15个时间序列。图7中每一种符号代表一个年度的截面散点图(共7个截面)。相当于观察7个截面散点图的叠加。
1100010000900080007000600050004000300020000400080001200016000CPAHCPBJCPFJCPHBCPHLJCPJLCPJSCPJXCPLNCPNMGCPSDCPSHCPSXCPTJCPZJIP(1996-2002) 图6 用15个时间序列表示的人均消费对收入的面板数据
12000CP1996CP1997CP1998CP1999CP2000CP2001CP200210000800060004000IP(1996-2002)40006000800010000120001400020002000
图7 用7个截面表示的人均消费对收入的面板数据(7个截面叠加)
为了观察得更清楚一些,图8给出北京和内蒙古1996-2002年消费对收入散点图。从图中可以看出,无论是从收入还是从消费看内蒙古的水平都低于北京市。内蒙古2002年的收入与消费规模还不如北京市1996年的大。图9给出该15个省级地区1996和2002年的消费对收入散点图。可见6年之后15个地区的消费和收入都有了相应的提高。
图8 北京和内蒙古1996-2002年消费对收入时序图 图9 1996和2002年15个地区的消费对收入散点图
2.面板数据的估计。
用面板数据建立的模型通常有3种。即混合估计模型、固定效应模型和随机效应模型。 2.1 混合估计模型。
如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
如果从时间和截面看模型截距都不为零,且是一个相同的常数,以二变量模型为例,则建立如下模型,
yit = +1 xit +it, i = 1, 2, …, N; t = 1, 2, …, T (1) 和1不随i,t变化。称模型(1)为混合估计模型。
以例1中15个地区1996和2002年数据建立关于消费的混合估计模型,得结果如下:
图10
EViwes估计方法:在打开工作文件窗口的基础上,点击主功能菜单中的Objects键,选New Object功能,从而打开New Object(新对象)选择窗。在Type of Object选择区选择Pool(混合数据库),点击OK键,从而打开Pool(混合数据)窗口。在窗口中输入15个地区标识AH(安徽)、BJ(北京)、…、ZJ(浙江)。工具栏中点击Sheet键,从而打开Series List(列写序列名)窗口,定义变量CP?和IP?,点击OK键,Pool(混合或合并数据库)窗口显示面板数据。在Pool窗口的工具栏中点击Estimate键,打开Pooled Estimation(混合估计)窗口如下图。
图11
在Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP?;Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。
点击Pooled Estimation(混合估计)窗口中的OK键。得输出结果如图10。相应表达式是
CPit= 129.6313 +0.7587 IPit
(2.0) (79.7) R2 = 0.98, SSEr = 4824588, t0.05 (103) = 1.99
15个省级地区的人均支出平均占收入的76%。
如果从时间和截面上看模型截距都为零,就可以建立不含截距项的( = 0)的混合估计模型。以二变量模型为例,建立混合估计模型如下,
yit = 1 xit +it, i = 1, 2, …, N; t = 1, 2, …, T (2) 对于本例,因为上式中的截距项有显著性(t = 2.0 > t0.05 (103) = 1.99),所以建立截距项为零的混合估计模型是不合适的。
EViwes估计方法:在Pooled Estimation(混合估计)对话框中Intercept(截距项)选择窗中选None,其余选项同上。
2.2 固定效应模型。
在面板数据散点图中,如果对于不同的截面或不同的时间序列,模型的截距是不同的,则可以采用在模型中加虚拟变量的方法估计回归参数,称此种模型为固定效应模型(fixed effects regression model)。
固定效应模型分为3种类型,即个体固定效应模型(entity fixed effects regression model)、时刻固定效应模型(time fixed effects regression model)和时刻个体固定效应模型(time and entity fixed effects regression model)。下面分别介绍。
(1)个体固定效应模型。
个体固定效应模型就是对于不同的个体有不同截距的模型。如果对于不同的时间序列(个体)截距是不同的,但是对于不同的横截面,模型的截距没有显著性变化,那么就应该建立个体固定效应模型,表示如下,
yit = 1 xit +1 W1 + 2 W2 + … +N WN +it, t = 1, 2, …, T (3) 其中
1,如果属于第i个个体,i1,2,...,N。Wi =
0,其他it, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yit, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表
示被解释变量和解释变量。
模型(3)或者表示为
y1t = 1 +1 x1t +1t, i = 1(对于第1个个体,或时间序列),t = 1, 2, …, T y2t = 2 +1 x2t +2 t, i = 2(对于第2个个体,或时间序列),t = 1, 2, …, T
…
yN t = N +1 xN t + N t, i = N(对于第N个个体,或时间序列),t = 1, 2, …, T 写成矩阵形式,
y1 = (1 x1)1+1 = 1 + x1 +1
…
yN = (1 xN)N+N = N + xN +N
上式中yi,i,i,xi都是N1阶列向量。为标量。当模型中含有k个解释变量时,为k1阶列向量。进一步写成矩阵形式,
y1y2= yNN1100010001NNx11x2+2 +
NN1xN12 NN1上式中的元素1,0都是T1阶列向量。
面板数据模型用OLS方法估计时应满足如下5个假定条件:
(1)E(it|xi1, xi2, …, xiT, i) = 0。以xi1, xi2, …, xiT, i为条件的it的期望等于零。
(2)(xi1, xi2, …, xiT), ( yi1, yi2, …, yiT), i = 1, 2, …, N分别来自于同一个联合分布总体,并相互。
(3)(xit, it)具有非零的有限值4阶矩。 (4)解释变量之间不存在完全共线性。
(5)Cov(it is|xit,xis, i) = 0, t s。在固定效应模型中随机误差项it在时间上是非自相关的。其中xit代表一个或多个解释变量。
对模型(1)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T –1–N。
当模型含有k个解释变量,且N很大,相对较小时,因为模型中含有k + N个被估参数,一般软件执行OLS运算很困难。在计量经济学软件中是采用一种特殊处理方式进行OLS估计。
估计原理是,先用每个变量减其组内均值,把数据中心化(entity-demeaned),然后用变换的数据先估计个体固定效应模型的回归系数(不包括截距项),然后利用组内均值等式计算截距项。这种方法计算起来速度快。具体分3步如下。 (1)首先把变量中心化(entity-demeaned)。 仍以单解释变量模型(3)为例,则有
yi= i + 1xi+i, i = 1, 2, …, N (4)
1其中yi=
Tt1T1yit,xi=
Tt1T1xit,i=
Tt1Tit, i = 1, 2, …, N。公式(1)、(4)相减得,
(yit -yi) = 1(xit -xi) + (it -i) (5)
~,上式写为 yit,(xit -xi) =~令(yit -yi) =~xit,(it -i) =it~ (6) yit = 1~xit+ ~ it
用OLS法估计(1)、(6)式中的1,结果是一样的,但是用(6)式估计,可以减少被估参
数个数。
(2)用OLS法估计回归参数(不包括截距项,即固定效应)。
~xit用向量形式X表示,则利用中心化数据,按OLS法估计 在k个解释变量条件下,把~公式计算个体固定效应模型中回归参数估计量的方差协方差矩阵估计式如下,
~~ˆ) = ˆ2(X'X)-1 (7) Var(ˆ=其中2
~~ˆˆΝΤΝk~的残差向量。 ~ˆ是相对于,(3)计算回归模型截距项,即固定效应参数i。
ˆ (8) ˆi=Yi-Xi以例1(file:panel02)为例得到的个体固定效应模型估计结果如下:
注意:个体固定效应模型的EViwes输出结果中没有公共截距项。
图12
EViwes估计方法:在EViwes的Pooled Estimation对话框中Intercept选项中选Fixed effects。其余选项同上。
注意:
(1)个体固定效应模型的EViwes输出结果中没有公共截距项。
(2)EViwes输出结果中没有给出描述个体效应的截距项相应的标准差和t值。不认为截距项是模型中的重要参数。
(3)当对个体固定效应模型选择加权估计时,输出结果将给出加权估计和非加权估计两种统计量评价结果。
(4)输出结果的联立方程组形式可以通过点击View选Representations功能获得。
(5)点击View选Wald Coefficient Tests…功能可以对模型的斜率进行Wald检验。 (6)点击View选Residuals/Table, Graphs, Covariance Matrix, Correlation Matrix功能可以分别得到按个体计算的残差序列表,残差序列图,残差序列的方差协方差矩阵,残差序列的相关系数矩阵。
(7)点击Procs选Make Model功能,将会出现估计结果的联立方程形式,进一步点击Solve键,在随后出现的对话框中可以进行动态和静态预测。
输出结果的方程形式是
ˆ x1t = 479.3 + 0.70 x1t ˆ1t= ˆ安徽+ y1 (55.0)
ˆx2t = 1053.2 + 0.70 x2t ˆ2t= ˆ北京+y1… (55.0)
ˆx15t = 714.2 + 0.70 x15t ˆ15t= ˆ浙江+ y1 (55.0)
R2 = 0.99, SSEr = 2270386, t0.05 (88) = 1.98
从结果看,北京、上海、浙江是消费函数截距(自发消费)最大的3个地区。
相对于混合估计模型来说,是否有必要建立个体固定效应模型可以通过F检验来完成。
原假设H0:不同个体的模型截距项相同(建立混合估计模型)。
备择假设H1:不同个体的模型截距项不同(建立个体固定效应模型)。 F统计量定义为:
F=
(SSErSSEu)/[(NT2)(NTN1)](SSErSSEu)/(N1)= (9)
SSEu/(NTN1)SSEu/(NTN1)其中SSEr,SSEu分别表示约束模型(混合估计模型)和非约束模型(个体固定效应模型)
的残差平方和。非约束模型比约束模型多了N-1个被估参数。 (混合估计模型给出公共截距项。)
注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-k。 用上例计算,已知SSEr = 4824588,SSEu = 2270386,
F=
(SSErSSEu)/(N1)(48245882270386)/(151)182443=== 7.15
SSEu/(NTN1)2270386/(105151)25510F0.05(14, ) = 1.81
因为F= 7.15> F0.05(14, ) = 1.81,所以,拒绝原假设。结论是应该建立个体固定效应模型。
(2)时刻固定效应模型。
时刻固定效应模型就是对于不同的截面(时刻点)有不同截距的模型。如果确知对于不同的截面,模型的截距显著不同,但是对于不同的时间序列(个体)截距是相同的,那么应该建立时刻固定效应模型,表示如下,
yit = 1 xit +1 + 2 D2 + … +T DT +it, i = 1, 2, …, N (10) 其中
1,如果属于第t个截面,t2,...,T。Dt =
0,其他(不属于第t个截面)it, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yi t, xit, i = 1, 2, …, N; t = 1, 2, …, T分别表
示被解释变量和解释变量。模型(10)也可表示为
yi1 = 1 +1 xi1 + i1, t = 1,(对于第1个截面),i = 1, 2, …, N yi2 = (1 +2) +1 xi2 + i2, t = 2,(对于第2个截面),i = 1, 2, …, N
… yiT = (1 +T) +1 xiT + iT, t = T,(对于第T个截面),i = 1, 2, …, N
如果满足上述模型假定条件,对模型(2)进行OLS估计,全部参数估计量都具有无偏性和一致性。模型的自由度是N T –T-1。
图13
EViwes估计方法:在Pooled Estimation(混合估计)窗口中的Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP? 和虚拟变量D1997, D1998, D1999, D2000, D2001, D2002;在Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗点击Common;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。
以例1为例得到的时刻固定效应模型估计结果如下:
ˆxi1 = 108.5057 + 0.77 xi1 ˆ1996 +ˆi1= y1 (1.5) (74.6)
ˆxi2 = 108.5057 +28.1273 + 0.77 xi2 ˆ1997 +ˆi2= y1 (1.5) (0.4) (74.6) …
ˆxi7 = 108.5057 -199.8213 + 0.77 xi7 ˆ2002 +ˆi7= y1 (1.5) (0.4) (74.6)
R2 = 0.9867, SSEr = 4028843, t0.05 (97) = 1.98
相对于混合估计模型来说,是否有必要建立时刻固定效应模型可以通过F检验来完成。
H0:对于不同横截面模型截距项相同(建立混合估计模型)。
H1:对于不同横截面模型的截距项不同(建立时刻固定效应模型)。 F统计量定义为:
F=
(SSErSSEu)/[(NT2)(NTT1)](SSErSSEu)/(T1)= (11)
SSEu/(NTT1)SSEu/(NTT1)其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时刻固定效应模型
的)的残差平方和。非约束模型比约束模型多了T-1个被估参数。
注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-T- k。 用上例计算,已知SSEr= 4824588,SSEu= 4028843,
F=
(SSErSSEu)/(T1)(48245884028843)/(71)132624=== 3.19
SSEu/(NTT1)4028843/(10571)41534F0.05(6, 87) = 2.2
因为F= 3.19> F0.05(14, ) = 2.2,拒绝原假设,结论是应该建立时刻固定效应模型。
(3)时刻个体固定效应模型。
时刻个体固定效应模型就是对于不同的截面(时刻点)、不同的时间序列(个体)都有不同截距的模型。如果确知对于不同的截面、不同的时间序列(个体)模型的截距都显著地不相同,那么应该建立时刻个体效应模型,表示如下,
yit = 1 xit +1+2D2 +…+T DT +1W1+2W2 +…+N WN+it, i=1,2,…,N,t = 1, 2, …, T
(12) 其中虚拟变量
1,如果属于第t个截面,t2,...,T。Dt = (注意不是从1开始)
0,其他1,如果属于第i个个体,i1,2,...,N。Wi = (注意是从1开始)
0,其他it, i = 1, 2, …, N; t = 1, 2, …, T,表示随机误差项。yi t, xit, (i = 1, 2, …, N; t = 1, 2, …, T)分别表
示被解释变量和解释变量。模型也可表示为
y11 = 1 +1 +1 x11 + 11, t = 1,i = 1(对于第1个截面、第1个个体) y21 = 1 +2 +1 x21 + 21, t = 1,i = 2(对于第1个截面、第2个个体) …
yN1 = 1 +N +1 xN1 + N1, t = 1,i = N(对于第1个截面、第N个个体) y12 = (1 +2) +1 +1 x12 + 12, t = 2,i = 1(对于第2个截面、第1个个体) y22 = (1 +2) +2 +1 x22 + 22, t = 2,i = 2(对于第2个截面、第2个个体)
…
yN2 = (1 +2) +N +1 xN2 + N2, t = 2,i = N(对于第2个截面、第N个个体)
…
y1T = (1 +T) +1 +1 x12 + 1T, t = T,i = 1(对于第T个截面、第1个个体) y2T = (1 +T) +2 +1 x22 + 2T, t = T,i = 2(对于第T个截面、第2个个体)
…
yNT = (1 +T) +N +1 xNT + NT, t = T,i = N(对于第T个截面、第N个个体)
如果满足上述模型假定条件,对模型(12)进行OLS估计,全部参数估计量都是无偏的和一致的。模型的自由度是N T– N–T。注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT– N -T- k+1。
以例1为例得到的截面、时刻固定效应模型估计结果如下:
图14
EViwes估计方法:在Pooled Estimation(混合估计)窗口中的Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗填入IP? 和虚拟变量D1997, D1998, D1999, D2000, D2001, D2002;在Cross section specific coefficients(截面系数不同)选择窗保持空白;在Intercept(截距项)选择窗中选Fixed effects;在Weighting(权数)选择窗点击No weighting。点击Pooled Estimation(混合估计)窗口中的OK键。
注意:
(1)对于第1个截面(t=1)EViwes输出结果中把(1 +i), (i = 1, 2, …, N)估计在一起。 (2)对于第2, …, T个截面(t=1)EViwes输出结果中分别把(1 +t), (t = 2, …, T)估计在一起。
输出结果如下:
ˆ x11 = 537.9627 + 0.6712 x11, (1996年安徽省)ˆ1996 +ˆ11= y1ˆ x21 = 1223.758 + 0.6712x21, (1996年北京市) ˆ1996 +ˆ21= y1…
ˆ x11 = 98.91126 + 0.6712 x11, (1997年安徽省) ˆ1997 +ˆ11= y1ˆ x21 = 98.91126 +1223.758 + 0.6712x21, (1997年北京市) ˆ1997 +ˆ21= y1…
ˆx15,7 = (183.3882 +870.4197) + 0.6712 x15,1,ˆ15,7= ˆ2002 +ˆ15+y(2002年浙江省) 1R2 = 0.9932, SSEr = 2045670, t0.05 (83) = 1.98
相对于混合估计模型来说,是否有必要建立时刻个体固定效应模型可以通过F检验来完成。
H0:对于不同横截面,不同序列,模型截距项都相同(建立混合估计模型)。 H1:不同横截面,不同序列,模型截距项各不相同(建立时刻个体固定效应模型)。 F统计量定义为:
F=
(SSErSSEu)/[(NT2)(NTNT)](SSErSSEu)/(NT2)=
SSEu/(NTNT)SSEu/(NTNT) (13)
其中SSEr,SSEu分别表示约束模型(混合估计模型的)和非约束模型(时刻个体固定效应模型的)的残差平方和。非约束模型比约束模型多了N+T个被估参数。
注意:当模型中含有k个解释变量时,F统计量的分母自由度是NT-N-T- k+1。 用上例计算,已知SSEr= 4824588,SSEu= 2045670,
F=
(SSErSSEu)/(NT2)(48245882045670)/(1572)1346=== 5.6
SSEu/(NTNT)2045670/(105157)247F0.05(20, 81) = 1.
因为F= 5.6> F0.05(14, ) = 1.,拒绝原假设,结论是应该建立时刻个体固定效应模型。
(4)随机效应模型
在固定效应模型中采用虚拟变量的原因是解释被解释变量的信息不够完整。也可以通过对误差项的分解来描述这种信息的缺失。
yit = + 1 xit + it (14) 其中误差项在时间上和截面上都是相关的,用3个分量表示如下。
it = ui + vt + wit (15)
其中ui N(0, u2)表示截面随机误差分量;vt N(0, v2)表示时间随机误差分量;wit N(0, w2)
表示混和随机误差分量。同时还假定ui,vt,wit之间互不相关,各自分别不存在截面自相关、
时间自相关和混和自相关。上述模型称为随机效应模型。
随机效应模型和固定效应模型比较,相当于把固定效应模型中的截距项看成两个随机变量。一个是截面随机误差项(ui),一个是时间随机误差项(vt)。如果这两个随机误差项都服从正态分布,对模型估计时就能够节省自由度,因为此条件下只需要估计两个随机误差项的均值和方差。
假定固定效应模型中的截距项包括了截面随机误差项和时间随机误差项的平均效应,而且对均值的离差分别是ui和vt,固定效应模型就变成了随机效应模型。
为了容易理解,先假定模型中只存在截面随机误差项ui,不存在时间随机误差分量(vt), yit = + 1 xit + (wit+ ui) = + 1 xit +it (16) 截面随机误差项ui是属于第个个体的随机波动分量,并在整个时间范围(t = 1,2, …, T)保持不变。随机误差项ui, wit应满足如下条件:
E(ui) =0, E(wit) = 0
E(wit 2) = w2, E(ui 2)= u2,
E(wit uj) =0, 包括所有的i, t, j。 E(wit wjs) =0, i j, t s E(ui uj) =0, i j 因为根据上式有
it = wit+ ui
所以这种随机效应模型又称为误差分量模型(error component model)。有结论, E(it ) = E(wit +uj) = 0,
(16)式,yit = + 1 xit + (wit+ ui),也可以写成yit = ( + ui) + 1 xit + wit。服从正态分布的截距项的均值效应u被包含在回归函数的常数项中。
E(it 2) = E(wit +uj)2 = w2 +u2,
E(it is) = E[(wit+ ui)(wis+ ui)] = E[(wit wis + ui wis + wit ui + ui2)] =u2, t s 令
i = (i1, i2, …iT)'
则
(w2u2)u222u2(wu) = E(ii') = u2u2
22(wu)u2u2=w2 I(TT) +u2 1(T1) 1(T1) '
其中I(TT)是(TT)阶单位阵,1(T1)是(T1)阶列向量。因为第i期与j期观测值是相互的,所以NT个观测值所对应的随机误差项的方差与协方差矩阵V是
00V = 0000= 100010 = INN 001其中INN表示由(T1)阶列向量为元素构成的单位阵,其中每一个元素1或0都是(T1)阶列
向量。表示科罗内克积(Kronecker product)。其运算规则是
a11Ba12BaBaB2122 ANKB =aN1BaN2Ba1KBa2KB aNKB检验个体随机效应的原假设与检验统计量是
H0:u2 = 0。(混合估计模型) H1:u2 0。(个体随机效应模型)
2NTuˆitNTi1t1NTLM=1=NT2(T1)2(T1)ˆit2ui1t12N2ˆTuii11 NT2ˆuiti1t12NT =
2(T1)T2uˆuˆ1 ˆˆuu2ˆuˆ表示由混合估计模型计算的残差ˆuˆ表示由个体随机效应模型计算的残差平方和。u其中u平方和。统计量LM服从1个自由度的2分布。
可以对随机效应模型进行广义最小二乘估计。以观测值方差的倒数为权。为了求权数,必须采用两阶段最小二乘法估计。因为各随机误差分量的方差一般是未知的,第一阶段用普通最小二乘估计法对混合数据进行估计(采用固定效应模型)。用估计的残差计算随机误差分量的方差。第二步用这些估计的方差计算参数的广义最小二乘估计值。如果随机误差分量服从的是正态分布,模型的参数还可以用极大似然法估计。
仍以例1为例给出随机效应模型估计结果如下:
图15
注意:随机效应模型EViwes输出结果中含有公共截距项。
图16
以例1为例,用个体随机效应模型和混合模型计算的统计量的值是
157ˆuˆNTT2u1LM ==ˆˆuu2(T1)2627225016531=8.75(24.4)2 = 5209 48245882F0.05 (1) = 3.84
因为F= 5209 > F0.05 (1) = 3.84,所以拒绝原假设,结论是应该建立个体随机效应模型。
假定截面截距和时间截距都是随机的。分别服从均值为u和v,方差为u2和v2的正态分布。随机误差项将由3部分组成,并有方差。
Var(it) = Var(ui) + Var(vt) + Var(wit) =u2 +v2+w2
当u2和v 2都等于零,随机效应模型退化为固定效应模型。
随机效应模型和固定效应模型哪一个更好些?实际是各有优缺点。随机效应模型的好处是节省自由度。对于从时间序列和截面两方面上看都存在较大变化的数据,随机效应模型能明确地描述出误差来源的特征。固定效应模型的好处是很容易分析任意截面数据所对应的因变量与全部截面数据对应的因变量均值的差异程度。此外,固定效应模型不要求误差项中的个体效应分量与模型中的解释变量不相关。当然,这一假定不成立时,可能会引起模型参数估计的不一致性。
(5)回归系数不同的面板数据模型 当认为对于不同个体,解释变量的回归系数存在显著性差异时,还可以建立回归系数不同的面板数据模型。
EViwes估计方法:在Pooled Estimation(混合估计)窗口中的Dependent Variable(相依变量)选择窗填入CP?;在Common coefficients(系数相同)选择窗保持空白(如果需要估计时刻固定效应也可输入虚拟变量D1997, D1998, D1999, D2000, D2001, D2002);在Cross section specific coefficients(截面系数不同)选择窗填入IP?;在Intercept(截距项)选择窗中选Fixed effects(也可以做其他选择);在Weighting(权数)选择窗点击No weighting(也可以做其他选择)。点击Pooled Estimation(混合估计)窗口中的OK键。
图17
ˆ x1t = 161.62 + 0.76 x1t ˆ1t= ˆ安徽+y1ˆx2t = 36.22 + 0.81 x2t ˆ2t= ˆ北京+y1 (31.0)
…
(9.1)
ˆx15t = 1328.26 + 0.63 x15t ˆ15t= ˆ浙江+y1R2 = 0.995, SSEr = 1409247
(21.1)
用EViwes建立面板数据估计模型步骤。
利用1996~2002年15个省级地区城镇居民家庭年人均消费性支出和年人均收入数据(不变价格数据)介绍面板数据模型估计步骤。
(1)建立混合数据库(Pool)对象。 首先建立工作文件。在打开工作文件窗口的基础上,点击EViwes主功能菜单上的Objects键,选New Object功能(如图18),从而打开New Object(新对象)选择窗。在Type of Object选择区选择Pool(合并数据库),并在Name of Object选择区为混合数据库起名Pool01(初始显示为Untitled)。如图19,点击OK键,从而打开混合数据库(Pool)窗口。在窗口中输入15个地区的标识AH(安徽)、BJ(北京)、…、ZJ(浙江),如图20。
图18 图19
图20
(2)定义序列名并输入数据。
在新建的混合数据库(Pool)窗口的工具栏中点击Sheet键(第2种路径是,点击View键,选Spreadsheet (stacked data)功能),从而打开Series List(列写序列名)窗口,定义时间序列变量CP?和IP?(?符号表示与CP和IP相连的15个地区标识名)如图21。点击OK键,从而打开混合数据库(Pool)窗口,(点击Edit+-键,使EViwes处于可编辑状态)输入数据。输入完成后的情形见图22。
图22所示为以截面为序的阵列式排列(stacked data)。点击Order+-键,还可以变换为以时间为序的阵列式排列。
工作文件也可以以合并数据(Pool data)和非合并数据的形式用复制和粘贴的方法建立。
图21 图22
(3)估计模型
图23
点击Estimation键,随后弹出Pooled Estimation(混合估计)对话窗(见图23)。先对Pooled Estimation(混合估计)对话窗中各选项功能给以解释。
Dependent Variable(相依变量)选择窗:用于填写被解释变量。 Sample(样本范围)选择窗:用于填写样本区间。
Balanced Sample(平衡样本)选择块:点击挑勾后表示用平衡数据估计。
Common coefficients(系数相同)选择窗:用于填写对于不同横截面斜率(回归系数)相同的解释变量和虚拟变量。
Cross section specific coefficients(截面系数不同)选择窗:用于填写对于不同横截面斜
率(回归系数)不同的解释变量。
Intercept(截距项)选择窗:从中可以选None(不要截距项)、Common(同一截距项)、Fixed effects(个体不同截距项不同)、Random effects(随机效应截距项)。
Weighting(权数)选择窗:从中可以选No weighting(等权估计)、Cross section weights(按截面取权数)、SUR(似不相关回归)、iterate to convergence(迭代至收敛)。“等权估计”的方法是所有的观测值都给以相等的权数;“按截面取权数”的方法是以横截面模型残差的方差为权数,属于广义最小二乘法估计。“似不相关回归”的方法是利用横截面模型残差的协方差进行广义最小二乘法估计,该法将自动修正横截面中出现的异方差和短期自相关;“迭代至收敛”方法当选择广义最小二乘法估计时,点击此键将保证参数估计一直到收敛为止。在Options对话框中可以给出收敛准则和最大迭代次数。
用EViwes可以估计固定效应模型(包括个体固定效应模型、时刻固定效应模型和时刻个体固定效应模型3种)、随机效应模型、带有AR(1)参数的模型、截面不同回归系数也不同的面板数据模型。
用EViwes可以选择普通最小二乘法、加权最小二乘法(以截面模型的方差为权)、似不相关回归法估计模型参数。
可以在Common coefficients选择窗和Cross section specific coefficients选择窗中填入AR(1)项。如果把AR(1)项填在Common coefficients选择窗中相当于假设模型有相同的自回归误差项,如果把AR(1)项填在Cross section specific coefficients选择窗中相当于假设模型有不同的自回归误差项。注意:如果把解释变量填入Cross section specific coefficients选择窗中,将会得到很多的回归参数。
估计过程中的缺省方法是等权(No weighting)估计。还可以选择Cross section weights(按截面取权数)和SUR(似不相关回归)。解释3种方法如下:
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务