统计学中的「固定效应 vs. 随机效应」

固定效应(fixed effect, FE)vs. 随机效应(random effect, RE)是统计学中躲不开的一对重要概念,也是统计学思想的一个非常核心的理念:

真实世界的复杂现象 = 确定的统计模型 + 不确定的随机误差

虽然在特定的统计方法中,大家或多或少能区分什么是固定效应、什么是随机效应,但是由于不同的统计方法(甚至不同的学科)对FE和RE的界定不尽相同,所以当你接触到更多的统计方法之后,很可能将不同模型的FE和RE搞混淆。

理解透彻FE和RE并不容易,因为这两个词本身并不够descriptive、比较笼统且具有一定的误导性。比如,心理学家和经济学家也许会因为FE和RE的问题“打架”——心理学家可能会说“我们更推荐用随机效应模型(random-effects model)!”,而经济学家可能会说“我们基本都用固定效应模型(fixed-effect model)!”。但实际上,在各自熟悉的知识框架下理解FE和RE,就如同“盲人摸象”,双方可能都只看到了冰山一角。正因为不同学科有着不大一致的话语体系,我们更需要从一个综合的视角来深入理解这一对贯穿了很多统计模型的基本概念——FE和RE。

本文将以“多层线性模型(HLM)”作为切入口和线索,把众多统计方法中都可能会遇到的FE和RE问题串起来一并梳理清楚:从方差分析到回归分析,从多层线性模型到面板数据模型,以及元分析和元回归。关于HLM本身的入门介绍,详见本专栏(只求甚解)的另一篇文章:多层线性模型(HLM)及其自由度问题


先上结论,再详细解读。

表中是我已经整理好的FE和RE在不同统计模型中的对比。

汇总表:固定效应 vs. 随机效应

1 / 总框架:回归分析

Y = b_0 + b_1X_1 + b_2X_2 + … + error

[观测项] = [结构项]_{(固定部分)}+ [误差项]_{(随机部分)}

「回归(regression)」不仅是众多统计方法的本质,更是我们理解这个复杂世界的重要思想工具(Blog: Common statistical tests are linear models)。世界很复杂,但在科学的视角下,很多现象或行为都可以被简化为回归模型——现象或行为本身是“观测项”,我们还会用一系列其他变量来解释或预测这个观测项,其中,一部分是我们能够预测的“结构项”,另一部分则是我们暂时无法预测的“误差项”

  • 结构项是由一些变量(X1、X2…)及参数(b0、b1…)组成的,尽管我们无法穷尽所有可能的预测变量,但至少我们可以从已知的变量关系中发现一些规律,于是结构项就构成了回归模型的“固定部分”
  • 误差项则是我们为了简化模型而不得不舍弃的一部分,这种刻意的忽略是不可避免的,否则就会造成“过拟合”(overfitting)。具体来说,误差项又有三个来源:遗漏的变量、测量的误差、随机的干扰。但无论如何,我们终究要在“精确性”(accuracy)和“简约性”(parsimony)之间做出权衡,从而舍弃一部分信息,这些“剩下来”的未被解释的信息就构成了回归模型的“随机部分”

下面的四幅图直观地展示了回归模型的“固定”与“随机”。同样都是一条回归方程(有几乎相同的截距和斜率,即模型的“固定部分”),但数据的实质却截然不同——①中的X和Y是两个正态分布的变量,其回归模型的“随机部分”基本都来自于随机误差,因此模型是适当的;②中的X和Y实则是非线性关系,因此用一般的线性回归做拟合是错误的,应加入X的二次项做多项式回归;③中的一个数据点成为了异常值(outlier),同样会影响回归模型的准确性,可以剔除该点,或者做稳健回归;④进一步告诉我们,哪怕是一个小小的异常数据点,也足以产生错误的、有误导性的结果。②~④的共性在于,残差并不满足正态分布,或者存在异方差(heteroscedasticity),所以它们得到的回归模型(固定部分)都是不妥当的。

回归模型的恰当性(著名的Anscombe四组数据)

一般而言,回归模型的“随机部分”需要尽可能服从正态分布,这样才能保证“固定部分”的参数估计是无偏的、一致的、有效的

“回归”的思想其实渗透着“舍得”的理念:我们通过舍弃那些“随机部分”的误差(residual variance),获得了我们想要的“固定部分”的参数(regression coefficients)

2 / 多层线性模型(HLM)

如果说回归是众多统计方法的本质,那么多层线性模型(Hierarchical Linear Model, HLM)就可以视为众多统计方法的“幕后主谋”——回归分析的最一般形式可以归为HLM(详见:多层线性模型(HLM)及其自由度问题)。

当然,这只是一种理念层面的说法,只是有助于我们综合理解很多不同的统计方法。实际上,HLM并不能真正代表和直接实现所有的统计方法。不过,在充分理解了HLM的原理之后再去理解其他统计方法就会比较轻松,尤其是在理解固定效应FE和随机效应RE这件事情上。

在HLM的话语体系中,我们不太直接说FE和RE,因为这两个词对于HLM而言太过于笼统,HLM有着更为细致的划分:

注:每段后面附的语句均为R语言的回归方程表达式,~的前后分别为结果变量和预测变量,例如Y ~ 1 + X1 + X2,其中表示截距的“1”可以省略。另外,在以下的示例中,Y、X1和X2都是Level 1变量(顺带一提,因变量Y只能是Level 1变量,不能是Level 2变量)。

  • 固定截距(fixed intercept):固定截距其实并不存在于HLM的模型中,而是“降级”到了一般的最小二乘法回归(OLS),也就是我们最常用的GLM回归分析。
    → lm(Y ~ 1 + X1 + X2, …)
  • 随机截距(random intercept):在做HLM时,我们通常都会将截距设置为随机截距,也就是允许不同组具有各自的截距(基线水平)。可以理解为,“有的人出生就在终点,而你却在起点”。在R里面,只要你在回归表达式后面加上小括号(当然,这时就不能再用lm了,要用lme4和lmerTest包的lmer函数),括号里就定义了Level 1截距或斜率在Level 2的随机部分(Level 1的随机部分则是个体层面的残差residual,不用我们定义)。竖线“|”后面是分组变量(clustering/grouping variable,可以是省市、学校,而在重复测量、追踪设计中则是被试个体),竖线前面的1代表随机截距、具体变量名则代表这个变量对应的随机斜率。
    → lmer(Y ~ 1 + X1 + X2 + (1 | group), …)
  • 固定斜率(fixed slope):固定斜率的意思是,某个Level 1自变量的斜率在不同的group里面都是一致的。虽然实际情况未必真的一致,但研究者可以假设并检验斜率是否在组间保持一致而不存在显著差异。需要注意的是,Level 2截距或斜率并不存在固定和随机的区分(或者说都是固定的),除非还有Level 3。
    → lmer(Y ~ 1 + X1 + X2 + (1 | group), …)
  • 随机斜率(random slope):与固定斜率相反,随机斜率意味着某个Level 1自变量的斜率在不同的group之间存在差异,或者说“依组而变”。可以理解为,“有的人花两个小时就能赚10000,而你却只能挣个10块钱被试费”。你既可以只纳入随机斜率成分而不对斜率的差异作出具体解释,也可以再纳入一个Level 2的自变量与这个Level 1自变量发生交互作用(即跨层交互),从而解释为什么X的效应依组而变、是什么因素导致了这种变化。
    → lmer(Y ~ 1 + X1 + X2 + (1 + X1 | group), …) # 这里的1可以省略,默认都纳入截距(但只有随机截距时则不能省)
    → lmer(Y ~ 1 + X1*W + X2 + (1 + X1 | group), …) # W表示一个Level 2解释变量,X1*W即为一个跨层交互作用
HLM中的固定/随机截距与斜率

一般来说,只要使用HLM,都会考虑随机截距。所以,在HLM的框架下探讨FE还是RE,更多的是指「斜率」为固定还是随机

那么,何时使用固定斜率、何时使用随机斜率呢?主要有以下4个考虑因素:

  1. 理论假设:我们一般不会特意假设存在随机斜率,也就是说,设置随机斜率需要有比较强的理论假设认为Level 1自变量的效应依组而变。这一点也可以进行统计检验,如果斜率的随机部分(方差成分)与零没有显著差异,则可以考虑舍弃随机斜率。
  2. 研究目的:如果我们的研究目的就是想检验是否存在跨层交互作用,那么相应的Level 1自变量就需要设置为随机斜率。这一点容易理解,因为跨层交互本身就意味着X的斜率会变、并且我们还想解释为什么会变,如果你不设置为随机斜率,岂不自相矛盾?
  3. Level 2的组数量:如果Level 2的组数量过少(如<10组),则Level 2的自由度过小,不足以做出稳健的参数估计,因此更适合用固定斜率。——BUT!如果Level 2的组数量真的小于10,我们甚至需要仔细斟酌一下是否还要用HLM!因为Level 2的组别也是一种随机取样,在GLM里面我们一般要求样本量至少是变量数的10倍,在HLM里面我们同样会要求组别不能太少,一般要求Level 2至少达到10~20组以上,否则Level 2分模型的统计检验力power就会严重不足!这一点和GLM是一样的!——所以,如果没有10组以上的取样,最好还是不要用HLM,此时我们要改用所谓的“固定截距”模型,即降级到GLM / ANOVA / ANCOVA
  4. Level 2每组内的样本量:联想到经典的被试间设计ANOVA,我们一般要求每组样本量不能太少,至少要30~50名被试才能保证power。这一点同样适用于HLM。如果Level 2每组内的样本量都过小(如<30),虽然仍旧可以使用HLM,但为了得到更稳健的参数估计,需要借助更多乃至所有的数据信息,因此更适合用随机斜率。

注:在我的上一篇文章《多层线性模型(HLM)及其自由度问题》中,举了一个“三所学校GPA ~ IQ”的例子来说明做HLM的必要性,但实际上,如果真的遇到只有三所学校的情况,我们还真的不太能做HLM,因为组数量太少了!对于这个例子,最合适的做法是不用HLM,而是用协方差分析ANCOVA,把学校作为一个“固定效应”控制掉即可(也相当于为三所学校生成了两个虚拟变量,做虚拟变量OLS回归,等价于ANCOVA)。

更多讨论,请参考:
(1)Snijders & Bosker, 2012, pp. 43–48《Multilevel analysis: An introduction to basic and advanced multilevel modeling (2nd ed.)》
(2)温福星, 2009, pp. 272–286《阶层线性模型的原理与应用

3 / 方差分析(ANOVA)

ANOVA既可以是GLM的特例,也可以是HLM的特例。

在大多数情况下,被试间、被试内、混合设计ANOVA / ANCOVA都是GLM的特例——即自变量为分组变量的情况。例如,如果用OLS回归的方法分析一个单因素被试间设计ANOVA(假设该因素具有k = 3个水平),则等价于我们为这个因素生成了k – 1 = 2个虚拟变量(dummy variable;λ1 = [1, 0, 0],λ2 = [0, 1, 0];剩下的一个λ为冗余信息,舍去),然后使用这两个虚拟变量进行OLS回归,得到的结果与ANOVA一致。当然,除了dummy coding,还有其他几种不同的编码方式,如Helmert编码:λ1 = [2, -1, -1],λ2 = [0, 1, -1]。但无论如何,我们为ANOVA里面的不同因素生成的编码变量本身只代表有限的分组信息,并不代表这些组别来自于一个更大范围的总体——比如最简单的“生理性别”,除了“男”“女”之外再无其他类别,故而用一个0/1虚拟变量就能表示,但这个变量也仅限于0和1,不可推广至2、3……因此,绝大多数的心理学实验设计都属于“固定因素模型”(如果你喜欢叫它固定效应,也行吧)。

但还有一些情形,例如心理学研究者筛选实验材料,一般不可能穷尽所有可能性,而是按照一定的规则随机选取一些材料作为实验的stimuli,即“stimulus sampling”。这种情况就属于典型的“随机因素模型”——实质为HLM里面的“零模型”(具随机效应的ANOVA),并且同样要求材料的组别/水平数足够多才能进行有效的参数估计(即保证足够大的Level 2自由度df,从而保证power)。

ANOVA中的「固定因素 vs. 随机因素」

对于被试内/重复测量设计的ANOVA,同样可以考虑使用HLM(或者被认知心理学背景的学者称为“线性混合模型 LMM”,本质都一样)。此时,被试个体将作为Level 2的clustering variable,并且是随机截距(1 | subject),而重复测量的条件将作为Level 1自变量,视情况设为固定或随机斜率。使用HLM处理重复测量实验数据具有一定的优势,尤其体现在重复测量条件很多、很复杂、可以为连续变量的情况,例如眼动数据、脑电数据等等。相关的具体问题和实现方法,大家也可以参考这几篇文章:
(1)Fixed vs. Random Factors
(2)“实验心理学数据是否应该使用混合线性模型(LMM)”的讨论
(3)混合线性模型的实现(基于R和jamovi)

总之,在ANOVA的框架里,所谓FE是指“固定截距”(GLM / OLS回归),而RE是指“随机截距”(HLM的特例)。

4 / 面板数据模型(Panel Data Model)

相信大多数心理学科班出身的人并不太熟悉“面板数据”这个词。我最初听到这个词大概是在大三,当时还以为它指的是数据来自一块神秘莫测的“面板”???(黑人问号脸.jpg)后来慢慢真正接触到panel data,才发现这个神翻译真是如“牛肉板面”一样的奇形怪状。

所谓“面板数据”,实际上就是“追踪数据”(longitudinal data),只不过在经济学里面,追踪的“个体”往往是宏观层面省份、城市,而非个人,并且由于省市数据常常又来自于已有的统计年鉴、报表等等,故而得名“面板”(这么说,确实是来自一块神奇的面板咯)。

Panel data的数据结构是N个“个体”(广义的个体,可以是人,也可以是宏观层面的省份、城市)× T个时间点(小到day-level,大到year-level)。这种N × T的四四方方的面板/追踪数据其实是综合了横截面(N)和时间序列(T)两个维度,可以解决单独的横截面或时间序列数据所不能解决的问题,并且在计量经济学里面特别常用。更重要的是,究竟该使用FE还是RE,也是一个在处理panel model时需要考虑的基本问题。

Panel Data

那么,我们该如何分析panel data model(以下简称PLM)?其FE和RE是指什么?究竟是使用FE还是RE?

首先需要指出:PLM所谓的固定效应FE,在本文讨论的所有统计模型中是唯一的一个有点“名不副实”的术语——因为即使在FE的PLM里面,个体效应也依然是「异质」而非真正「固定为同一个值」的(陈强, 2014《高级计量经济学及Stata应用》)。换句话说,在PLM里面,无论FE还是RE,个体截距(相当于HLM里面Level 2不同组各自的截距)都是“异质性截距”( u_i。而区别在于,FE和RE对于这种“异质性截距”有着不同的假定,相应的也有不同的模型估计方法:

  • FE(异质性[非随机]截距):由于PLM数据有个体和时间两个维度,所以FE也分为个体固定、时间固定、双固定。例如个体固定,可以类比于ANOVA里面把不同组别用虚拟变量来表示。我们可以使用“最小二乘虚拟变量回归法”(Least Square Dummy Variable, LSDV)来分析PLM,那么在模型估计的时候,LSDV的做法就是给N个个体生成N – 1个0/1虚拟变量,然后将这些虚拟变量与主要的预测变量一起纳入回归方程,做OLS回归(并且常常需要计算cluster稳健标准误)。时间固定与双固定的做法与之类似。除了LSDV,还可以使用“均值离差法”“一阶差分法”等分析PLM,其中,均值离差法较为常用,其做法是计算出每个个体在T个时间点上的“个体内均值”,然后用原始观测值减去个体内均值进行均值离差校正(相当于做了一个跨时间的组中心化处理;time-demeaning),最后以自变量和因变量的离差值进行回归,分析得到的结果与LSDV基本是一致的。因此总体来看,所谓固定效应FE,在PLM的框架下可以理解为做的是虚拟变量OLS回归(LSDV)。由于在多数的经济数据中,个体不可观测的异质性截距( u_i)往往与解释变量( X_{it})有关或相互干扰,FE的这种虚拟变量回归的做法可以很好地控制并排除那些不可观测的个体差异的影响,从而可以在一定程度上解决遗漏变量的问题,提高模型的准确性。
  • RE(异质性[随机]截距):上面所说的FE允许个体异质性截距 u_i 与解释变量 X_{it} 存在相关;相比之下,RE有着更严苛、也更难满足的假设,即假设 u_i 与所有自变量 X_{it} 均不相关,并且 u_i(残差)是一个服从正态分布的随机变量。RE模型也有相应的估计方法,例如可行广义最小二乘法(FGLS)、最大似然法(ML)等。如果使用最大似然法,其结果将与HLM随机截距模型的结果一致。

虽然一些统计检验(如Hausman检验)可以在一定程度上告诉我们应该使用FE还是RE,但是,至少在经济学领域,研究者通常都会使用固定效应FE。为什么呢?

  1. 首先,这是因为无论Hausman检验的 H_0(u_i与X_{it}不相关) 是否成立,FE得到的参数估计量都是“一致的”(i.e., 点估计收敛于真实的参数值),只不过如果 H_0 成立,RE会比FE更“有效”(i.e., 回归系数的标准误更小,也就是“更显著”),但假如存在异方差,RE也并非最有效。
  2. 其次,经济学往往关注国家、省份、城市等宏观层面的规律。显然,省份这种分组变量本身就可以代表其总体(即一个国家的省份是固定的),而不是一种随机抽样;同时,省份在一个变量上的“基线水平” u_i 往往也会与其他变量 X_{it} 存在相关。

因此综合来看,经济学的宏观数据天然更适合用FE(异质性[非随机]截距)

当然,我作为心理学科班出身的人,对于计量经济学也只是略懂一点皮毛而已,更多关于PLM及其FE与RE的问题,可以参考以下知乎问答和文章:

5 / 元分析(Meta-Analysis)

最后,我们来看看元分析里面的FE和RE。

R语言的metafor包
metafor的method参数

一般情况下,元分析的基本分析单位是从已有文献中提取出来的效应量,包括但不限于原始的均值 M、Cohen’s d、相关系数 r、odds ratio(统计量–效应量的相互转换 | 元分析基础)。例如相关系数 r,我们在做元分析的时候不仅需要输入 r 本身,还需要输入研究的样本量 n。这是因为,无论我们选取哪一种效应量做元分析,都需要知道这个效应量(effect size)在最初由原始研究得出的时候具有多大的取样误差(sampling variance; within-study error)。样本量越大,取样误差越小,得到的效应量置信区间(95% CI)也就越精确。

换一种视角来看,已有文献中的效应量,本身可视为“回归斜率”(回忆:众多统计方法的本质其实都是回归分析,即使是组间差异也可以转换为回归斜率或r-family的效应量)。更进一步来说,这种原始的回归斜率或者说效应量,放在HLM的框架里面就变成了Level 1的斜率;同时,取样误差作为效应量标准误的度量,也就变成了Level 1的残差。假设我们拥有这些研究在个体层面的原始数据,那么毫无疑问,我们会做HLM:将不同的研究作为Level 2的分组变量,而被试个体作为Level 1。

然而,骨感的现实是,我们无法获取原始数据(大概因为我们比较穷也比较懒)。所以我们会去做“元分析”(可以戏称为“穷人/懒人的HLM”),也就是从已有文献里面抠出来一个个效应量,看看它们之间是否一致、平均效应是否存在(这还真不是一个懒人能完成的任务)。于是,我们建立的元分析模型,本质上就是一个只有Level 2的HLM。但由于我们还获取了效应量对应的取样误差,所以我们做的并不是一个纯粹在组层面的GLM回归,而确确实实是一个HLM——只不过Level 1已经由算好了的效应量及其误差代替了而已

元分析中的「固定效应 vs. 随机效应」

因此,元分析模型里面的“截距”(如果你做过的话就会看到),本质上并不是“截距”,而应该理解为“平均的Level 1的斜率”(平均效应量)。于是,元分析的话语体系里所谓的“固定效应模型”本质就是HLM的“固定斜率”(即假设效应量之间不存在异质性,是同质的),而“随机效应模型”则是HLM的“随机斜率”(即假设效应量之间存在异质性,依研究而变)。当然无论是FE还是RE,最终我们都会得到一个平均的、汇总的效应量的点估计及其区间估计。

总体来看,随机效应RE的元分析模型更受推崇——不仅因为RE更符合实际情况(不同研究的异质性)、在估计时更加保守、更不易被极端大/极端小样本量的研究“带跑偏”(平均效应的估计更均衡、更稳健),而且如果我们进一步纳入Study-level的解释变量,还可以做“元回归”(meta-regression)来解释为什么效应量在不同研究之间会存在差异。例如,是不是研究取样的性别比例、平均受教育水平等因素解释了效应量的差异?元回归理解起来其实也很简单,相当于在HLM随机斜率的基础上检验跨层交互作用——Study-level的变量在元分析的模型里面是predictor,其本质则是HLM Level 2的moderator,调节的是Level 1的斜率(效应量)。

总之,除了一些少数情况(包括:①我们有很强的假设认为纳入元分析的不同研究之间是同质的,②我们并不想把结论推广到更大的总体),大多数情况下做元分析还是建议使用随机效应RE。而且,研究者并不建议根据“效应量异质性检验”的结果(如Q、I²等统计量)来决定采用FE还是RE——不要数据驱动,要理论驱动!

顺带一提,jamovi作为一款新兴的统计神器,也能直接做元分析,非常方便(我是见人就安利jamovi的,哈哈哈)。

元分析中的「固定效应 vs. 随机效应」

总结

所谓“固定效应”和“随机效应”都是不太精确的描述,甚至有一定的误导性,因为在不同的统计模型里,它们所指的具体方法甚至可能大相径庭。而借助HLM里面最基本的对「固定 vs. 随机」「截距 vs. 斜率」的2 × 2区分,我们可以清楚地看到:

  • GLM / OLS回归及其特例ANOVA / ANCOVA都属于“固定截距、固定斜率”模型,其随机部分只有个体层面的残差(residual)。
  • HLM首先属于“随机截距”模型,至于采用“固定斜率”还是“随机斜率”,则综合取决于理论假设、研究目的、样本量是否充足等等。相比于GLM,HLM的随机部分不仅有Level 1个体的残差,还多了Level 1截距/斜率的误差。
  • Panel model无论FE还是RE都属于“异质性截距”模型——但对于FE,截距的异质性是“固定”的(不要求残差服从正态分布,且允许截距与自变量相关,但在HLM里面并无对应的等价模型,反而属于一种OLS回归);而对于RE,截距的异质性是“随机”的(要求残差服从正态分布,等价于HLM“随机截距”模型)。总体来说,Panel model大多采用FE模型(异质性[非随机]截距)。
  • Meta-analysis里面的FE和RE分别对应于HLM的“固定斜率”和“随机斜率”,不过这里的“斜率”应理解为元分析不同Study的效应量。效应量本身可以看做是Level 1的斜率,而效应量的标准误则对应于Level 1(组内)的残差。总体来说,Meta-analysis大多采用RE模型(即HLM的随机斜率模型)。

参考文献

Borenstein, M., Hedges, L. V., Higgins, J. P. T., & Rothstein, H. R. (2009). Introduction to meta-analysis. Wiley Publication.

Croissant, Y., & Millo, G. (2008). Panel data econometrics in R: The plm package. Journal of Statistical Software, 27(2), 1–43.

Hox, J. J. (2010). Multilevel analysis: Techniques and applications (2nd ed.). New York, NY: Routledge.

Snijders, T. A. B, & Bosker, R. J. (2012). Multilevel analysis: An introduction to basic and advanced multilevel modeling (2nd ed.). London: Sage.

Wooldridge, J. M. (2016). 横截面与面板数据的计量经济分析 (第2版) (胡棋智 等译). 北京: 中国人民大学出版社.

陈强. (2014). 高级计量经济学及Stata应用 (第2版). 北京: 高等教育出版社.

温福星. (2009). 阶层线性模型的原理与应用. 北京: 中国轻工业出版社.

谢宇. (2013). 回归分析 (修订版). 北京: 社会科学文献出版社.

多层线性模型(HLM)及其自由度问题

统计量–效应量的相互转换 | 元分析基础

来源:知乎 www.zhihu.com

作者:包寒吴霜

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载