几十万人的流行病学调查，结论就一定是实锤吗？——研究设计与因果推断

全文3556字。如果太长不看，可以只翻阅每个部分的＊懒人结论＊。

在网络自媒体对流行病学研究的报道中，我时常见到有人拿着一篇横断面研究就开始大谈特谈“数十万人研究表明xx导致了xx”。不得不说，这样低级的错误，真是让人看了感到遗憾。

实际上，不同研究类型论证因果关系的能力不同，绝大部分流行病学研究的结果只是初步的，最后结果完全有可能反转。因此，其实现在根本没有那么多革命性的“重磅！”和“震惊！”——毕竟，情况具体是啥样，说不定八字还没一撇呢，有什么好重磅好震惊的？

而像“接种疫苗导致怀孕概率变低”、“抽烟喝酒也能预防糖尿病”这样的搞笑乌龙，就更是本来只需要花两秒钟Ctrl+F瞄一眼研究类型就能避免的。

在本文中，我将介绍一些常见的研究设计中可能出现的因果谬误，并简要分析随机对照试验确立因果关系的原理，供各位参考。

横断面研究：因果倒置

横断面设计，顾名思义，取的是受调查者们人生漫漫长路中的一个瞬间的状态。它是一张照片，照片上暴露因素和我们关心的疾病结局都是同时存在于数据集中的，因此我们无法判断谁发生在先，谁发生在后。

抽烟喝酒，反而预防糖尿病？

比如说，对中国人群进行的关于糖尿病情况的横断面调查就发现，吸烟、饮酒和糖尿病的患病率呈现出了负相关关系（OR小于1）^[1]。难道说抽烟喝酒还能预防糖尿病了不成？？其实，这个恰好是教科书一般的横断面研究的因果倒置（reverse causation）现象。

在这篇研究里，由于糖尿病相对而言不低的知晓率，研究中发现的糖尿病患者有很多都是自己已知有糖尿病，主动开始戒烟戒酒来保命的。于是，这帮后知后觉开始“赎罪”的糖尿病患者，就这样拉低了糖尿病组的吸烟率、饮酒率。显然，这里观察到的关联，实际上是患了糖尿病导致戒烟戒酒，而不是抽烟喝酒多的人更健康。

借助外部假设，横断面研究可以合理外推提示因果关系

不过，在极少数情况下，如果通过合理的假设能够确立暴露和结局发生的先后关系，那么横断面研究也是可以提示因果关系存在的。一个例子是一项关于母亲怀孕时遭受饥荒是否影响所怀的孩子未来患2型糖尿病的风险的研究^[2]。在这个情境下，作者所作的横断面研究在2型糖尿病几乎不可能发生在出生前、1959年10月1日-1961年10月1日出生的妇女一定遭受了饥荒等一系列合理假设的支持下，顺利地转换成了等效的队列研究，从而获得了队列研究提示因果关系的效力。

＊懒人结论＊

由于采用合理假设提示因果的横断面研究是绝少数，因此，对于非研究人员而言，可以直接记：绝大部分情况下，横断面研究（cross-sectional study）不能得到因果关系，不能说谁*导致*了谁。

病例对照研究和队列研究：残余混杂效应

病例对照研究（case-control study）和队列研究（cohort study），都是可以甄别暴露和结局谁先谁后的研究设计。因此，国内部分学校的预防医学本科教育，可能仍然还在给同学们讲队列研究和病例对照研究可以得到因果关系，理由是暴露100%发生在结局之前。这样说其实存在一定的问题：队列研究无法完全排除残余的混杂（residual confounding），因此仍然有一定可能是你观察到的暴露-结局之间的因果关系是由你不知道的混杂因素造成的。

黄色手指和肺癌的故事

我们先假设我们对什么会引起肺癌一无所知。这个时候，如果你开展一个队列研究，观察手指发黄和肺癌的关系，那么我几乎可以肯定，你会发现手指有区域相比肤色发黄的人，有数十倍的风险得肺癌。

可是我们都知道手指头的颜色本身跟肺癌没什么关系。那么是谁造成的呢？

答案是，这里有一个混杂因素：长期大量抽烟的人，手指会被烟卷/硫磺染黄。而烟雾被吸入肺才是升高肺癌发病风险的真正原因。

只要不干预吸烟，即便消除了黄手指，肺癌还是会继续出现。然而，如果你不知道抽烟的人手指会被烟卷熏黄，那么当你看到队列研究中“手指发黄”的RR大于1且统计学显著时，按照“队列研究得到的就是因果关系”的教育，那就是“黄手指导致了肺癌”，于是我们就应该积极漂白手指来预防肺癌……是不是很荒谬？

消灭了已知的未知，还有未知的未知

也许我的读者会向我争论说，我们知道抽烟，我们把我们知道的混杂因素都放进模型不就好了！但事实上，这样做只能解决我们已经知道的混杂因素，而如果还有其他混杂因素我们不知道，那还是完犊子了。

要知道，这可绝对不是抬杠，而是医药领域无数真金白银买出来的教训。

比如说，在那篇证明C反应蛋白（C-reactive protein，CRP）并非缺血性心脏病（IHD）病因的孟德尔随机化研究^[3]发表之前，由于众多队列研究都提示CRP和心血管病的发病高度相关，心血管病流行病学界绝大多数人都信心百倍地相信CRP是一个非常有潜力的靶点，著名药企诺华制药甚至以CRP为靶点开发了药物进行了治疗IHD的临床试验^[4]。

当我们知道一切之后，再回头看CRP这个故事就会发现，这跟前面靠漂白手指预防肺癌的例子就是一回事啊。而且，比肺癌那个例子更惨的是，我们现在甚至还不完全知道谁是CRP背后的那个真正病因。

与之类似的例子，还有阿尔茨海默病的β-淀粉样蛋白致病假说，之前也被各类观察性研究反复证明相关，但最后被礼来的随机对照试验证明并非因果关系^[5]。

不过我们也要看到，队列研究起码证实了，手指发黄的人后面得肺癌的几率确实更高。虽然黄手指不是原因，但如果把它作为一个风险标志（risk marker），围绕它进一步挖掘原因，那么我们探求真相的范围，就从全世界上所有千千万万形形色色的所有事物，缩小到了可能造成黄色手指的那寥寥几个原因。这样一来，有了队列研究给我们划的重点，我们离真相就不远了。

＊懒人结论＊

由于可以区分暴露和结局发生的先后顺序，队列研究的结果是可以确定某一暴露可以标志着疾病风险上升的。因此，跟横断面研究不一样的是，根据队列研究（cohort study）的结果，声称“有着xx特征的人，以后更容易患上yy疾病”，通常是没有问题的。

但是也需要小心的是，如果队列研究的结果尚且缺乏令人信服的致病机制来支持，那么要把队列研究的结果实锤成是因果关系，也即“就是xx导致的yy”，仍然是不够负责任的。

随机对照试验及其类似设计：因果推断的银色子弹

前面提到队列研究时，大家已经能够反复看到我提到的随机对照试验一票否决千千万万篇队列研究的结果的例子了。那么为什么随机对照试验及采用其原理的工具变量法、孟德尔随机化法能拥有这么强大的能量呢？

实际上，这个和它们背后共同的原理有关系：反事实模型（counterfactual model）^[6]。

“真空中的球形鸡”：观察平行宇宙

我们都知道，如果要验证一个因果关系到底成不成立，比如某种保护措施到底能不能降低心血管病风险，那么一个“真空中的球形鸡”式的终极理想办法就是看向事实的反面（counterfactual）：如果我们没有使用这个保护措施，后面又会怎样呢？

举一个例子，比如建立一个平行宇宙。我们在现实宇宙中使用这个保护措施，然后让平行宇宙里的人啥都别做，然后对比观察现实中的我们和平行宇宙里的我们。

鉴于其他因素一开始全部一样，唯一区别只有这个措施，那么如果这个措施真能降低心血管病风险，我们就能观察到我们的心血管病发病率比平行宇宙里更低。

但问题是，正如真空中的球形鸡并不存在，平行宇宙就目前的科技而言也是不存在的。那么，我们怎么才能在现实中模拟这个情形呢？

“现实中的走地鸡”：拉一群人，随机分组，对照试验

人类拥有相似的生理学基础，因此我们可以通过人群的平均结果预测某个个体上会有的效果。更幸运的是，虽然人不能被砍成一对双胞胎，但人群是可以分成特征相同的两半的。

因此，只要一下子拉出几百几千甚至几万人，靠扔硬币完全随机地把他们分成两半，那么这两半人总体来看的各种特质仍然是相似的。这样，只要对比这两组人，就可以一定程度上模拟出对照平行宇宙和现实的结果。

然后，我们让一群人采取保护措施，另一群人什么都不做，再比较这两群相似到可以互换也不违和的人谁心血管病更少。如果采取保护措施的那群人心血管病发生更少，那这个因果关系就可以实锤了。

和队列研究不同的是，随机对照试验之所以可以实锤因果，就是因为它不仅可以通过两组人一样来保证杜绝我们已经知道的混杂因素对我们的影响，还可以因此保证那些未知的混杂因素也一样失去影响。而这样的效果已经被真实的随机对照试验研究所确认了^[7]：

注意表中三群人的特征，它们几乎是完全一样的。而当各组人混杂因素分布相等的时候，混杂因素就会成为无差异混杂因素（non-differential confounders），就无法再扭曲我们的研究结论了。

随机对照试验并非总是完美

需要注意的是，随机对照试验仍然需要满足很多条件，才能保证其理论上的完美。

比如说，临床领域的随机对照试验需要使用完全的盲法，这就是为了保证随机分组真正在数学意义上得到完美执行的措施之一。而营养领域无法实现随机对照试验的一个核心原因之一，也正是做实验要用的膳食不可能做到盲法。

此外，随机对照试验的结果如果要完全外推到全人类，那么它的参与者也需要尽可能多包含全人类的特征分布。这就是为什么药企做随机对照试验除了严格的盲法之外，还需要多中心和大样本来尽可能覆盖多样化的人群。

＊懒人结论＊

在注意保证盲法等重要假设不受破坏的前提下，就研究设计的理论效力比较而言，随机对照试验（randomized controlled trial）确实是医学领域论证因果能力最强的研究设计。高质量的随机对照试验可以直接下结论说“yy就是xx引起的”。

总结

每年都有无数的流行病学研究见刊，而那些样本量大的研究，尤其能得到关注。因此，一些研究虽然囿于设计局限本应影响不大，却因规模庞大而得到了额外关注，甚至连研究的结论也因此显得“确定”了，动不动就被冠上“重磅”、“震惊”的标题。

然而，庞大的样本量其实只能提高发现相关关系存在的统计学功效，很难在相关关系到因果关系的理论推理中提供任何实质性的贡献。

把不成熟的研究结论直接推向实锤的因果关系，通常只能给大众带来恐慌，从而导致大众对科研界的不信任。因此，我写下了这篇又长又枯燥的文章，希望能帮助到各位热心负责的媒体朋友。

愿以后我国的科普媒体上，少一些又惊又爆的空穴来风，多几分有理有据的严谨和认真。

来源：知乎 www.zhihu.com

作者：KellyWeaver

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。
点击下载