本回答仅限于 2021 年见刊或即将发表的(所以相应的 working paper 会更早一些)。我其实考虑过再至少补一篇今年的 working paper。但是因为我要介绍的这篇令我的印象太过深刻,因此我想把本回答的全部篇幅都留给它。这篇文章就是:
Martin, I. and S. Nagel (2021). Market efficiency in the age of big data. Journal of Financial Economics forthcoming.
一直以来,人们纠结于因子或异象在样本外失效的各种原因:伪发现,市场结构变化,交易拥挤,曝光导致被套利走等等。Martin and Nagel (2021) 提出了一个全新的视角:investor high-dimensional learning。
传统实证资产定价假设理性预期(rational expectation),即假设投资者知道哪些变量影响公司基本面以及它们和基本面的关系,即假设 对投资者是已知的,并在这个前提下通过历史数据(在样本内)检验市场有效性。一旦原假设被拒绝便认为变量获得的超额收益代表着风险补偿或定价错误。
然而,Martin and Nagel (2021) 指出,在大数据时代,投资者根本无法知道到底哪些变量能够影响公司基本面,以及变量和基本面之间的关系 到底是什么样。取而代之的是在高维参数空间的学习问题,即估计 到底长什么样、参数是多少。
这个研究视角在我看来非常合理。对于在实时进行投资决策的我们来说,预测基本面或者资产的预期收益毫无疑问是高维预测问题(没有任何经济理论支持我们可以从先验认为该问题满足稀疏性假设 —— 不过这是 another story,择日再表)。因此,当我们在研究历史数据中的收益率和公司特征或其他协变量之间的关系时,凭什么能够假设在历史时刻进行交易的投资者没有面临和我们一样的困境 —— 高维预测问题 —— 呢?
我们不能。
在理性预期范式下,不存在投资者对 的学习问题,因此样本内检验发现的可预测性可以直接推广到样本外。然而,一旦投资者需要估计 且估计存在误差时,通过样本内检验发现的可预测性则无法再保证样本外的可预测性。
从直观上来理解,这是因为投资者高维学习问题会导致均衡状态下资产的价格和理性预期情况下相比出现偏差;该偏差的存在将造成事后(ex post)从计量经济学家的视角来看,已实现收益率不再随机,而是包含了一部分可预测的成分;因此当人们事后用统计检验分析变量和收益率的关系时,会误以为某些变量对收益率有预测性(且在高维问题下,即变量越来越多时,这个偏差造成的影响愈加明显)。
但实际的情况是,对投资者来说,这种可预测性在事前(ex ante)是感知不到的;对进行事后检验的计量经济学家来说,样本内的可预测性仅仅是源自由投资者学习 而导致的资产定价的偏差,因而是虚假的,这些变量在样本外并不能预测收益率。
因此,该文主张 investor high-dimensional learning 的存在使得我们通过事后分析得到的很多显著性只不过是样本内的伪发现而已。下图高度总结了该文。
就我个人的看法,Martin and Nagel (2021) 的发现对学术界的意义重大。在实证资产定价研究中,学术界通常假设理性预期(即投资者不存在学习问题),因而无一例外都是事后通过样本内的数据来检验某个异象或者因子的超额收益是否显著大于零。这一惯例在过去 30 年内产生了大量样本内显著的异象,但是其中的绝大多数在样本外压根不好使或者无法被复现。而究其原因,除了 p-hacking 以及被套利走之外,Martin and Nagel (2021) 给出了另一个解释。
在大数据时代,我们有了过去无可比拟的数据量。然而,投资者面临更加复杂的高维预测和估计问题。大数据如何影响投资者的估计,如何影响均衡状态下资产的价格,如何影响市场的有效性?这些都是等待回答的问题。毫无疑问,Martin and Nagel (2021) 是一个有益和大胆的尝试,而它提出的 investor high-dimensional learning 问题也足以引起人们的重视。
所有历史数据都是样本内。我们既是样本外的投资者,又是样本内的统计者,必须承认 investor high-dimensional learning 带来的伪发现,以及搞清楚它如何影响均衡状态下资产的价格。
我个人真的非常期待在这个研究方向上的任何前沿进展。
哦,如果非要说这篇文章有什么美中不足的话,那就是在我看来,一篇 JF 级别的论文被发到了 JFE。
关于该文的详细解读请参考:
石川:False In-Sample Predictability?
来源:知乎 www.zhihu.com
作者:石川
【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载
此问题还有 5 个回答,查看全部。
延伸阅读:
经济学本科论文用到的数据在哪些网站找呀?