请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？

没啥特别大的区别，共同点倒是很多。从代表性的大工作上来看，两边都相信暴力出奇迹，end-to-end加大量模拟数据是王道，和其它做RL及Robotics的人有比较大的差别。有句话叫除了大公司其它人都在折腾小的模拟环境做做RL理论，这话确实挺对的。

常规发文上看，DM现在很大了，RL上各种方向的文章都有，有提出算法的文章，有分析算法的文章，有理论的文章（你看AlphaStar的blog里面引了自己理论的文章，IMPALA也有V-trace的分析等等），也有大量的应用。OpenAI也有很多各种不同且有意思的文章，比如说最近ICLR做Exploration的有趣思路，也有Neural MMO这样的多智能体框架（当然这篇文章的实验真心写得不好），等等。总的来说并没有流派之分，还是往有效果的方向走。

另外policy-based和value-based的区别其实只是formulation上不一样，最后还是要看function approximation是不是和问题对路，inductive bias是不是好。传统tabular上的分析放到实际情况里面往往是不对的。

来源：知乎 www.zhihu.com

作者：田渊栋

【知乎日报】千万用户的选择，做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 12 个回答，查看全部。
延伸阅读：
请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别？
在 DeepMind 或 OpenAI 工作是什么体验？