请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

没啥特别大的区别,共同点倒是很多。从代表性的大工作上来看,两边都相信暴力出奇迹,end-to-end加大量模拟数据是王道,和其它做RL及Robotics的人有比较大的差别。有句话叫除了大公司其它人都在折腾小的模拟环境做做RL理论,这话确实挺对的。

常规发文上看,DM现在很大了,RL上各种方向的文章都有,有提出算法的文章,有分析算法的文章,有理论的文章(你看AlphaStar的blog里面引了自己理论的文章,IMPALA也有V-trace的分析等等),也有大量的应用。OpenAI也有很多各种不同且有意思的文章,比如说最近ICLR做Exploration的有趣思路,也有Neural MMO这样的多智能体框架(当然这篇文章的实验真心写得不好),等等。总的来说并没有流派之分,还是往有效果的方向走。

另外policy-based和value-based的区别其实只是formulation上不一样,最后还是要看function approximation是不是和问题对路,inductive bias是不是好。传统tabular上的分析放到实际情况里面往往是不对的。

来源:知乎 www.zhihu.com

作者:田渊栋

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 12 个回答,查看全部。
延伸阅读:
请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别?
在 DeepMind 或 OpenAI 工作是什么体验?