怎么才有数据分析思路?

提问所观察到的现象是个本末倒置反面典型。这种数据分析的思路导致了数据分析看上去做了很多工作,但得出的结论不疼不痒,本身存在感也可有可无。但与此同时,美国互联网企业,或者国内高技术的互联网企业,已经完全养成了商业决策依赖数据分析的文化。为什么会产生这样的反差呢?

我之前在亚马逊做经济学家,现在脸书做资深数据科学家。这两个公司积累下来的数据规模是以PB计的“海量”;而维度之多、复杂程度之高,是外人难以想象;对应的数据库、数据架构、分析工具、数据模型等等,更也是世界一流。但是,每当做起数据分析,常常深感手中数据不是太多,而是太少了。在这里,之所以需要这么大规模的数据,数据分析又如此受重视,归根揭底,是数据分析路径的本质不同。接下来我就详解一下题目中路径的问题在那里,正确的路径是什么样,以及数据分析师在其中能做的具体工作。

根据提问,猜想题主的分析路径是这样的:(1)收集到一堆数据,堆砌起来;(2)寻找一些数据分析的方法和思路,堆砌起来;(3)把数据和方法混在一起不断试验,希望点石成金。

这条路径是一个拿着数据去找答案的路径。问题是,数据是企业过往行为的反馈。如果把商业决策比方成开车,那指望着基于数据去提出问题,从而分析出对企业有用的结论,无异于看着后视镜开车,本质上就是不效率的。分析出来的结论,也很难抓住重点。

数据分析的正确路径

那数据分析是不是就没用了呢?恰恰相反,仍然是拿开车作比方的话,真正的商业环境中,驾驶员是没有全知全能的GPS的,而是面对着一片迷雾:终点在哪个方向?前面的路有没有人走过?团队有没有能力走?是走阳关大道还是华容小道?解决这些问题,有时候依赖创始人的直觉,有时候依赖精干的团队逢山开道遇水搭桥。但如何长久地提高决策的效率、如何衡量决策的效果、如何在多条路径中选出最性价比最高的路径?这时,数据科学家的角色就像一个知识丰富的向导:通过把过往经验总结清楚,在决策的时候提供最值得信赖的参谋。如果一个企业想系统、长远地发展,数据分析必不可少。

这样的做法和提问的区别在于,提问是拿着数据去寻找问题,而正确的做法永远是要拿着问题去数据中寻找答案。对应的路径应该是:(1)理解你所面对的商业模式;(2)寻找商业模式中的关键问题和假设;(3)用数据分析来验证假设和解决问题。

有些读者可能已经发现,拿掉“数据分析”四字定语,这流程和所有的商业决策流程没有任何区别。这样看来,岂不是从创始人到一线员工,每个人都应该做数据分析,从而进行更好的决策吗?当然没错!这不是我自己说的,是Jeff Bezos和Mark Zuckerberg说的。因为直觉、经验、道听途说,都会带着偏见,而数据是真实的,自然应该在决策中占最重要的地位。

数据分析师的职责

数据分析师作为处理数据能力最专业,对数据最了解的人,在这过程中的重要性不言而喻。从数据行程决策的过程中,数据分析师应该做好如下四件事:

  1. 记录数据:

有用的数据要经过有心的设计,才能有效率地存储下来。按照“拿着问题去数据中寻找答案的思路”,不妨想一想,当你做一个决策时,有什么信息是对决策有用的?这里面哪些是现有数据覆盖的,哪些还需要进一步收集?再进一步,好的数据分析师,不但了解每种数据的信息量,还了解不同数据收集时的难易程度,以及如何设计机制来保证信息收集的准确。

比如,若一个电商平台想知道所售商品是否为假货,那应该尽可能全面地了解产品信息、卖家信息,以及消费者反馈。当收集卖家信息时,什么信息容易作假?对法律法规了解的数据分析师可能会着重审核卖家的法律资质,而对机器学习擅长的数据分析师可能会从图像识别入手。哪个路径精确更高,更容易落地,很大程度上可以决定一个商业模式的生死。

对商业模式了解以外,好的数据分析师也会对数据工程有深刻理解。这样才知道,在收集到数据之后,哪些放在数据库,哪些扔进数据湖?如何让最有价值的数据能最快被读取和展示,TB、PB级的数据应该如何存储才能在成本与效率之间优化?

2. 处理数据:

商业复杂后,数据会产生于不同部门。从其他部门高效地整合数据,并对数据质量有把控,也是数据分析师的重要素质。当整合了有用的数据后,把数据清理好、保证质量,做到结构完整、条理清晰,会让基于此的数据分析事半功倍。这一步看起来很轻松,当企业越大、部门越多、数据越复杂的时候,越重要。在亚马逊和脸书,专职于记录数据和处理数据的“数据工程师(data engineer)”与负责分析数据的“数据科学家(data scientist)”大概人数是1:2。

3. 分析数据:

这一步涵盖了太多内容,包括实验、预测、归因、制定关键指标、行研、深挖、仪表盘,等等等等,每一个环节都能单独出一本书来讲解。点到为止,不赘述了。

4. 决策自动化:

这里是机器学习大放异彩的地方了,无论是专家系统、监督学习或者无监督学习,归根结底,都是基于数据总结出来规律,将商业决策自动化。好的数据分析师,除了根据商业问题选择适用模型,提高模型表现和提高数据质量之外,还应该知道什么决策适合被机器学习解决;知道机器学习的长处与短板;知道如何收集/制造标签来赋能机器学习模型;知道如何建立机器学习的优化目标和损失函数;等等。

小结

其实,大数据的概念虽然提了很久,但是真正意义上的多维度、大规模的数据,是近几年才真正发展起来的。很多公司连处理大数据的能力都没有,更别提有效应用了。别的不说,微信这种超级app上,几乎有关于个人的所有维度的信息了,但是连一个广告推荐都还没做好。所以,数据分析在国内是一个刚起步的行业,希望对这行业有兴趣的同学,可以及早摆正思路,让数据分析发挥潜力,得到自己应有的地位。

来源:知乎 www.zhihu.com

作者:孙煜征

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载

此问题还有 69 个回答,查看全部。
延伸阅读:
数据孤岛的突破口在哪里?

想从事数据分析怎么开始准备?