[translate]数据分析的一些基本原则

=Start=

缘由：

翻译整理一下之前看到的一篇关于『良好数据分析应具备的原则』的文章，以此帮助和提醒自己在数据分析方向做的更好。

正文：

参考解答：

明确目标，结果/产出导向。

数据分析是为了解决实际问题的，不要为了分析而分析，而要为了解决问题，实现目标而分析。

磨刀不误砍柴工——先明确目标和方法，再确认数据及其有效性，然后在分析的过程中不断检查和校验（避免走偏）。

在数据分析过程中要不断和利益相关方进行沟通，不断明确和强化目标，避免做无用功。

多维度分析，避免辛普森悖论！

在做交流和阐释前，先换位思考，站在听众的角度，提前想想他们可能会提出什么问题，遇到什么困惑，我当前的材料和说明能否回答他们的问题和困惑，如果不能，我还需要做哪些调整和改变。

(Data analysis is hard.)数据分析是困难的。

困难的是它的直觉方面——基于你目前拥有的有限信息，知道你想要的方向。此外，（深入、大规模、一致）的进行成果交流并阐释为什么你的分析是正确的，这使得这一切都变得更加困难。

作为这些深入分析的一部分，我已经注意到一些“原则”，我发现这些原则是非常有用的。

原则1：明确目标和方法(Know your approach)

在你开始进行数据分析前，你需要清楚的知道——你希望通过数据分析回答什么问题，达成什么目标。此外，我们还应该对我们要分析的数据有些基本了解，比如有什么数据可用？数据结构是什么样的？存储在哪里（数据库、csv文件、第三方API）？我们有什么分析工具等等。

磨刀不误砍柴工，先弄清楚这些问题往往能让后面的分析工作更加高效（少走弯路）。

原则2：了解数据是如何生成的(Know how the data was generated)

一旦确定了分析方法和数据源，你还需要了解数据是如何生成的，特别是在使用自己公司的数据时。

这里假设你是Amazon的一名数据分析师，正在做一些订单分析的工作。假设在公司内部的数据库里有张叫做”orders”的订单表，你可能需要考虑的是，这张订单表会存储未完成的订单吗？在网站上进行什么操作才会在这张订单表中产生一条记录？如果用户创建了一个订单但是没有完成付款，这张表里会有数据吗？这张表里每个字段具体是什么含义？

为了对你自己的分析有信心，你需要知道这些细节——因为你的听众可能会问这些问题。

原则3：检查数据的有效性(Profile your data)

当你确信你正在使用的是正确的数据时，接下来你就需要去熟悉它。这不仅能让你对你所看到的数据有一个基本的了解，还能让你在以后的分析中获得某种程度的安慰，即事情仍然是“正确的”。

例如，我曾经帮助一个朋友分析一个相当大的时间序列数据集(差不多有10GB大小)。分析的结果与我的直觉并不一致——我感觉有些不对劲。在进一步深入分析时，我决定按日期来绘制事件，才注意到我们有两天完全没有任何数据——而理论上不应该出现这种情况。

尽早（且不断的）检查数据的有效性，会有助于你的整个分析工作——它使你能更早地注意到什么是“有问题”的（避免发现太晚导致做了太多的无用功）。

原则4：从不同角度对数据进行分析(Facet all the things)

我越来越相信辛普森悖论是任何使用数据的人都应该理解的最重要的事情之一。在辛普森悖论的案例中，当把不同组的数据组合在一起进行总体观察时，出现在不同组数据中的趋势就消失了。它说明了多维度查看数据的重要性。

作者在文章中举了一个1973年秋季加州大学伯克利分校研究生课程的男女录取率的栗子，这里不细讲（大概内容就是：从总数上看男性的录取率要高于女性，但当把性别和院系的数据拆分来看就会发现很多院系的研究生录取率实际上都是女性高于男性，这里就出现了聚合数据和各维度数据的结论不一致、甚至是相违背的情况），有兴趣的可以去看原文。

在查看数据时，请记住辛普森悖论。理解聚合统计信息是如何产生误导的，以及为什么需要从多个方面查看数据，这是非常重要的。

原则5：保持怀疑(Be skeptical)

除了检查和分析数据之外，你还需要对整个分析过程保持怀疑。如果某件事看起来或感觉上不太对，那它可能就是有问题（墨菲定律）。仔细检查你的数据，确保没有任何意外发生；如果有什么意外，确保你理解它为什么会发生，并在继续分析之前确保你能解释清楚原因（数据/结论的可解释性非常重要！）。

我认为在大多数情况下，没有数据比不正确的数据更好。一定要确保分析的基础是正确的。

原则6：像律师一样思考(Think like a trial lawyer)

一个好的审判律师除了会做好他们自己的准备之外，同时也会考虑对方可能会如何回应。当对方提出问题时，我们的律师将为新的证据或证词做好准备，从而能更轻松地以一种有意义的方式进行反驳。

就像一个好的审判律师一样，你需要提前思考，提前设想你的听众他们可能提出的问题。适当地/有针对性地准备这些将有助于你的工作(提高可信度)。因为没有人会喜欢听到“我不确定，我没看过那个”，你也不会想出现这种措手不及地囧态。

换位思考——把你当成你自己的听众，想象他们可能会提出什么问题，然后提前针对性的做准备，避免措手不及的情况。

原则7：澄清我们的假设(Clarify your assumptions)

你的数据不太可能是完美无缺的，因此你也不太可能进行全面而彻底的分析，你需要在你的工作中进行一些假设。当你在公开分析结果时，需要显式地声明这些。

此外，你的利益相关方在帮助你确定你的假设方面是至关重要的。你应该与他们和其他领域专家一起工作，以确保你的假设是合乎逻辑的和无偏倚的。

原则8：检查我们的工作结果(Check your work)

这一条原则看上去有点多余，但人们有时候真的不会去检查他们自己的工作(的效果)。这种行为有它的原因，最后期限要到了、快速周转的要求和突发的需求等等；然而，我可以向你保证，你的听众更想要的是正确的结果，而不是快速的(错误)结论。

我发现在整个分析过程中，定期检查数据的基本统计数据(总和sum, 次数count等)是非常有用的，这样可以确保在分析过程中不会遗漏任何东西——本质上是创建一个行为轨迹，以便在以后出现问题时可以反向追查。

原则9：沟通(Communicate)

最后，整个分析过程应该是与利益相关方的不断对话——不要沉浸在自己的分析工作中。你的听众可能并不关心小数点后面的精度达到了多少，也许他们只是想了解大的趋势是什么。

最后，请记住，数据分析通常是为了解决问题，而这个问题有利益相关方。所以你应该与他们通过不断的沟通来确认最重要的问题是什么，这个过程不一定是有趣的。因为有趣并不总是意味着“有价值”。

参考链接：

Principles of good data analysis
http://www.gregreda.com/2014/03/23/principles-of-good-data-analysis/

商业分析能力是怎样炼成的？
https://www.zhihu.com/question/20603837/answer/664070113

如何快速成为数据分析师？
https://www.zhihu.com/question/29265587/answer/125091104
https://www.zhihu.com/question/29265587/answer/116251247

怎么评价产品经理拿数据说话这回事？如何做数据分析？
http://www.zhihu.com/question/19615108

有哪些你看了以后大呼过瘾的数据分析书？
https://www.zhihu.com/question/60241622

从零开始学数据分析，什么程度可以找工作？
https://www.zhihu.com/question/47760443/answer/107572862

数据分析师的具体工作职责和工作内容有哪些？
https://www.zhihu.com/question/20129061/answer/223876396

=END=

26 2 月, 2020

Docker

Database, KnowledgeBase, Programing

data analyse, 原则, 数据分析, 方法