[translate]数据分析的一些基本原则

=Start=

缘由:

翻译整理一下之前看到的一篇关于『良好数据分析应具备的原则』的文章,以此帮助和提醒自己在数据分析方向做的更好。

正文:

参考解答:

明确目标,结果/产出导向。

数据分析是为了解决实际问题的,不要为了分析而分析,而要为了解决问题,实现目标而分析。

磨刀不误砍柴工——先明确目标和方法,再确认数据及其有效性,然后在分析的过程中不断检查和校验(避免走偏)。

在数据分析过程中要不断和利益相关方进行沟通,不断明确和强化目标,避免做无用功。

多维度分析,避免辛普森悖论!

在做交流和阐释前,先换位思考,站在听众的角度,提前想想他们可能会提出什么问题,遇到什么困惑,我当前的材料和说明能否回答他们的问题和困惑,如果不能,我还需要做哪些调整和改变。


(Data analysis is hard.)数据分析是困难的。

困难的是它的直觉方面——基于你目前拥有的有限信息,知道你想要的方向。此外,(深入、大规模、一致)的进行成果交流并阐释为什么你的分析是正确的,这使得这一切都变得更加困难。

作为这些深入分析的一部分,我已经注意到一些“原则”,我发现这些原则是非常有用的。

原则1:明确目标和方法(Know your approach)

在你开始进行数据分析前,你需要清楚的知道——你希望通过数据分析回答什么问题,达成什么目标。此外,我们还应该对我们要分析的数据有些基本了解,比如有什么数据可用?数据结构是什么样的?存储在哪里(数据库、csv文件、第三方API)?我们有什么分析工具等等。

磨刀不误砍柴工,先弄清楚这些问题往往能让后面的分析工作更加高效(少走弯路)。

原则2:了解数据是如何生成的(Know how the data was generated)

一旦确定了分析方法和数据源,你还需要了解数据是如何生成的,特别是在使用自己公司的数据时。

这里假设你是Amazon的一名数据分析师,正在做一些订单分析的工作。假设在公司内部的数据库里有张叫做”orders”的订单表,你可能需要考虑的是,这张订单表会存储未完成的订单吗?在网站上进行什么操作才会在这张订单表中产生一条记录?如果用户创建了一个订单但是没有完成付款,这张表里会有数据吗?这张表里每个字段具体是什么含义?

为了对你自己的分析有信心,你需要知道这些细节——因为你的听众可能会问这些问题。

原则3:检查数据的有效性(Profile your data)

当你确信你正在使用的是正确的数据时,接下来你就需要去熟悉它。这不仅能让你对你所看到的数据有一个基本的了解,还能让你在以后的分析中获得某种程度的安慰,即事情仍然是“正确的”。

例如,我曾经帮助一个朋友分析一个相当大的时间序列数据集(差不多有10GB大小)。分析的结果与我的直觉并不一致——我感觉有些不对劲。在进一步深入分析时,我决定按日期来绘制事件,才注意到我们有两天完全没有任何数据——而理论上不应该出现这种情况。

尽早(且不断的)检查数据的有效性,会有助于你的整个分析工作——它使你能更早地注意到什么是“有问题”的(避免发现太晚导致做了太多的无用功)。

原则4:从不同角度对数据进行分析(Facet all the things)

我越来越相信辛普森悖论是任何使用数据的人都应该理解的最重要的事情之一。在辛普森悖论的案例中,当把不同组的数据组合在一起进行总体观察时,出现在不同组数据中的趋势就消失了。它说明了多维度查看数据的重要性。

作者在文章中举了一个1973年秋季加州大学伯克利分校研究生课程的男女录取率的栗子,这里不细讲(大概内容就是:从总数上看男性的录取率要高于女性,但当把性别和院系的数据拆分来看就会发现很多院系的研究生录取率实际上都是女性高于男性,这里就出现了聚合数据和各维度数据的结论不一致、甚至是相违背的情况),有兴趣的可以去看原文。

在查看数据时,请记住辛普森悖论。理解聚合统计信息是如何产生误导的,以及为什么需要从多个方面查看数据,这是非常重要的。

原则5:保持怀疑(Be skeptical)

除了检查和分析数据之外,你还需要对整个分析过程保持怀疑。如果某件事看起来或感觉上不太对,那它可能就是有问题(墨菲定律)。仔细检查你的数据,确保没有任何意外发生;如果有什么意外,确保你理解它为什么会发生,并在继续分析之前确保你能解释清楚原因(数据/结论的可解释性非常重要!)。

我认为在大多数情况下,没有数据比不正确的数据更好。一定要确保分析的基础是正确的。

原则6:像律师一样思考(Think like a trial lawyer)

一个好的审判律师除了会做好他们自己的准备之外,同时也会考虑对方可能会如何回应。当对方提出问题时,我们的律师将为新的证据或证词做好准备,从而能更轻松地以一种有意义的方式进行反驳。

就像一个好的审判律师一样,你需要提前思考,提前设想你的听众他们可能提出的问题。适当地/有针对性地准备这些将有助于你的工作(提高可信度)。因为没有人会喜欢听到“我不确定,我没看过那个”,你也不会想出现这种措手不及地囧态。

换位思考——把你当成你自己的听众,想象他们可能会提出什么问题,然后提前针对性的做准备,避免措手不及的情况。

原则7:澄清我们的假设(Clarify your assumptions)

你的数据不太可能是完美无缺的,因此你也不太可能进行全面而彻底的分析,你需要在你的工作中进行一些假设。当你在公开分析结果时,需要显式地声明这些。

此外,你的利益相关方在帮助你确定你的假设方面是至关重要的。你应该与他们和其他领域专家一起工作,以确保你的假设是合乎逻辑的和无偏倚的。

原则8:检查我们的工作结果(Check your work)

这一条原则看上去有点多余,但人们有时候真的不会去检查他们自己的工作(的效果)。这种行为有它的原因,最后期限要到了、快速周转的要求和突发的需求等等;然而,我可以向你保证,你的听众更想要的是正确的结果,而不是快速的(错误)结论。

我发现在整个分析过程中,定期检查数据的基本统计数据(总和sum, 次数count等)是非常有用的,这样可以确保在分析过程中不会遗漏任何东西——本质上是创建一个行为轨迹,以便在以后出现问题时可以反向追查。

原则9:沟通(Communicate)

最后,整个分析过程应该是与利益相关方的不断对话——不要沉浸在自己的分析工作中。你的听众可能并不关心小数点后面的精度达到了多少,也许他们只是想了解大的趋势是什么。

最后,请记住,数据分析通常是为了解决问题,而这个问题有利益相关方。所以你应该与他们通过不断的沟通来确认最重要的问题是什么,这个过程不一定是有趣的。因为有趣并不总是意味着“有价值”。

参考链接:

Principles of good data analysis
http://www.gregreda.com/2014/03/23/principles-of-good-data-analysis/

商业分析能力是怎样炼成的?
https://www.zhihu.com/question/20603837/answer/664070113

如何快速成为数据分析师?
https://www.zhihu.com/question/29265587/answer/125091104
https://www.zhihu.com/question/29265587/answer/116251247

怎么评价产品经理拿数据说话这回事?如何做数据分析?
http://www.zhihu.com/question/19615108

有哪些你看了以后大呼过瘾的数据分析书?
https://www.zhihu.com/question/60241622

从零开始学数据分析,什么程度可以找工作?
https://www.zhihu.com/question/47760443/answer/107572862

数据分析师的具体工作职责和工作内容有哪些?
https://www.zhihu.com/question/20129061/answer/223876396

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4777.html

《[translate]数据分析的一些基本原则》上有3条评论

  1. 数据分析师的具体工作职责和工作内容有哪些?
    https://www.zhihu.com/question/20129061

    【1】找到如何通过数据衡量产品(measure)
    【2】找到如何可以驱动产品的指标
    【3】跟产品经理、工程师等合作寻找改进产品的机会
    【4】帮助产品做决策
    【5】产品数据追踪
    【6】寻找新的领域
    【7】给团队设定目标
    【8】长期投入
    【9】带新人和面试的能力
    【10】提供数据支持

    教大家一个技巧,对一个职业不太了解的情况下,最最最最直接的方法看招聘JD!并且是大型企业的JD,这样会比较标准。

    要想做好数据分析,有以下4个关键点:
    (1) 业务调研:理解业务是基础,否则分析是无本之木。
    (2) 创新思考:广阔的知识面和积极的思考力,是分析思路的源泉。
    (3) 逻辑推理:对数据指标做出正确的归因和判断。
    (4) 可行建议:产生对业务切实有效的改进建议和执行方案。
    从业务中来,到业务中去。

    「1」产生数据
    「2」提供数据
    「3」解释数据
    「4」探索数据
    「5」影响数据

  2. 原创 | 一文回顾近二十年数据科学领域的里程碑事件或突破性技术
    https://mp.weixin.qq.com/s/KC7OBiW6AC5JJTs9iHsv9w

    2001年
    · 数据挖掘

    2004-2006
    · Hadoop项目
    · 深度学习

    2012年
    · 神经网络学会识别猫咪
    · 数据可视化

    2014年
    · 对抗神经网络

    2016年
    · 语音接口
    · 强化学习

    2017年
    · 云计算
    · 自然语言处理

    2019年
    · 数据科学的自动化
    · 数据中台

    回顾这二十年的变化,我们不得不承认数据科学是一个发展非常快的领域,没有人知道数据和技术的融合竟然能够设计这样一个精彩的世界。展望未来,随着云计算、人工智能等技术的发展,还有底层芯片和内存端的变化,以及视频等应用的普及,数据科学领域将继续沿着异构计算,批流融合,云化,兼容AI,内存计算等方向持续更迭。而5G和物联网应用的成熟,又将带来海量视频和物联网数据,支持这些数据的处理也会是数据科学未来发展的方向之一。此外,于2018年5月生效的GDPR(《通用数据保护条例》)让越来越多的用户开始注重个人数据安全问题。随着数据科学的发展,我们将继续看到围绕数据的隐私和安全协议的转变,包括流程、法律以及建立和维护数据安全性和完整性的不同方法。如果网络安全成为2020年的流行语,也不足为奇。

发表评论

电子邮件地址不会被公开。 必填项已用*标注