[translate]数据分析的一些基本原则

=Start=

缘由:

翻译整理一下之前看到的一篇关于『良好数据分析应具备的原则』的文章,以此帮助和提醒自己在数据分析方向做的更好。

正文:

参考解答:

明确目标,结果/产出导向。

数据分析是为了解决实际问题的,不要为了分析而分析,而要为了解决问题,实现目标而分析。

磨刀不误砍柴工——先明确目标和方法,再确认数据及其有效性,然后在分析的过程中不断检查和校验(避免走偏)。

在数据分析过程中要不断和利益相关方进行沟通,不断明确和强化目标,避免做无用功。

多维度分析,避免辛普森悖论!

在做交流和阐释前,先换位思考,站在听众的角度,提前想想他们可能会提出什么问题,遇到什么困惑,我当前的材料和说明能否回答他们的问题和困惑,如果不能,我还需要做哪些调整和改变。


(Data analysis is hard.)数据分析是困难的。

困难的是它的直觉方面——基于你目前拥有的有限信息,知道你想要的方向。此外,(深入、大规模、一致)的进行成果交流并阐释为什么你的分析是正确的,这使得这一切都变得更加困难。

作为这些深入分析的一部分,我已经注意到一些“原则”,我发现这些原则是非常有用的。

原则1:明确目标和方法(Know your approach)

在你开始进行数据分析前,你需要清楚的知道——你希望通过数据分析回答什么问题,达成什么目标。此外,我们还应该对我们要分析的数据有些基本了解,比如有什么数据可用?数据结构是什么样的?存储在哪里(数据库、csv文件、第三方API)?我们有什么分析工具等等。

磨刀不误砍柴工,先弄清楚这些问题往往能让后面的分析工作更加高效(少走弯路)。

原则2:了解数据是如何生成的(Know how the data was generated)

一旦确定了分析方法和数据源,你还需要了解数据是如何生成的,特别是在使用自己公司的数据时。

这里假设你是Amazon的一名数据分析师,正在做一些订单分析的工作。假设在公司内部的数据库里有张叫做”orders”的订单表,你可能需要考虑的是,这张订单表会存储未完成的订单吗?在网站上进行什么操作才会在这张订单表中产生一条记录?如果用户创建了一个订单但是没有完成付款,这张表里会有数据吗?这张表里每个字段具体是什么含义?

为了对你自己的分析有信心,你需要知道这些细节——因为你的听众可能会问这些问题。

原则3:检查数据的有效性(Profile your data)

当你确信你正在使用的是正确的数据时,接下来你就需要去熟悉它。这不仅能让你对你所看到的数据有一个基本的了解,还能让你在以后的分析中获得某种程度的安慰,即事情仍然是“正确的”。

例如,我曾经帮助一个朋友分析一个相当大的时间序列数据集(差不多有10GB大小)。分析的结果与我的直觉并不一致——我感觉有些不对劲。在进一步深入分析时,我决定按日期来绘制事件,才注意到我们有两天完全没有任何数据——而理论上不应该出现这种情况。

尽早(且不断的)检查数据的有效性,会有助于你的整个分析工作——它使你能更早地注意到什么是“有问题”的(避免发现太晚导致做了太多的无用功)。

原则4:从不同角度对数据进行分析(Facet all the things)

我越来越相信辛普森悖论是任何使用数据的人都应该理解的最重要的事情之一。在辛普森悖论的案例中,当把不同组的数据组合在一起进行总体观察时,出现在不同组数据中的趋势就消失了。它说明了多维度查看数据的重要性。

作者在文章中举了一个1973年秋季加州大学伯克利分校研究生课程的男女录取率的栗子,这里不细讲(大概内容就是:从总数上看男性的录取率要高于女性,但当把性别和院系的数据拆分来看就会发现很多院系的研究生录取率实际上都是女性高于男性,这里就出现了聚合数据和各维度数据的结论不一致、甚至是相违背的情况),有兴趣的可以去看原文。

在查看数据时,请记住辛普森悖论。理解聚合统计信息是如何产生误导的,以及为什么需要从多个方面查看数据,这是非常重要的。

原则5:保持怀疑(Be skeptical)

除了检查和分析数据之外,你还需要对整个分析过程保持怀疑。如果某件事看起来或感觉上不太对,那它可能就是有问题(墨菲定律)。仔细检查你的数据,确保没有任何意外发生;如果有什么意外,确保你理解它为什么会发生,并在继续分析之前确保你能解释清楚原因(数据/结论的可解释性非常重要!)。

我认为在大多数情况下,没有数据比不正确的数据更好。一定要确保分析的基础是正确的。

原则6:像律师一样思考(Think like a trial lawyer)

一个好的审判律师除了会做好他们自己的准备之外,同时也会考虑对方可能会如何回应。当对方提出问题时,我们的律师将为新的证据或证词做好准备,从而能更轻松地以一种有意义的方式进行反驳。

就像一个好的审判律师一样,你需要提前思考,提前设想你的听众他们可能提出的问题。适当地/有针对性地准备这些将有助于你的工作(提高可信度)。因为没有人会喜欢听到“我不确定,我没看过那个”,你也不会想出现这种措手不及地囧态。

换位思考——把你当成你自己的听众,想象他们可能会提出什么问题,然后提前针对性的做准备,避免措手不及的情况。

原则7:澄清我们的假设(Clarify your assumptions)

你的数据不太可能是完美无缺的,因此你也不太可能进行全面而彻底的分析,你需要在你的工作中进行一些假设。当你在公开分析结果时,需要显式地声明这些。

此外,你的利益相关方在帮助你确定你的假设方面是至关重要的。你应该与他们和其他领域专家一起工作,以确保你的假设是合乎逻辑的和无偏倚的。

原则8:检查我们的工作结果(Check your work)

这一条原则看上去有点多余,但人们有时候真的不会去检查他们自己的工作(的效果)。这种行为有它的原因,最后期限要到了、快速周转的要求和突发的需求等等;然而,我可以向你保证,你的听众更想要的是正确的结果,而不是快速的(错误)结论。

我发现在整个分析过程中,定期检查数据的基本统计数据(总和sum, 次数count等)是非常有用的,这样可以确保在分析过程中不会遗漏任何东西——本质上是创建一个行为轨迹,以便在以后出现问题时可以反向追查。

原则9:沟通(Communicate)

最后,整个分析过程应该是与利益相关方的不断对话——不要沉浸在自己的分析工作中。你的听众可能并不关心小数点后面的精度达到了多少,也许他们只是想了解大的趋势是什么。

最后,请记住,数据分析通常是为了解决问题,而这个问题有利益相关方。所以你应该与他们通过不断的沟通来确认最重要的问题是什么,这个过程不一定是有趣的。因为有趣并不总是意味着“有价值”。

参考链接:

Principles of good data analysis
http://www.gregreda.com/2014/03/23/principles-of-good-data-analysis/

商业分析能力是怎样炼成的?
https://www.zhihu.com/question/20603837/answer/664070113

如何快速成为数据分析师?
https://www.zhihu.com/question/29265587/answer/125091104
https://www.zhihu.com/question/29265587/answer/116251247

怎么评价产品经理拿数据说话这回事?如何做数据分析?
http://www.zhihu.com/question/19615108

有哪些你看了以后大呼过瘾的数据分析书?
https://www.zhihu.com/question/60241622

从零开始学数据分析,什么程度可以找工作?
https://www.zhihu.com/question/47760443/answer/107572862

数据分析师的具体工作职责和工作内容有哪些?
https://www.zhihu.com/question/20129061/answer/223876396

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4777.html

7 thoughts on “[translate]数据分析的一些基本原则”

  1. 数据分析师的具体工作职责和工作内容有哪些?
    https://www.zhihu.com/question/20129061
    `
    【1】找到如何通过数据衡量产品(measure)
    【2】找到如何可以驱动产品的指标
    【3】跟产品经理、工程师等合作寻找改进产品的机会
    【4】帮助产品做决策
    【5】产品数据追踪
    【6】寻找新的领域
    【7】给团队设定目标
    【8】长期投入
    【9】带新人和面试的能力
    【10】提供数据支持

    教大家一个技巧,对一个职业不太了解的情况下,最最最最直接的方法看招聘JD!并且是大型企业的JD,这样会比较标准。

    要想做好数据分析,有以下4个关键点:
    (1) 业务调研:理解业务是基础,否则分析是无本之木。
    (2) 创新思考:广阔的知识面和积极的思考力,是分析思路的源泉。
    (3) 逻辑推理:对数据指标做出正确的归因和判断。
    (4) 可行建议:产生对业务切实有效的改进建议和执行方案。
    从业务中来,到业务中去。

    「1」产生数据
    「2」提供数据
    「3」解释数据
    「4」探索数据
    「5」影响数据
    `

  2. 原创 | 一文回顾近二十年数据科学领域的里程碑事件或突破性技术
    https://mp.weixin.qq.com/s/KC7OBiW6AC5JJTs9iHsv9w
    `
    2001年
    · 数据挖掘

    2004-2006
    · Hadoop项目
    · 深度学习

    2012年
    · 神经网络学会识别猫咪
    · 数据可视化

    2014年
    · 对抗神经网络

    2016年
    · 语音接口
    · 强化学习

    2017年
    · 云计算
    · 自然语言处理

    2019年
    · 数据科学的自动化
    · 数据中台

    回顾这二十年的变化,我们不得不承认数据科学是一个发展非常快的领域,没有人知道数据和技术的融合竟然能够设计这样一个精彩的世界。展望未来,随着云计算、人工智能等技术的发展,还有底层芯片和内存端的变化,以及视频等应用的普及,数据科学领域将继续沿着异构计算,批流融合,云化,兼容AI,内存计算等方向持续更迭。而5G和物联网应用的成熟,又将带来海量视频和物联网数据,支持这些数据的处理也会是数据科学未来发展的方向之一。此外,于2018年5月生效的GDPR(《通用数据保护条例》)让越来越多的用户开始注重个人数据安全问题。随着数据科学的发展,我们将继续看到围绕数据的隐私和安全协议的转变,包括流程、法律以及建立和维护数据安全性和完整性的不同方法。如果网络安全成为2020年的流行语,也不足为奇。
    `

  3. 浅析dashboard的10个实现原则
    https://mp.weixin.qq.com/s/WyV0OW6ihbGAMkwZPGZb-A
    `
    1. 反复试验,持续反馈
    2. 以终为始,摒弃过度
    3. 面向用户,个性设计
    4. 不同行业,借鉴参考
    5. 重点突出,勿大而全
    6. 便捷访问,兼容移动
    7. 针对数字,大号字体
    8. 一种图表,摒弃反复
    9. 减少元素,空间筛选
    10. 引导简明,易于交互

    构建仪表盘是门手艺,需要运用科学、艺术、交流、叙事等方面的技能。虽然人人都可以制作,但要获得真正有效的仪表盘,仍需要开发者投入时间,开展协作并反复改进。对于仪表盘而言, 同样是没有最好,只有更好。
    `

  4. 数据分析的出路在哪里
    https://mp.weixin.qq.com/s/lDzEUWZMfsgSW679rav-PA
    `
    我们先看一下数据分析的几个阶段:

    第一阶段:没有数据,更没有分析
    不管是产品也好,还是策略也好,凭的是从上到下的决定,靠的是经验和感觉。
    最后效果如何,没有一个数据上的衡量标准,或者只有简单粗暴的几个数据:有多少人用(购买),收入多少,成本多少,最后赚了多少。

    第二阶段:有数据,看起来好像有分析
    这个阶段,数据多起来了,比如除了有多少人用,还有更多多维度的数据,比如年龄、性别、地区等等,也有了更多层次的数据,比如各种留存、拉新等方面。
    分析方面则是有各种报表,看得眼花缭乱,很全面。
    问题在于,这种情形下我们知道发生了什么,可能知道得还挺详细,但是并不知道为什么会发生这些,以及接下来可能发生什么。
    于是进入

    第三阶段:有数据,有分析,有原因
    这个阶段开始引入 hypothesis 的概念,我们不但要知道发生了什么(reporting),还要知道为什么会发生 (hypothesis driven).
    知道了为什么会发生,可以告诉我们以后做类似的事情,可能会发生什么。
    可能是通过 correlation analysis,找到一些互相有关系的线索。
    可能是通过 A/B test,找到因果性。
    诸如此类。

    第四阶段:知道发生了什么、知道为什么发生、知道接下来应该做什么
    跟上一阶段的区别在于,我们不但知道发生了什么 (reporting),知道为什么发生 (hypothesis-driven),还知道接下来应该做什么 (product/strategy leadership).
    这个阶段有很多难点:本身搞清楚应该做什么就很难,还需要把这些东西 sell 出去,就更是难上加难了,而这恰恰是数据分析的出路(之一)。
    不管数据分析做出了什么结果,如果没有把结论应用到实际 product change 里面去的话,都是垃圾。
    知道发生了什么,比如 reporting,风险低回报低,因为不太能改变产品走向。
    有些类型的数据分析,知道为什么发生,比如 A/B test,算是能改变产品走向,至少能决定 launch / no launch.

    对于大多数数据分析来说,阶段二是基础,阶段三是应该做到的,阶段四是好像能做到一些,但是还有很大提高余地的。
    而数据分析的出路和影响力,就来源于四。
    这也是为什么很多数据分析的职位看起来要求很低:第四阶段做得如何,实在是太难量化了。
    `

  5. 做数据分析,「大」很重要吗?
    https://mp.weixin.qq.com/s/6rTACQwN5k1oiXtEAhrGCQ
    `
    数据大小不重要,重要的是数据能提供什么 insight,能解决什么问题。

    数据分析的目的之一是的数据中找出看似有效的结论,而这结论如果简单明了就更好了。

    做数据分析,只会 SQL 可以吗?
    这个没有固定答案,完全看公司。
    如果非要给一个答案的话,我的理解是:可以,但是可能会有限制。
    这个限制包括:有的公司行,有的公司不行。
    还包括:可能会限制工作效率,比如重要利用 code 多做几个 project.
    如果单看面试的话,有的公司只需要会处理数据做分析就可以,至于具体是 SQL,还是 R/Python,甚至是 SAS 都无所谓。

    不过实际情况下,如果数据量差异过大,有些在小数据量级上适用的分析方法在大数据量级上可能就无法使用了。对于这一点来说,还是有区别的。如果懂一些底层的原理,对于你在开发更好更快的代码中也会有一定帮助。
    `

  6. 数据分析 | 基于智能标签,精准管理数据
    https://mp.weixin.qq.com/s/Tg_AirB-ewWym6MOhRkwjw
    `
    # 用户画像

    用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,把该用户相关联的数据的可视化的展现,就形成了用户画像。用户画像在各领域得到了广泛的应用,最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。

    # 标签数据

    标签在生活中非常常见,比如商品标签,个人标签,行业标签,例如提到996就想到程序员,提到程序员就想到格子衫。

    # 标签价值

    * 精细运营的基础,有效提高流量精准和效率。
    * 帮助产品快速定位需求人群,进行精准营销;
    * 能帮助客户更快切入到市场周期中;
    * 深入的预测分析客户并作出及时反应;
    * 基于标签的开发智能推荐系统;
    * 基于某类用户的分析,洞察行业特征;

    标签的核心价值,或者说最常用的场景:实时智能推荐,精准化数字营销。

    1、标签划分
    属性标签
    行为标签
    规则标签
    拟合标签
    `

发表评论

电子邮件地址不会被公开。 必填项已用*标注