[translate]数据分析的一些基本原则


=Start=

缘由:

翻译整理一下之前看到的一篇关于『良好数据分析应具备的原则』的文章,以此帮助和提醒自己在数据分析方向做的更好。

正文:

参考解答:

明确目标,结果/产出导向。

数据分析是为了解决实际问题的,不要为了分析而分析,而要为了解决问题,实现目标而分析。

磨刀不误砍柴工——先明确目标和方法,再确认数据及其有效性,然后在分析的过程中不断检查和校验(避免走偏)。

在数据分析过程中要不断和利益相关方进行沟通,不断明确和强化目标,避免做无用功。

多维度分析,避免辛普森悖论!

在做交流和阐释前,先换位思考,站在听众的角度,提前想想他们可能会提出什么问题,遇到什么困惑,我当前的材料和说明能否回答他们的问题和困惑,如果不能,我还需要做哪些调整和改变。


(Data analysis is hard.)数据分析是困难的。

困难的是它的直觉方面——基于你目前拥有的有限信息,知道你想要的方向。此外,(深入、大规模、一致)的进行成果交流并阐释为什么你的分析是正确的,这使得这一切都变得更加困难。

作为这些深入分析的一部分,我已经注意到一些“原则”,我发现这些原则是非常有用的。

原则1:明确目标和方法(Know your approach)

在你开始进行数据分析前,你需要清楚的知道——你希望通过数据分析回答什么问题,达成什么目标。此外,我们还应该对我们要分析的数据有些基本了解,比如有什么数据可用?数据结构是什么样的?存储在哪里(数据库、csv文件、第三方API)?我们有什么分析工具等等。

磨刀不误砍柴工,先弄清楚这些问题往往能让后面的分析工作更加高效(少走弯路)。

原则2:了解数据是如何生成的(Know how the data was generated)

一旦确定了分析方法和数据源,你还需要了解数据是如何生成的,特别是在使用自己公司的数据时。

这里假设你是Amazon的一名数据分析师,正在做一些订单分析的工作。假设在公司内部的数据库里有张叫做”orders”的订单表,你可能需要考虑的是,这张订单表会存储未完成的订单吗?在网站上进行什么操作才会在这张订单表中产生一条记录?如果用户创建了一个订单但是没有完成付款,这张表里会有数据吗?这张表里每个字段具体是什么含义?

为了对你自己的分析有信心,你需要知道这些细节——因为你的听众可能会问这些问题。

原则3:检查数据的有效性(Profile your data)

当你确信你正在使用的是正确的数据时,接下来你就需要去熟悉它。这不仅能让你对你所看到的数据有一个基本的了解,还能让你在以后的分析中获得某种程度的安慰,即事情仍然是“正确的”。

例如,我曾经帮助一个朋友分析一个相当大的时间序列数据集(差不多有10GB大小)。分析的结果与我的直觉并不一致——我感觉有些不对劲。在进一步深入分析时,我决定按日期来绘制事件,才注意到我们有两天完全没有任何数据——而理论上不应该出现这种情况。

尽早(且不断的)检查数据的有效性,会有助于你的整个分析工作——它使你能更早地注意到什么是“有问题”的(避免发现太晚导致做了太多的无用功)。

原则4:从不同角度对数据进行分析(Facet all the things)

我越来越相信辛普森悖论是任何使用数据的人都应该理解的最重要的事情之一。在辛普森悖论的案例中,当把不同组的数据组合在一起进行总体观察时,出现在不同组数据中的趋势就消失了。它说明了多维度查看数据的重要性。

作者在文章中举了一个1973年秋季加州大学伯克利分校研究生课程的男女录取率的栗子,这里不细讲(大概内容就是:从总数上看男性的录取率要高于女性,但当把性别和院系的数据拆分来看就会发现很多院系的研究生录取率实际上都是女性高于男性,这里就出现了聚合数据和各维度数据的结论不一致、甚至是相违背的情况),有兴趣的可以去看原文。

在查看数据时,请记住辛普森悖论。理解聚合统计信息是如何产生误导的,以及为什么需要从多个方面查看数据,这是非常重要的。

原则5:保持怀疑(Be skeptical)

除了检查和分析数据之外,你还需要对整个分析过程保持怀疑。如果某件事看起来或感觉上不太对,那它可能就是有问题(墨菲定律)。仔细检查你的数据,确保没有任何意外发生;如果有什么意外,确保你理解它为什么会发生,并在继续分析之前确保你能解释清楚原因(数据/结论的可解释性非常重要!)。

我认为在大多数情况下,没有数据比不正确的数据更好。一定要确保分析的基础是正确的。

原则6:像律师一样思考(Think like a trial lawyer)

一个好的审判律师除了会做好他们自己的准备之外,同时也会考虑对方可能会如何回应。当对方提出问题时,我们的律师将为新的证据或证词做好准备,从而能更轻松地以一种有意义的方式进行反驳。

就像一个好的审判律师一样,你需要提前思考,提前设想你的听众他们可能提出的问题。适当地/有针对性地准备这些将有助于你的工作(提高可信度)。因为没有人会喜欢听到“我不确定,我没看过那个”,你也不会想出现这种措手不及地囧态。

换位思考——把你当成你自己的听众,想象他们可能会提出什么问题,然后提前针对性的做准备,避免措手不及的情况。

原则7:澄清我们的假设(Clarify your assumptions)

你的数据不太可能是完美无缺的,因此你也不太可能进行全面而彻底的分析,你需要在你的工作中进行一些假设。当你在公开分析结果时,需要显式地声明这些。

此外,你的利益相关方在帮助你确定你的假设方面是至关重要的。你应该与他们和其他领域专家一起工作,以确保你的假设是合乎逻辑的和无偏倚的。

原则8:检查我们的工作结果(Check your work)

这一条原则看上去有点多余,但人们有时候真的不会去检查他们自己的工作(的效果)。这种行为有它的原因,最后期限要到了、快速周转的要求和突发的需求等等;然而,我可以向你保证,你的听众更想要的是正确的结果,而不是快速的(错误)结论。

我发现在整个分析过程中,定期检查数据的基本统计数据(总和sum, 次数count等)是非常有用的,这样可以确保在分析过程中不会遗漏任何东西——本质上是创建一个行为轨迹,以便在以后出现问题时可以反向追查。

原则9:沟通(Communicate)

最后,整个分析过程应该是与利益相关方的不断对话——不要沉浸在自己的分析工作中。你的听众可能并不关心小数点后面的精度达到了多少,也许他们只是想了解大的趋势是什么。

最后,请记住,数据分析通常是为了解决问题,而这个问题有利益相关方。所以你应该与他们通过不断的沟通来确认最重要的问题是什么,这个过程不一定是有趣的。因为有趣并不总是意味着“有价值”。

参考链接:

Principles of good data analysis
http://www.gregreda.com/2014/03/23/principles-of-good-data-analysis/

商业分析能力是怎样炼成的?
https://www.zhihu.com/question/20603837/answer/664070113

如何快速成为数据分析师?
https://www.zhihu.com/question/29265587/answer/125091104
https://www.zhihu.com/question/29265587/answer/116251247

怎么评价产品经理拿数据说话这回事?如何做数据分析?
http://www.zhihu.com/question/19615108

有哪些你看了以后大呼过瘾的数据分析书?
https://www.zhihu.com/question/60241622

从零开始学数据分析,什么程度可以找工作?
https://www.zhihu.com/question/47760443/answer/107572862

数据分析师的具体工作职责和工作内容有哪些?
https://www.zhihu.com/question/20129061/answer/223876396

=END=


《 “[translate]数据分析的一些基本原则” 》 有 16 条评论

  1. 数据分析师的具体工作职责和工作内容有哪些?
    https://www.zhihu.com/question/20129061
    `
    【1】找到如何通过数据衡量产品(measure)
    【2】找到如何可以驱动产品的指标
    【3】跟产品经理、工程师等合作寻找改进产品的机会
    【4】帮助产品做决策
    【5】产品数据追踪
    【6】寻找新的领域
    【7】给团队设定目标
    【8】长期投入
    【9】带新人和面试的能力
    【10】提供数据支持

    教大家一个技巧,对一个职业不太了解的情况下,最最最最直接的方法看招聘JD!并且是大型企业的JD,这样会比较标准。

    要想做好数据分析,有以下4个关键点:
    (1) 业务调研:理解业务是基础,否则分析是无本之木。
    (2) 创新思考:广阔的知识面和积极的思考力,是分析思路的源泉。
    (3) 逻辑推理:对数据指标做出正确的归因和判断。
    (4) 可行建议:产生对业务切实有效的改进建议和执行方案。
    从业务中来,到业务中去。

    「1」产生数据
    「2」提供数据
    「3」解释数据
    「4」探索数据
    「5」影响数据
    `

  2. 原创 | 一文回顾近二十年数据科学领域的里程碑事件或突破性技术
    https://mp.weixin.qq.com/s/KC7OBiW6AC5JJTs9iHsv9w
    `
    2001年
    · 数据挖掘

    2004-2006
    · Hadoop项目
    · 深度学习

    2012年
    · 神经网络学会识别猫咪
    · 数据可视化

    2014年
    · 对抗神经网络

    2016年
    · 语音接口
    · 强化学习

    2017年
    · 云计算
    · 自然语言处理

    2019年
    · 数据科学的自动化
    · 数据中台

    回顾这二十年的变化,我们不得不承认数据科学是一个发展非常快的领域,没有人知道数据和技术的融合竟然能够设计这样一个精彩的世界。展望未来,随着云计算、人工智能等技术的发展,还有底层芯片和内存端的变化,以及视频等应用的普及,数据科学领域将继续沿着异构计算,批流融合,云化,兼容AI,内存计算等方向持续更迭。而5G和物联网应用的成熟,又将带来海量视频和物联网数据,支持这些数据的处理也会是数据科学未来发展的方向之一。此外,于2018年5月生效的GDPR(《通用数据保护条例》)让越来越多的用户开始注重个人数据安全问题。随着数据科学的发展,我们将继续看到围绕数据的隐私和安全协议的转变,包括流程、法律以及建立和维护数据安全性和完整性的不同方法。如果网络安全成为2020年的流行语,也不足为奇。
    `

  3. 浅析dashboard的10个实现原则
    https://mp.weixin.qq.com/s/WyV0OW6ihbGAMkwZPGZb-A
    `
    1. 反复试验,持续反馈
    2. 以终为始,摒弃过度
    3. 面向用户,个性设计
    4. 不同行业,借鉴参考
    5. 重点突出,勿大而全
    6. 便捷访问,兼容移动
    7. 针对数字,大号字体
    8. 一种图表,摒弃反复
    9. 减少元素,空间筛选
    10. 引导简明,易于交互

    构建仪表盘是门手艺,需要运用科学、艺术、交流、叙事等方面的技能。虽然人人都可以制作,但要获得真正有效的仪表盘,仍需要开发者投入时间,开展协作并反复改进。对于仪表盘而言, 同样是没有最好,只有更好。
    `

  4. 数据分析的出路在哪里
    https://mp.weixin.qq.com/s/lDzEUWZMfsgSW679rav-PA
    `
    我们先看一下数据分析的几个阶段:

    第一阶段:没有数据,更没有分析
    不管是产品也好,还是策略也好,凭的是从上到下的决定,靠的是经验和感觉。
    最后效果如何,没有一个数据上的衡量标准,或者只有简单粗暴的几个数据:有多少人用(购买),收入多少,成本多少,最后赚了多少。

    第二阶段:有数据,看起来好像有分析
    这个阶段,数据多起来了,比如除了有多少人用,还有更多多维度的数据,比如年龄、性别、地区等等,也有了更多层次的数据,比如各种留存、拉新等方面。
    分析方面则是有各种报表,看得眼花缭乱,很全面。
    问题在于,这种情形下我们知道发生了什么,可能知道得还挺详细,但是并不知道为什么会发生这些,以及接下来可能发生什么。
    于是进入

    第三阶段:有数据,有分析,有原因
    这个阶段开始引入 hypothesis 的概念,我们不但要知道发生了什么(reporting),还要知道为什么会发生 (hypothesis driven).
    知道了为什么会发生,可以告诉我们以后做类似的事情,可能会发生什么。
    可能是通过 correlation analysis,找到一些互相有关系的线索。
    可能是通过 A/B test,找到因果性。
    诸如此类。

    第四阶段:知道发生了什么、知道为什么发生、知道接下来应该做什么
    跟上一阶段的区别在于,我们不但知道发生了什么 (reporting),知道为什么发生 (hypothesis-driven),还知道接下来应该做什么 (product/strategy leadership).
    这个阶段有很多难点:本身搞清楚应该做什么就很难,还需要把这些东西 sell 出去,就更是难上加难了,而这恰恰是数据分析的出路(之一)。
    不管数据分析做出了什么结果,如果没有把结论应用到实际 product change 里面去的话,都是垃圾。
    知道发生了什么,比如 reporting,风险低回报低,因为不太能改变产品走向。
    有些类型的数据分析,知道为什么发生,比如 A/B test,算是能改变产品走向,至少能决定 launch / no launch.

    对于大多数数据分析来说,阶段二是基础,阶段三是应该做到的,阶段四是好像能做到一些,但是还有很大提高余地的。
    而数据分析的出路和影响力,就来源于四。
    这也是为什么很多数据分析的职位看起来要求很低:第四阶段做得如何,实在是太难量化了。
    `

  5. 做数据分析,「大」很重要吗?
    https://mp.weixin.qq.com/s/6rTACQwN5k1oiXtEAhrGCQ
    `
    数据大小不重要,重要的是数据能提供什么 insight,能解决什么问题。

    数据分析的目的之一是的数据中找出看似有效的结论,而这结论如果简单明了就更好了。

    做数据分析,只会 SQL 可以吗?
    这个没有固定答案,完全看公司。
    如果非要给一个答案的话,我的理解是:可以,但是可能会有限制。
    这个限制包括:有的公司行,有的公司不行。
    还包括:可能会限制工作效率,比如重要利用 code 多做几个 project.
    如果单看面试的话,有的公司只需要会处理数据做分析就可以,至于具体是 SQL,还是 R/Python,甚至是 SAS 都无所谓。

    不过实际情况下,如果数据量差异过大,有些在小数据量级上适用的分析方法在大数据量级上可能就无法使用了。对于这一点来说,还是有区别的。如果懂一些底层的原理,对于你在开发更好更快的代码中也会有一定帮助。
    `

  6. 数据分析 | 基于智能标签,精准管理数据
    https://mp.weixin.qq.com/s/Tg_AirB-ewWym6MOhRkwjw
    `
    # 用户画像

    用户画像,作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,把该用户相关联的数据的可视化的展现,就形成了用户画像。用户画像在各领域得到了广泛的应用,最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。

    # 标签数据

    标签在生活中非常常见,比如商品标签,个人标签,行业标签,例如提到996就想到程序员,提到程序员就想到格子衫。

    # 标签价值

    * 精细运营的基础,有效提高流量精准和效率。
    * 帮助产品快速定位需求人群,进行精准营销;
    * 能帮助客户更快切入到市场周期中;
    * 深入的预测分析客户并作出及时反应;
    * 基于标签的开发智能推荐系统;
    * 基于某类用户的分析,洞察行业特征;

    标签的核心价值,或者说最常用的场景:实时智能推荐,精准化数字营销。

    1、标签划分
    属性标签
    行为标签
    规则标签
    拟合标签
    `

  7. 归因分析指南v1.0
    https://mp.weixin.qq.com/s/hfY5DT1jP86RlReTtknCkg
    `
    归因是一个跨领域的方法,在数据分析、深度学习、广告营销、心理学、投资都有相关的理论研究。趁周末时间,完成了归因指南的第一个版本(以后还会不断迭代的),分享给大家。

    # 什么是归因 attribution

    汉语上理解,指的是观察者对他人的行为过程或自己的行为过程所进行的因果解释和推论。归因——因果解释和推论。

    attribution
    psychology : the interpretive process by which people make judgments about the causes of their own behavior and the behavior of others

    归因最早源于心理学:人们对自己的行为起因和他人的行为进行推断的解释过程。

    归因分析是一种可以跨领域使用的方法(技术),能帮助我们看清影响结果的关键因素,从而不会轻易被表象所迷惑。从心理学到消费者行为,再到人力资源管理、绩效评估和团队领导力,基金股票投资决策,甚至延伸到互联网广告的效果优化(计算广告)。
    `

  8. Cross-industry standard process for data mining, known as CRISP-DM
    https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining

    What is the CRISP-DM methodology?
    https://www.sv-europe.com/crisp-dm-methodology/
    `
    CRISP-DM (cross-industry standard process for data mining)
    “跨行业数据挖掘标准流程”

    商业理解(Business understanding)
    数据理解(Data understanding)
    数据准备(Data preparation)
    建模(Modeling)
    评估(Evaluation)
    部署(Deployment)
    `
    CRISP-DM methodology leader in data mining and big data
    https://towardsdatascience.com/crisp-dm-methodology-leader-in-data-mining-and-big-data-467efd3d3781?gi=13da1f6ecd3f

    Why using CRISP-DM will make you a better Data Scientist
    https://towardsdatascience.com/why-using-crisp-dm-will-make-you-a-better-data-scientist-66efe5b72686

  9. 「可解释性机器学习系列」2. 可解释性原理介绍(一)
    https://mp.weixin.qq.com/s/Zv3X5OSI48DvIpZg9b2wBA
    `
    可解释性没有严格的数学定义。我更倾向于2017年Miller提出的一个非数学的定义:可解释性是人们可以理解决策原因的程度。另一个定义是:可解释性是人类可以一致地预测模型结果的程度。机器学习模型的可解释性越高,则人们越容易理解做出某些决定或预测的原因。如果一个模型的决策比另一个模型的决策更容易理解,那么第一个模型比另一个模型的可解释性更好。我将交替使用可解释性(interpretable)和可说明(explainable)这两个术语。与2017年Miller提出的理论一样,我认为区分术语可解释性、可说明和解释(explanation)是有意义的。我将使用“解释”来解释单个预测。请参阅有关“可解释性”的章节,了解什么是我们认为的好的解释。

    人类的好奇心和学习能力:人类具有一种心理环境模型,当发生意外情况时,会对模型进行更新。它是通过查找意外事件的可解释性,来执行此更新。例如,一个人突然感到不适,并问道:“为什么我会感到不舒服呢?”。他得知每次吃完这些红色浆果,都会生病。他会更新自己的思维模式,并确定是浆果导致了疾病,因此日后他应该避免食用。在研究中,使用不透明的机器学习模型时,如果模型仅给出预测结果而没有任何解释,那么科学发现任然是完全隐藏起来的。为了促进学习,并满足人们对机器如何进行预测的好奇心,可解释性变得至关重要。当然,人类无须对发生的一切进行解释。对于大多数人来说, 他们不了解机器的工作原理是没问题的,但我们对于突发事件会感到好奇,举例而言:为什么我的计算机会意外关机?

    机器学习模型只能在具备可以解释性时,才可以进行调试和检查。即使在类似于电影推荐之类的低风险场景中,可解释性在研发阶段以及完成部署后都很有价值。部署后, 当机器学习模型用于产品的过程中,可能会出错。对错误预测的解释,有助于理解错误发生的原因。它为如何修复系统提供了指导。例如在哈士奇和狼分类器的示例中,该分类器将一些哈士奇犬误分类为狼。使用可解释性机器学习方法, 你会发现分类错误是由于图像上的积雪引起的。分类器学会了使用雪作为将图像分类为“狼”的特征,这在训练数据集中将狼与哈士奇分开可能是有道理的,但在现实世界中却可能会出错。

    如果你可以确保机器学习模型可以解释决策, 那么还可以轻易地对如下特性进行检查(2017年Doshi-Velez和Kim提出):

    • 公平:确保预测结果没有偏见,并且不会隐式或显式对受保护的群体区别对待。一种可解释性的模型可以告诉你,为什么它决定某个人不应该获得贷款。并且使人们更容易地判断,该决定是否基于学到的人口统计学(例如种族)偏见。
    • 隐私:确保数据中的敏感信息受到保护。
    • 可靠性或鲁棒性:确保输入中的微小变化不会导致预测的较大变化。
    • 因果关系:检查是否只选择了因果关系。
    • 信任:与黑盒模型相比,人们更容易信任能够解释其决策的系统。
    `
    Interpretable Machine Learning – A Guide for Making Black Box Models Explainable.
    https://christophm.github.io/interpretable-ml-book/

  10. 数据分析十年,我只推荐这些书
    https://mp.weixin.qq.com/s/mXP_wQFhCOu_gDJd5UxTPw
    `
    分享一些提升工作效率跟我自己给自己打鸡血的书吧,人生总是不易的,为了自己能拥有更有选择的权利,继续努力吧:)
    提升工作效率:《深度学习》、《麦肯锡方法》
    有段时间,工作并行的东西太多,有点心力交瘁的感觉。我在想,是不是时间管理出了问题,还是我效率下降了。这本书给我启发是,我们需要的是更加专注地进行思考,而不是被一些不重要的事情持续打断。
    深度工作的含义:在不受干扰的专注状态下思考,创造价值,培养技能。

    影响深度工作的四大常见因素:
    1、公司邮件、实时通讯软件、无效沟通
    2、手机
    3、最小阻力原则:老用简单的事情占满时间
    4、脑力劳动度量黑洞

    投入深度工作的四种模式:
    1、禁欲模式(不用邮件、手机、电脑等)
    2、双峰模式(隔断时间专注)
    3、节奏模式(每天固定专注时间;早上8点到9点半;找到自己能安静的时间)
    4、记者模式(爆发式专注输出;要培养自己冥想与专注的状态)

    买一个耳机或者选择一个安静的周末,创造一个能让自己深度工作的环境吧。
    `

  11. 如何进行数据挖掘?
    https://www.4hou.com/posts/gM03
    `
    数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

    在人工智能领域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:
    (1)数据准备
    (2)数据挖掘
    (3)结果表达和解释。
    数据挖掘可以与用户或知识库交互。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。

    数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等等。

    1、理解数据和数据的来源(understanding)

    2、获取相关知识与技术(acquisition)

    3、整合与检查数据(integration and checking)

    4、去除错误或不一致的数据(data cleaning)

    5、建立模型和假设(model and hypothesis development)

    6、实际数据挖掘工作(data mining)

    7、测试和验证挖掘结果(testing and verification)

    8、解释和应用(interpretation and use)

    由上述步骤可看出,数据挖掘牵涉了大量的准备工作与规划工作,事实上许多专家都认为整套数据挖掘的过程中,有80%的时间和精力是花费在数据预处理阶段,其中包括数据的净化、数据格式转换、变量整合,以及数据表的链接。可见,在进行数据挖掘技术的分析之前,还有许多准备工作要完成。
    `

  12. 这才是真正的用户画像,你那只是罗列性别年龄地域
    https://www.woshipm.com/data-analysis/5831160.html
    `
    做一大堆数据仅仅在罗列性别年龄地域?很多同学都搞不懂当中的由来。那么怎样才算是真正的用户画像,本文作者总结了五步法,为你系统解答。

    有同学问:陈老师,我领导让我做用户画像分析,可是我做了一大堆数据,却被批:也没分析什么东西啊?该咋办?今天系统解答一下。

    01 用户画像的错误姿势

    1、限于数据,动不敢动
    2、罗列数据,没有思路
    3、无限拆分,没有逻辑

    用户画像作为一个基础数据体系,本身并没有分析功能。单纯地罗列用户标签或者拆解用户指标,也起不到分析作用。像利用好用户画像,还得按分析套路一步步来。

    02 第一步:转化商业问问题
    用户画像分析,本质上是从用户的角度思考问题。

    03 第二步:宏观假设验证
    转化完问题后,先宏观上对假设进行检验非常重要,能有效避免无限拆解的错误。如果大方向都不成立,细节更不用看了。

    04 第三步:构建分析逻辑
    宏观验证以后,可以基于已验证的结论,构建更细致的分析逻辑。在这个阶段,实际上已经把原本宏大的问题,聚焦为一个个小问题。

    05 第四步:获取用户数据
    在上一步我们已经看到,用户画像分析如果真的想深入用户,就得依赖多种数据来源。很有可能是内外部数据双管齐下的。
    考虑到内部数据可能采集不全,外部数据存在抽样误差问题,在使用数据上就得有取舍,有重点。这也是为啥前边一直强调逐步验证,缩小假设的原因。聚焦了才好采集数据。

    06 第五步:归纳分析结论
    如果以上几步做好了,在最后推分析结论就是水到渠成的事,完全不费力气。

    实际上,用户画像分析最大的问题都是出在前五步的。缺少假设方向,缺少数据准备,缺少分析逻辑,单纯罗列数据,无限制拆解,到最后自然面对一堆零碎的数据纠结:“男女比例3:2又怎样呢???”

    当然用户画像有其他很多用处,比如支持新品开发,支持推荐系统,支持自动营销系统,支持投放系统等等,作分析只是它一小块作用。

    所以想做好分析,还是要多学习分析方法,操练分析逻辑哦。
    `

  13. 安全大数据运营分析核心思路
    https://mp.weixin.qq.com/s/UtBCEHQeuERCKQa1I6MNDA
    `
    1. 实体聚合
    2. 状态机过滤
    3. 高低频压制
    ==
    在现代安全运营中,安全运营团队每天都需要处理大量复杂的安全数据。随着现代IT基础设施的不断发展,数据量和数据复杂性也迅速增加,使得如何高效收集、处理和分析这些数据成为一个巨大的挑战。

    从日志管理、事件响应到威胁情报分析,各个环节都依赖于准确和及时的数据。优化安全数据是一项需要深厚技术背景的任务,涉及到多种方法和工具的整合。从高效的数据采集技术、先进的数据存储解决方案,到智能的数据处理和分析算法,每一步都要求精细化的技术实现和持续优化。

    以下,作者提供三个技术思路,希望能为安全人员带来实用的指导。

    1. 实体聚合

    在安全运营中,数据聚合是一个关键环节,通过将大量的原始数据整合成更有意义和易于分析的信息,可以帮助安全团队更快地识别威胁模式和异常行为,从而提高响应速度和准确性。常用的数据聚合方法包括基于时间戳的聚合和基于实体的聚合。

    基于时间戳的聚合通过将数据按时间段(如分钟、小时或天)进行整合,可以有效减少数据量,提升分析效率。例如,按分钟级时间戳进行聚合,将每一分钟内的所有安全事件合并为一个记录,这样不仅能显著减少数据存储需求,还能更容易发现短时间内的异常活动。

    另一方面,基于实体的聚合通过将与特定实体相关的所有事件合并,能够帮助团队**更好地理解和追踪特定实体的行为模式**。例如,通过聚合IP五元组通信的CommunityID,可以识别特定恶意流量的行为模式;通过聚合特定用户ID、FlowID、 CommunityID、ProcessGuid等安全数据唯一标识,可以识别和深入调查各种异常行为的上下文。

    2. 状态机过滤

    黑白名单过滤是安全数据处理的基石,但对于实时流类型的安全数据来说,**静态的黑白名单已经满足不了安全需求**,因此我们需要**使用状态机进行动态的黑白名单生成**,这样才可能实现管理和过滤流类型的大安全数据。

    **状态机通过定义不同的状态(如观察状态、可疑状态、黑名单状态和白名单状态)及其转换规则,根据实体(如IP地址、用户ID等)的行为动态调整其状态。例如,某IP地址在一分钟内触发多次低级别告警后,其状态会从观察状态转为可疑状态,若进一步触发高级别告警,则转为黑名单状态并阻止其访问。**

    通过这种方式,系统能够自动化、实时地生成和更新黑白名单,进行精准的数据过滤。黑名单中的实体相关数据会被直接过滤掉,**白名单中的实体则减少监控,提升系统性能,而处于观察和可疑状态的实体会受到严格监控,这种方法适用于对实时流类型的大安全数据**。

    3. 高低频压制

    大量误报是安全运营中一个常见且令人头疼的问题,为了解决这一问题,可以频率统计阈值来压制误报。

    一类是高频压制,基本步骤包括在设定的时间窗口内统计每条拦截规则触发的次数,**根据统计结果设定合理的频率阈值**,如果某条规则在时间窗口内的触发次数超过阈值,则降低优先级。例如,某防火墙规则频繁触发SQL注入告警,通过频率统计发现大部分为误报,可以将其告警级别降为低优先级,在一定时间内抑制告警,并调整规则触发条件。

    另一类是低频压制,这一类场景主要是一些异常行为和正常行为难以区别,但它们会有长尾频次的区别。比如,针对文件行为的告警,如果正常进程和异常进程都会触发某个文件行为,但正常进程会频繁触发,异常进程只是偶尔触发,这样我们可以通过一定时间内的低频次阈值从大量嘈杂的噪点中抽取出真正的异常。

    通过高低频压制,不仅能**减少无关告警对安全团队的干扰,还能提高告警的准确性和响应速度,使安全运营更加高效**。
    `

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注