数据分析入门学习

本文最后更新于2018年8月18日,已超过 1 年没有更新,如果文章内容失效,还请反馈给我,谢谢!

=Start=

缘由:

前几天在微信上看到一篇文章「面向数据分析的道与术」,看的过程中突然想到几个问题——如果别人问你数据分析是什么?该怎么搞?为什么要这么搞?你的分析方法、过程、结果相比于其它人来说有什么优劣?

想着想着,感觉好多东西虽然都知道、了解一些,但又不成体系,说不出个所以然来,所以,就抽出了一些时间在网上找了些资料学习一下,简单入个门,后续如果有机会再实际深入探究。

正文:

参考解答:
# 什么是数据分析?
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实际应用中,数据分析可帮助人们作出判断,以便采取适当行动。
# 为什么要进行数据分析?
目的无外乎:
* 概括总结
* 评估预测
# 如何进行数据分析?
或者说数据分析的步骤、方法有哪些?
1. 需求分析
需求背景
分析目标
应用方向
2. 数据采集/收集
系统数据
外部数据
非结构化数据
3. 数据分析及处理
数据质量分析
数据处理方案设计
执行数据处理
数据处理校验&优化
4. 成果提交
结论
报告(精准)
图表(可视化效果)
5. 应用&反馈
效果评估
使用反馈
# 数据分析的注意事项(坑)有哪些?
1、数据不能给你答案
2、思考的严谨与数据的证伪
在数据中,很多情况都是证实要难于证伪。
在复杂的数据分析过程中,链条往往极长且异常复杂。如果在某一个环节只是对逻辑做了正向的想象而没有做反向的验证,可能最终的结果就谬之千里了。
3、数据关联与规则的独立性
4、面对大数据束手无策时,不如试试小数据
参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4049.html

《数据分析入门学习》上的33个想法

  1. 业余时间学数据分析,如何快速上手
    https://mp.weixin.qq.com/s/XmrwaMFh2wnVSqhxK-aOEA
    `
    01 数据分析师应该具备哪些技能
    其实企业对数据分析师的基础技能需求差别不大,可总结如下:
    · SQL数据库的基本操作,会基本的数据管理
    · 会用Excel/SQL做基本的数据分析和展示
    · 会用脚本语言进行数据分析,Python or R
    · 有获取外部数据的能力,如爬虫
    · 会基本的数据可视化技能,能撰写数据报告
    · 熟悉常用的数据挖掘算法:回归分析、决策树、随机森林、支持向量机等

    02 寻找最合适的学习路径
    你一定要清楚的是,你想要达到的目标是什么?如果你想利用数据分析的方法来支撑工作决策,那么你可能需要知道数据分析的流程是什么,通过数据分析的方法能获得哪些信息,这些信息可以用来支撑什么工作。
    然后你需要知道要达到这样的目的,需要哪些必备的技能,哪些是不需要学习的。其实在这个过程中你对知识的框架就有了大概的了解,并知道如何去避免无效的信息。
    更重要的是,你需要了解,完成一个数据分析项目,基本的流程是什么。这样你才知道学习的知识,在具体的工作中是如何应用,并能够在学习之后进行针对性的训练,做到有的放矢。

    03 数据分析的工作流程
    1. 定义问题
    2. 数据获取
    3. 数据预处理
    4. 数据分析与建模
    5. 数据可视化及数据报告撰写
    `

  2. 漫谈数据质量监控
    https://blog.csdn.net/zhaodedong/article/details/73385667
    `
    x00、前言
      文章结构
        数据质量监控要做哪些监控内容
        该怎么做
    x01、什么值得你监控
      一、监控
        日常监控
        数据对账
        性能监控
      二、告警
      三、多数据源
    x02、怎样监控
      一、规则引擎
        Sql模板
        元数据
        自定义模板
      二、执行引擎
        Sql执行
        直接获取数据量
        算法执行引擎
        多数据源
    xFF、总结
    `

  3. DataMan-美团旅行数据质量监管平台实践
    https://tech.meituan.com/mtdp_dataman.html
    `
    数据质量是数据治理建设的重要一环,与元数据管理、数据标准化及数据服务管理等共同构建了数据治理的体系框架。建设一个完整DataMan质量监管平台,将从监控、标准、流程制度等方面提升信息管理能力,优先解决所面临的数据质量和数据服务问题,其效果体现以下几个方面:
    · 监控数据资产质量状态,为优化数据平台和数据仓库性能、合理配置数据存储资源提供决策支持;
    · 持续推动数据质量监控优化预警、实时监控的机制;
    · 重点优先监控关键核心数据资产,管控优化20%核心资源,可提升80%需求应用性能;
    · 规范了问题故障的跟踪、Review、优化方案。从数据中提炼价值,从方案中形成标准化的知识体系;
    · 由技术检测到业务监督,形成闭环工作流机制,提高整体数据质量,全面提升服务业务水平。

    数据质量是数据仓库建设、数据应用建设和决策支持的关键因素,可通过完善组织架构和管理流程,加强部门间衔接和协调,严格按照标准或考核指标执行落地,确保数据质量方能将数据的商业价值最大化,进而提升企业的核心竞争力和保持企业的可持续发展。
    `
    数据质量分析
    https://blog.csdn.net/wzgl__wh/article/details/50840832

  4. 数据可视化过程不完全指南
    https://mp.weixin.qq.com/s/9BI7OHG-J6OxBGI02El9Yg
    `
    个人以为数据可视化服务商业分析的经典过程可浓缩为:从业务与数据出发,经过数据分析与可视化形成报告,再跟踪业务调整回到业务,是个经典闭环。

    一、理解 DATA
    进行 DATA 探索前,我们需先结合业务去理解 DATA,这里推荐运用 5W1H 法,也即在拿到数据后问自身以下几个问题:

    Who:是谁搜集了此数据?在企业内可能更关注是来自哪个业务系统。
    How:是如何采集的此数据?尽可能去了解详细的采集规则,采集规则是影响后续分析的重要因素之一。如:数据来自埋点,来自后端还是前端差异很大,来自后端则多是实时的,来自前端则需更近一步了解数据在什么网络状态会上传、无网络状态下又是如何处理的。
    What:是关于什么业务什么事?数据所描述的业务主题。
    Why:为什么搜集此数据?我们想从数据中了解什么,其实也就是我们此次分析的目标。
    When:是何时段内的业务数据?
    Where:是何地域范围内的业务数据?

    通过回答以上几个问题,我们能快速了解:数据来源是什么?它的可信度有多少?它在描述何时发生的怎样的业务(问题)?我们为什么要搜集此数据?等等。从而快速了解数据与业务开展近一步的探索与分析。

    二、探索 DATA
    1. 分类数据的探索
    a. 条形图,用长度作为视觉暗示,利于直接比较。
    b. 使用饼图、柱形堆叠图、瀑布图等,能在分类数据中对比占比情况。
    c. 使用树形图,能在展示一级分类的子类统计,可实现维度的又一层下钻。

    2. 时序数据的探索
    a. 用于观察事物随时间线索变化的探索。
    b. 用于发现事物随时间周期变化规律的探索。

    3. 空间数据的探索
    空间数据探索主要是期望展现或者发现业务事件在地域分布上的规律,即区域模式。全球数据通常按照国家分类,而国内数据则按照省份去分类,对于省份数据则按照市、区分类,以此类推,逐步向细分层次下钻。空间数据探索最常用为等值热力图。

    4. 多元变量的探索
    数据探索过程中,有时候我们需要对比多个个体多个变量,从而寻找数据个体间的差异或者数据变量间的关系。在这种情况下,我们推荐使用散点图、气泡图,或者将多个简单图表组合生成“图矩阵”,通过对比“图矩阵”来进行多元变量的探索。其中,散点图和气泡图适合变量相对较少的场景,对于变量5个及以上的场景我们更多地是推荐“图矩阵”。

    5. 数据分布的探索
    探索数据的分布,能帮助我们了解数据的整体的区间分布、峰值以及谷值以及数据是否稳定等等。

    之前在分类数据探索阶段曾提到分类清晰的条形图在一定程度上向我们反映了数据的分布信息。但,之前我们是对类别做的条形图,更多时候我们是需查看数据“坐落区间”,这里我们推荐直方图以及直方图的变型密度曲线图(密度曲线图,上学时代学的正态分布就常用密度曲线图绘制)。此外,对数据分布探索有一个更为科学的图表类型,那就是:箱线图。
    `

  5. 基于设备指纹的风控建模以及机器学习的尝试
    https://mp.weixin.qq.com/s/npM-7kK32xvjZ6ix7LsF0w
    `
    设备指纹的采集有很多方式,但是我们主要关注以下几个方向:
    硬件环境 (cpu型号,主板型号,制造商等…)
    硬件运行的环境(充电,电量,罗盘等…)
    软件环境(系统版本,组件版本等…)
    软件运行的环境(内存,写入速度,运行速度等…)

    从4个方向共39个维度进行采集。因为需要兼容GDPR的要求,我们采集信息只有设备的特征以及运行的状态,通过这两大组的数据组合去判断这个设备是否是改机或者是场机,以此来对抗黑灰产,所以我们需要申请的权限有且仅一个:
    READ_PHONE_STATE

    我们拿到了非常多异常特征的值,启发了设备指纹的采集方向和思路,重新设计了设备指纹,把39维的采集维度扩增到80维,待重新采集一段时间后,再使用算法进行对设备指纹的数据重新建模。

    尽管在有数据的情况下,想着可以一步到位通过机器学习来建立一个比较好的模型,但实际上可能还是经验和特征不够的问题,导致建模的结果并不是特别的好,不过好在模型筛选出来的数据都比较有代表性,提供了设备指纹一些设计思路和方向,对于后续重新建模提供了基础的模板和方向。
    `

  6. 产品经理如何进行竞品分析?
    https://www.zhihu.com/question/23601989
    `
    问题1:你的目的是什么?你到底需要分析什么?
    问题2:我们该如何选择竞品?
    问题3:明确目的,选择好竞品后,该如何收集资料与信息?
    问题4:完成了信息收集,接下来到底要怎么在竞品间进行分析?
    `

  7. 大数据不就是写SQL吗?
    https://mp.weixin.qq.com/s/1ynozlnLV-EChiAFcAqrUQ
    `
    在哪里写SQL?

    这个问题高级点的问法是用哪种SQL引擎?
    SparkSQL、Hive、Phoenix、Drill、Impala、Presto、Druid、Kylin (这里的SQL引擎是广义的,大家不必钻牛角尖)

    我用一句话简单概括下这几个东西,先不管你们现在看不看得懂:
    Hive:把sql解析后用MapReduce跑
    SparkSQL:把sql解析后用Spark跑,比hive快点
    Phoenix:一个绕过了MapReduce运行在HBase上的SQL框架
    Drill/Impala/Presto:交互式查询OLAP,都是类似google Dremel的东西,区别这里就不说了
    Druid/Kylin:强调预计算,同样是OLAP
    `

  8. 数据库从0到0.1 (二): OLTP VS OLAP VS HTAP
    https://blog.bcmeng.com/post/oltp-olap-htap.html
    `
    OLTP是Online Transaction Processing的简称;OLAP是OnLine Analytical Processing的简称;HTAP是Hybrid Transactional/Analytical Processing的简称。Transaction是指形成一个逻辑单元,不可分割的一组读,写操作;Online一般指查询延迟在秒级或毫秒级,可以实现交互式查询。

    OLTP的查询一般只会访问少量的记录,且大多时候都会利用索引。在线的面向终端用户直接使用的Web应用:金融,博客,评论,电商等系统的查询都是OLTP查询,比如最常见的基于主键的CRUD操作。

    OLAP的查询一般需要Scan大量数据,大多时候只访问部分列,聚合的需求(Sum,Count,Max,Min等)会多于明细的需求(查询原始的明细数据)。 OLAP的典型查询一般像:现在各种应用在年末会发布的大数据分析和统计应用,比如2017豆瓣读书报告,2017豆瓣读书榜单,网易云音乐2017听歌报告; OLAP在企业中的一个重要应用就是BI分析,比如2017年最畅销的手机品牌Top5;哪类人群最喜欢小米或华为手机等等。

    OLTP的特点:
    · 专门用来做日常的,基本的操作
    · 任务由短的,原子的,隔离的事务组成
    · 处理的数据量在G级别
    · 重视一致性和可恢复性
    · 事务的吞吐量是关键性能指标
    · 最小化并发冲突

    OLAP的特点:
    · 专门用来做决策支持
    · 历史的,总结的,统一的数据比具体的,独立的数据更重要
    · 侧重于查询
    · 查询吞吐量和相应时间是关键性能指标
    `

  9. 如何进行系统调研
    https://blog.bcmeng.com/post/system-research.html
    `
    平台侧系统调研的原则
     个人认为我们平台侧进行系统调研时应该原理为主,测试为辅。(测试和原理一样都很重要,如同实验物理和理论物理一样,是相辅相成,不可分割的,但是在系统调研调研阶段我认为我们应该更侧重原理,调研时测试的目的应该是验证或纠正我们对系统原理的理解)。
    平台侧系统调研的步骤
     1、先通过系统官方文档,论文,公开资料,代码进行系统原理的调研,掌握系统的核心架构和原理;
     2、用该领域的标准测试集进行测试(比如OLAP领域的SSB和TPC-H测试);
     3、从以下方面进行考虑:
      运维管理成本
      开发成本
      社区的活跃度
      业务需求的紧迫性
      该系统离我们理想系统的距离和改造的成本
      该系统在大规模集群下的可能瓶颈和问题
      该系统的固有缺陷以及避免改缺陷的成本

    平台侧调研需要注意的问题
     文档是否详细?
     看代码时不要纠结于细节,带着目的去看。
    如何进行用户侧系统调研?
     目标系统在我们的需求场景下是否有成功案例?
     是否足够易用?
     性能和QPS是否能满足需求?
     是否可以提供SLA保证?
    `

  10. Presto实现原理和美团的使用实践
    https://tech.meituan.com/presto.html
    `
    Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Facebook也调研了其他比Hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作Facebook庞大的数据仓库。

    2012年开始试用的一些外部项目都不合适,他们决定自己开发,这就是Presto。
    `
    Presto Overview
    https://prestodb.io/overview.html

    What is Presto or PrestoDB?
    https://amazonaws-china.com/cn/big-data/what-is-presto/

  11. 快手万亿级实时OLAP平台的建设与实践
    https://mp.weixin.qq.com/s/bKDtv892f4TJVV-JjW0vfQ
    `
    1、快手 OLAP 平台概览
    2、快手使用 OLAP 的业务场景
    根据对用户调研的总结,我们对比了现在比较常用的 OLAP 技术。
    首先,Hive/SparkSQL 在数据仓库的领域应用是比较广泛的,但是因为查询时延很难能够满足毫秒到秒级的要求,同时因为是离线计算,数据时效性也比较差。
    其次,ES 是一个功能很强大的系统,在中等数据规模场景下能较好地满足需求,但是在万亿和更大的数据规模场景下,数据的写入性能和查询性能都遇到了很大的瓶颈。
    Kylin 和 Druid 功能比较类似,考虑到 Druid 采用 OLAP 架构,数据时效性相对于 Kylin 来讲会更好,数据的变更也相对更加灵活,所以最终选用 Druid 作为 OLAP 平台的查询引擎。
    3、Druid 系统概述
    Druid的查询性能非常好,总结来说主要是因为采用了如下五个技术点:数据的预聚合、列式存储、Bitmap索引、mmap、以及查询结果的中间缓存。下面针对两个点具体展开讲一下。
    首先讲下数据预聚合。Druid 会把一行数据消息分成三个部分,包括时间戳列、维度列以及指标列。所谓预聚合,就是当数据录入到 Druid 系统时,会按照一定的时间周期把原始数据做一次预先聚合,会根据一个全维度聚合出要计算的指标,也就是要索引的内容。后续所有的查询都是通过这些预聚合的中间结果做二次查询。
    接下来讲下 Bitmap 索引。Bitmap 索引主要为了加速查询时有条件过滤的场景。Druid 在生成索引文件的时候,对每个列的每个取值生成对应的 Bitmap 集合。如图上所示,Gender 为 Male 对应的 Bitmap 为“1001”,代表第 1 行和第 4 行的 Gender 为“Male”。举一个查询的例子,假设要筛选 Gender =‘Female’and City =‘Taiyuan’的数据,那么只需要把 Gender =‘Female’对应的 Bitmap “0110”和 Taiyuan 对应的 Bitmap “0101”进行与操作,得到结果为“0100”,代表第二行满足筛选条件。通过 Bitmap 可以快速定位要读取的数据,加速查询速度。
    4、Druid 在快手使用的经验以及一些主要改进点
    5、快手对 Druid 集群资源利用率的改进
    6、总结:快手对 Druid 的改进
    在性能提升方面,我们做了时序和维度两个层面的物化视图以及元数据方面的交互优化。在资源管理层面,实现了 Supervisor indexing task 的自动伸缩、Middler Manager 细粒度资源分配以及并行 Compaction。在稳定性层面,设计了 Broker 和 Historical 的隔离部署。在平台易用性层面,自研了数据源的管理系统、数据探针系统,以及引入 Superset 数据可视化平台。
    `

  12. 越来越火的图数据库究竟是什么?
    https://mp.weixin.qq.com/s/oYjD9zCtj9BpCL5rfTGLHQ
    `
    1.1 什么是图?
    图由两个元素组成: 节点和 关系。

    每个节点代表一个实体(人,地,事物,类别或其他数据),每个关系代表两个节点的关联方式。这种通用结构可以对各种场景进行建模 – 从道路系统到设备网络,到人口的病史或由关系定义的任何其他事物。

    1.2 什么是图数据库?
    图数据库(Graphdatabase)并非指存储图片的数据库,而是支持以 图这种数据结构存储和查询数据的数据库。

    图形数据库是一种在线数据库管理系统,具有处理图形数据模型的创建,读取,更新和删除(CRUD)操作。

    与其他数据库不同, 关系在图数据库中占首要地位。这意味着应用程序不必使用外键或带外处理(如MapReduce)来推断数据连接。

    与关系数据库或其他NoSQL数据库相比,图数据库的数据模型也更加简单,更具表现力。

    图形数据库是为与事务(OLTP)系统一起使用而构建的,并且在设计时考虑了事务完整性和操作可用性。

    1.3 两个重要属性
    根据存储和处理模型不同,市面上图数据库也有一些区分。

    比如: Neo4J就是属于原生图数据库,它使用的后端存储是专门为Neo4J这种图数据库定制和优化的,理论上说能更有利于发挥图数据库的性能。
    而 JanusGraph不是原生图数据库,而将数据存储在其他系统上,比如Hbase。

    ① 图存储
    一些图数据库使用 原生图存储,这类存储是经过优化的,并且是专门为了存储和管理图而设计的。并不是所有图数据库都是使用原生图存储,也有一些图数据库将图数据序列化,然后保存到关系型数据库或者面向对象数据库,或其他通用数据存储中。

    ② 图处理引擎
    原生图处理(也称为 无索引邻接)是处理图数据的最有效方法,因为连接的节点在数据库中物理地指向彼此。非本机图处理使用其他方法来处理CRUD操作。
    `

  13. 细分十一步,助你构建完整的数据运营体系
    http://www.woshipm.com/operate/1987879.html
    `
    数据运营是做什么的?个人的理解是:
    推动团队明确产品目标,定义产品数据指标,创建数据上报通道和规则流程,高效的推动实现数据需求,观测产品数据,做好数据预警,分析数据变化原因,根据分析结果进行产品迭代和运营,为产品决策提供依据,用数据驱动产品和组织成长,达成组织目标。

    通俗点说,数据运营搞清楚以下5个问题:
    1. 我们要做什么?——目标数据制订;
    2. 现状是什么?——行业分析,产品数据报表输出;
    3. 数据变化的原因?——数据预警,数据变化的原因分析;
    4. 未来会怎样?——数据预测;
    5. 我们应该做什么?——决策与数据的产品应用。

    第一步,制订产品目标
    第二步,定义产品数据指标
    第三步,构建产品数据指标体系
    第四步,提出产品数据需求
    第五步,上报数据
    第六-八步,数据采集与接入、存储、调度与运算
    第九步:获取数据
    第十步:观测和分析数据
    第十一步:产品评估与数据应用
    `

  14. 四年长居美国最佳工作榜首,数据科学家到底是什么神仙工作?
    https://mp.weixin.qq.com/s?__biz=MzU4NTQ2MzQ1Nw==&mid=2247483733&idx=1&sn=355c15c26e44a5e56cfab1fefd973d2d
    `
    数据科学,是将数据转化为洞察(insights),并基于这些洞察作出决策。

    具体的工作流程是什么?
    提出问题;
    数据获取;
    数据处理;
    探索性数据分析;
    建模;
    可视化报告;
    作出决策,构建数据产品;

    根据现在数据科学家的工作流程,要想成为一个称职的数据科学家,需要掌握以下的知识结构[8],分别是:
    计算机科学
    数学
    统计学
    机器学习
    领域知识
    数据可视化
    沟通技巧
    `

  15. 给初/中级数据分析师的一些建议
    https://mp.weixin.qq.com/s/KWexZ_n8Q24uowDvKlOgZg
    `
    正文:
    数据分析师的日常工作,简而言之,便是基于一堆数据,利用技术分析手段,通过各种维度的指标,描述某种现象或寻找特定规律。
    用一个成语形容,那便是抽丝剥茧,既是技术活儿,又是个细致活儿。
    因此,对数据分析师的要求也就不言而喻,既要懂得各种分析数据的技术和方法,同时又要非常小心谨慎,谨防犯错。因为基于错误的数据,可能得出错误的结论,从而导致错误的决策,造成重大损失。
    这样说来,想要做好这个工作,就必须要遵循一定的原则。不过,今天我们并不是要讲解如何避免犯错,而是站在一个全局的角度,聊聊如何培养比较好的思维习惯。
    如果具备了良好的思维习惯,那么犯错的几率也会大大降低。

    # 主题意识
    数据分析的核心在于提炼信息,总结知识,形成智慧。
    1.由点到线,由线及面
    2.带入主题背景思考问题
    3.以主题总结知识

    # 交付意识
    数据分析师的主要产物就是各种数据结果和报表,而这些产出往往蕴含的价值很大,与此同时如果出现错误,后果也会比较严重。因此我们应该有交付意识,把需求方当做是甲方,我们要对自己的交付物负责。
    1.对结果负责
    2.按时交付
    3.清单思维

    # 学习意识
    1.学习新技术,关注行业发展
    2.相互学习
    3.以输出倒逼输入
    `

  16. 常见数据分析误区:不要让数据误导你!
    https://mp.weixin.qq.com/s/wmD4TRFPqMTHMe4nAXg2gg
    `
    本文的主要受众为:已经工作两年左右的数据分析师,或者有意向进入这个行业的学生。
    本文会从统计学的角度,结合具体的业务示例,讲解工作中可能遇到的数据分析误区。

    1、需求不匹配
    2、指标不合理
    3、采集有偏差
    数据样本量不够
    存在选择性偏见或者幸存者偏见
    混入脏数据
    4、分析有错误
    5、推导不严谨
    `

  17. 【知乎热文】数据分析师的出路在哪儿
    https://mp.weixin.qq.com/s/YiGG9Z6Q_ReWsJd_zlrihA
    `
    出路,在每个行业都是一个热门话题:
    英语老师的出路在哪里,
    外贸跟单的出路在哪里,
    数据库工程师的出路在哪里,
    大前端全栈的出路在哪里。

    用数据及数据技术,为企业创造收益,变成了数据分析师的出路!
    回归企业创富的途径上来,辅以数据手段,看看数据分析师在每个阶段应该担任的责任和可能有创收点的机会。

    1. 没有数据
    2. 有数据,没统计
    3. 有数据,有统计,没分析
    4. 有数据,有统计,有分析,有决策 (具备商业结构思维)
    5. 冲击行业的影响力人物,成为研究领袖
    `

  18. 面试大数据分析师,你需要掌握的基础技术栈。
    https://mp.weixin.qq.com/s/RtX-OAFwl86eBCMs2hNyHA
    `
    本文主要面向的读者是在校计算机/软件相关专业想踏足大数据领域寻找相关实习机会的学生,以及刚工作1-2年想转大数据方向的同学。

    读完本文,你将收获大数据技术学习的基本方向,以及在面试前需要准备和复习的常见面试题。

    大数据分析师的日常工作流程大致如下:
    1.设计定义要收集的数据,并由数据收集系统完成收集;
    2.完成数据的预处理,将数据转化为结构化的数据;
    3.根据业务需求,对数据进行离线SQL分析或者实时分析得到相应的结果信息;
    4.将上述结果信息通过数据可视化工具呈现出来,通过对比分析其趋势或差异,推导出相应的结论。

    数据存储
      离线文件存储——HDFS
      关系型数据库——MySQL
      NoSQL型数据库——HBase
    数据分析
      离线数据分析——Hive、SparkSQL
      实时数据分析——Storm、Flink、SparkStreaming
    其它
      消息中间件——Kafka
      资源管理调度——Yarn
      数据可视化——Tableau
    `

  19. 成为一名合格的数据科学家,做到以下几点就够了
    https://mp.weixin.qq.com/s/cJXzfL8hkAnxkOf7wxz5cg
    https://github.com/conordewey3/DS-Career-Resources
    `
    1、掌握沟通的艺术
    这可能是所有文章中最受欢迎的建议。在数据科学中,沟通的重要性经常受到关注,并且有着充分的理由。如果您无法以某些方式传达洞察并驱动业务,那么努力从数据中获取洞察都是在做无用功。有效的沟通是一项技能,可以随着时间的推移不断练习和强化。

    2、建立稳固的统计基础
    无论是数据分析,机器学习,运行实验,还是更深奥的东西,都无法避免使用统计数据。花时间掌握基础的统计概念并建立坚实的统计基础将对这些问题起到很大帮助。

    3、保持怀疑 – 不断质疑你的假设
    作为数据科学家,无论我们对问题的了解程度如何,我们都会不断做出假设。这些假设可能与我们正在处理的数据或我们正在努力解决的问题有关,但它们需要受到质疑。通过对我们的产出保持某种程度的偏执可以确保走上正轨。这种技能通常与探索性的,以研究为导向的工作相关联,但比你想象的要适用得多。

    4、好奇心会带你走的更远 – 多提问
    与上一点类似,好奇也是值得的。好奇心可以引导您获得其他方面得不到的有趣见解。它促使你采用成长的心态并不断提出问题 – 这些问题在你学习和成长上起到的作用与工作本身一样多。

    5、把你的工作展示在世界面前(Github,博客等)
    这对我来说很重要。在我职业生涯的早期,我就了解到了在众人面前展示自己成果的好处。无论是通过博客文章,项目,推文还是其他东西 – 这都无关紧要。重要的是你要把东西展示了出来。下面的推文几乎总结了我对此的立场:

    6、使用您感兴趣的真实数据构建学习项目
    在学习项目时,请确保您对该主题感兴趣。这看起来非常简单,但是很多数据科学家都试图做出在潜在员工和同事看来最复杂或最令人印象深刻的项目。坚持您喜欢的并使用真实世界的数据,而不是超级干净的Kaggle或UCI数据集。也可以收集一些数据并构建自己的数据集。

    7、你永远都不会知道所有的事 – 但没关系
    很明显,数据科学是一个广泛而复杂的领域。花一整天的时间练习它,甚至还停留在表面上。总会有另一种要掌握的技术,另一种要学习的工具,以及另一种要阅读的论文。这就是骗子综合症与这个领域如此相关的原因。我发现这一点既令人沮丧又令人兴奋。。

    8、为问题挑选合适的工具并掌握如何使用
    你无法掌握每一个工具,并不意味着你不应该掌握某些工具。你每天的工作中可能大部分时间都在使用工具构建模块,比如R,SQL,Vim,Airflow,Scikit-learn。只要你认真学习你的关键工具就可以了。

    9、更多关键点
    效率优先
    学会正确估计任务所需时间
    思考你的关键路径
    与经验丰富的数据科学家合作
    教授和传播数据科学
    学习领域知识,而不仅仅是方法
    最重要的技能是批判性思维
    去参加活动 – 黑客马拉松,会议,沙龙
    学习相关技能,而不仅仅是技术技能
    ……
    `

  20. Vol.03 nMeetup | 图数据库综述与 Nebula 在图数据库设计的实践
    https://zhuanlan.zhihu.com/p/77459312
    `
    OLAP 更偏向于做离线分析,OLTP 更偏向于线上处理。

    图数据的常见多对多关系数据库场景:
    第一个 Social Network(社交网路),比如说微信或者 Facebook 好友关系等等。这个网络有几十亿个用户,几千亿到几万亿的连接关系。

    第二个 Business Relation,商业的关系,常见的有两种网络:金融与资金关系网络、公司关系。

    第三个是知识图谱,也是最近比较热的一个领域。在各个垂直领域会有不同的知识点,且知识点之间有相关性。

    图数据库的应用场景:
    第一个应用场景是基于社交关系网络的社交推荐,比如:拼多多的商品推荐,抖音的视频推荐,头条的内容推荐,都可以基于已有的好友关系来推荐。

    第二个就是风控领域,风控其实是银行保险业的核心话题。传统的风控是基于规则——基于规则的风控手段,相对已经比较成熟了,一般是拿直接的交易对手来做规则判断。但现在风控有个新趋势,就是通过关联关系做拓展,比如交易对手等相关的周边账号,通过这些关系来判断这笔交易或者转账的风险。从规则向基于关联关系的风控演进,这个趋势比较明显。

    图数据库面临的挑战:
    第一个挑战就是低延时。
    第二个挑战是高吞吐。
    第三个挑战是数据量激增。
    第四个挑战是分析的复杂性。
    最后一个挑战是关于数据一致性——当然还有很多其他挑战,这里没有全部罗列。
    `

  21. AI研发工程师成长指南
    https://mp.weixin.qq.com/s/Ni7rwT6bOW7ny_-tGZGOiA
    `
    行业内的痛点:AI工程化。

    人工智能发展到现阶段,已经从实验室中的算法走向了工程化应用的阶段。但是算法落地并没有想象中的顺利,开始有越来越多诸如场景碎片化、应用成本高、实验室场景到实际应用场景效果差距较大等问题被暴露出来,而这些也成为当前阶段AI落地应用过程中新的痛点。

    领域内高水平的paper都是公开发表的,除了少数的核心算法,人才济济的AI企业很难在算法性能上与友商拉开距离。那么AI企业想要商业化,想要创收,行业细分领域纵深成了决定成败的重要因素。需要下沉到业务领域,真刀真枪地进行拼杀。

    在技术突破-商业化-产品化-工程化的阶段路线中,除了技术强,接下来还有很多路要走。谁能够更好更快地把算法从实验室中拿出来、卖出去;更好更快地将模型交付到业务场景,真正产生实际的价值,让客户满意,谁才能活得更久。

    对于Scientist/Researcher而言,技术可以是一篇论文、一项 ImageNet 竞赛的冠军、也可以是一个重要数值(比如人脸识别准确率)的突破;但在商务侧来说,论文与冠军并不实用,如果技术无法融进安防、汽车、金融等行业,变成切切实实的产品,客户与合作伙伴就会拒绝买单。

    对于AI企业来说,能否深入了解各行业的业务流程、业务规则、知识经验,进而将技术能力转化为业务解决方案创造价值,是发展的保障。

    那么对于我们个人来说,应该如何发展呢?
    对于企业来说,对于AI人才的需求分为两种:一种是学术界的牛人,发过大paper,有学术界比赛的结果的。公司需要他们去做算法研究,保持技术的领先性,在业内赢得口碑,这样才能在领域内保持头部领域。另一方面,人工智能早已不是一个概念了,企业需要把业务部门的算法落地的人,能够快速、稳定、高效地把实验室中的算法落实到生产环境中,解决实际问题的人。这就需要那些工程底子扎实、能够实打实地写代码,并且对算法模型理解深刻,能够快速将AI项目工程化、落地有产出的复合型人才。
    `

  22. 技术人最不该忽视可视化数据分析!
    https://mp.weixin.qq.com/s/hg4ZWRtD9IDlVl9tjNYfcA
    `
    导读:在这个“人人都是数据分析师”的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。今天,阿里高级产品经理沉砂为我们详细介绍数据可视化工具以及如何选择有效图表。

    通过文章你可以获得的建议:
    挑选顺手的工具
    加工正确的数据
    选择合适的图表
    一个实例

    数据可视化追求的三个目标:准确、清晰、优雅。符合这三项的图表被称为高效的数据可视化:

    准确:精准地反馈数据的特征信息(既不遗漏也不冗余,不造成读者疏漏&误读细节)
    清晰:获取图表特征信息的时间越短越好
    优雅:美观(不是酷炫)、协调(相同场景的图表遵循统一规范)。

    除此之外,这三项的重要性也有相对次序:准确>清晰>优雅,原则上我们该尽量往这三个方面靠拢。

    数据分析纷纷杂杂,总结起来,不外乎4个目的:对比、聚焦、归纳、演绎。基于这些初始目的出发,我们再选择实例化它。
    `

    英国的金融时报杂志也出过一版数据分析的建议
    https://alitech-public.oss-cn-beijing.aliyuncs.com/1567064473032/shuju%20fenxi.png

    Chart Suggestions—A Thought-Starter
    https://extremepresentation.typepad.com/files/choosing-a-good-chart-09.pdf

  23. 数据分析师的核心竞争力在哪里?
    https://mp.weixin.qq.com/s/yqu_rRrcI6qKsNl7Wz4H0A
    `
    1. 解决问题的能力

    这是我觉得是所有能力中最重要的能力。

    所有的职位、技能、知识都是为了解决问题而来。数据分析师的职业本质是用数据分析技能来帮助业务/老板实现目标。在实现目标的过程中会遇到很多问题,我们可能会用到数据发现机会点、预估风险,也会用数据对比来做可行性分析,用数据及时发现问题。每种分析主题可能对应不同的方法与分析模型,但是核心点是我们得知道什么情况适用什么问题,还要灵活应对。这灵活应对的能力,就是解决问题的能力。

    可能你知道很多知识,但是遇到棘手的问题也会束手无策,这时候分析高手们会淡定自若地分析问题的背景、逻辑,拆分问题直到能解决为止。

    简而言之,老板交给你一个任务,不管用什么方式,你都能解决,这就是你的核心竞争力,你可以不会SQL不会算法。

    2. 逻辑思维能力
    简而言之,就是要能快速get到问题核心点的能力。

    3. 学习能力
    这里的学习能力不是指考试考高分的能力,当然,能考高分的同学学习能力都很强。
    我特指的是理解、模仿、快速应用、复盘总结形成规律的能力。

    4. 数据敏感力
    数据分析师还有一个特别的能力,相对于其他岗位的同学,会更容易第一眼发现数据的规律、数据中的异常,这就是对数据敏感的能力。
    对数据敏感,是建立在对业务理解的基础上的。
    这里我建议大家尽可能参加不同类型的数据分析项目,不仅仅是做需求,写分析报告,也可以尽量去参加数据指标体系的建设、数据产品的规划,最好还能做数据挖掘相关的项目。各种类型的项目都有经验,你才能显示出数据领域更加专业的能力。当然,初期参与自己不熟悉的项目,就得多付出,多学习总结,不要太计较短期所得,万物长宜放眼量。

    5. 沟通能力
    数据分析师还有一个重要的作用,那就是连接业务与开发。这时候沟通能力就非常重要了。

    综上,相信有远见的数据分析师,一定会积极提升以上讲到的五大核心能力:
    1、解决问题的能力
    2、逻辑思维能力
    3、学习能力
    4、数据敏感力
    5、沟通能力。
    `

  24. 如何把握数据治理项目启动的最佳时机
    https://mp.weixin.qq.com/s/bWwqQ0LhVrk6hQmHT_nI0A
    `
    # 实施数据治理项目的原因
    企业实施数据治理项目的原因是多样化的,笔者根据目前国内企业数据治理现状归纳总结了一下,原因主要体现在以下三个方面:数据质量方面、数据应用方面及其它方面。

    1. 数据质量方面
    1)数据不一致
    企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。企业业务系统更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性信息设置和要求不统一。另外,由于各系统的相互独立使用,无法及时同步更新相关信息等各种原因造成各系统间的数据不一致,严重影响了各系统间的数据交互和统一识别,基础数据难以共享利用,数据的深层价值也难以体现。

    2)数据不完整
    由于企业信息系统的孤立使用,各个业务系统或模块按照各自的需要录入数据,没有统一的录入工具和数据出口,业务系统不需要的信息就不录,造成同样的数据在不同的系统有不同的属性信息,数据完整性无法得到保障。

    3)数据不合规
    没有统一的数据管理平台和数据源头,数据全生命周期管理不完整,同时企业各信息系统的数据录入环节过于简单且手工参与较多,就数据本身而言,缺少是否重复、合法、对错等校验环节,导致各个信息系统的数据不够准确,格式混乱,各类数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,且没有相应的数据管理流程。

    4)数据不可控
    海量数据多头管理,缺少专门对数据管理进行监督和控制的组织。企业各单位和部门关注数据的角度不一样,缺少一个组织从全局的视角对数据进行管理,导致无法建立统一的数据管理标准、流程等,相应的数据管理制度、办法等无法得到落实。同时,企业基础数据质量考核体系也尚未建立,无法保障一系列数据标准、规范、制度、流程得到长效执行。

    5)数据冗余
    各个信息系统针对数据的标准规范不一、编码规则不一、校验标准不一,且部分业务系统针对数据的验证标准严重缺失,造成了企业顶层视角的数据出现“一物多码”、“一码多物”等现象。

    2。 数据应用方面
    企业信息化建设到了一定程度,开始对数据进行相关的展示、分析、应用等,进一步提高数据对企业统计分析和决策支持的力度,但是由于前期没有进行顶层设计,在大量业务系统建设过程中没有同步进行数据治理,出现许多上述数据问题,导致数据质量不高,数据分析结果不准,数据应用效果不佳,无法为企业的高效经营管理提供数据支撑,此时企业考虑启动数据治理项目了。

    # 先上业务系统再进行数据治理的弊端
    如果核心业务系统运行一段时间后再实施数据治理,其实相当于重复一遍业务系统实施时的工作。此时需要重新规范数据标准并实现系统落地,重新进行数据清洗,重新搭建数据管理体系等,重复劳动,耗费资源。数据清洗后只能先实现重复数据的映射,然后逐步停用重复编码,导致数据冗余无法短期内消除,而且,需考虑对业务系统正常运行的影响。

    # 数据治理项目启动的最佳时机
    对于企业而言,有效的数据治理能推动IT部门和业务部门协作实现共同目标,促成企业各种业务功能的实现,是成功企业的“法宝”。当企业在数据管理方面存在上述问题,无法为高层领导分析决策提供基础数据支撑时,开展数据治理已经势在必行,而选择合适的时机启动数据治理项目就显得尤为重要。结合项目实施经验和标杆案例分析,笔者认为企业在核心业务系统(如ERP、MES、PLM、SCM、CRM等)上线前实施数据治理项目效果最佳。

    一般来说,初始化数据的整理、数据编码及数据录入是建立核心业务系统的难点之一,正确按各类数据的编码原则进行编码定义,是数据编码具有唯一属性的重要依据。同时,数据整理与编码实施也是实现整个核心业务系统快捷运行的基础。

    核心业务系统上线运行前,往往会进行统一的数据初始化工作,即把系统需要的各类数据按照系统模板的要求导入系统,保证系统的正常运行,支撑各项业务活动的开展。然而,在数据导入的过程中,经常会出现诸如数据不规范、必填项缺失、重码、非法取值等错误需要反复重新导入的情况,费时费力,增加人力成本,给业务系统的实施带来一定的影响。

    如果在核心业务系统上线前开展数据治理相关工作,对企业各类核心业务实体数据的数据标准,编码规则,数据模型,标准数据库、数据管理制度、流程、工具等进行梳理和规范,实现企业内标准统一、数据同源、规范共享,并通过系统集成接口自动传输到核心业务系统,可短期内快速完成核心业务系统数据的初始化工作,缩短周期,提高效率,通过集成接口实现灵活的数据分发等操作,达到服务集中的目的,大大节省企业信息化建设投入成本。
    `

  25. 迅速收藏!109个数据科学面试问答,你绝对不能错过的宝藏库!
    https://mp.weixin.qq.com/s/Mh5ZbEFYt6vOFk7NORlTuQ
    `
    不管你是拥有上万经验条的“老手”,亦或是初出茅庐却天资过人的“新手”,面试官总能“难倒你”。

    在面试的时候,面试官所出题目涉及的范围可能会非常广,这既考验了面试者的技能知识,又很能体现面试者的沟通技巧。面试官会通过一系列的问题来衡量你的数据统计、编程,和数据建模能力,而且这些问题是经过专门设计的,需要你精神高度集中,并迫使你展示在压力下的工作状态。

    好的准备工作是数据科学职业生涯成功的关键,这当然也包括面试过程。

    现在,我们将数据科学家将会遇到的面试问题分为了六个不同的类别:数据统计、编程、建模、行为、文化,和解决问题类。
    1. 数据统计(Statistics)
    2. 编程
    3. 一般问题
    4. 大数据
    5. Python
    6. R语言
    7. 结构化查询语言(SQL)
    8. 建模
    9. 行为
    10. 文化契合
    11. 问题解决能力
    `

  26. 关于《数据仓库知识体系》的超全指南(建议收藏)
    https://mp.weixin.qq.com/s/4dcZGEJ69jzzErcZOCC0Sw
    `
    一、数据仓库的8个发展阶段
    1.概念阶段(1978-1988)
    2.萌芽阶段
    3.集成阶段
    4.确立阶段(1991)
    5.数据集市(1994-1996)
    6.争吵与混乱(1996-1997)
    7.合并(1998-2001)
    8.未来

    二、四种常见数据模型
    1.为什么要进行数据仓库建模
    2.四种常见模型
    2.1 维度模型
    2.1.1 星型模型
    2.1.2 雪花模型
    2.1.3 星座模型
    2.2 范式模型
    2.3 Data Vault模型
    2.4 Anchor模型
    3.数据模型的评价标准

    三、三种事实表(设计原则,设计方法)
    1.三种事实表概述
    2.三种事实表对比
    3.事实表设计 8 大原则
    4.事实表设计方法
    第一步:选择业务过程及确定事实表类型
    第二步:声明粒度
    第三步:确定维度
    第四步:确定事实

    四、多维体系结构
    1.总线架构
    2.一致性维度
    3.一致性事实
    4.小编有话

    五、数据仓库规范设计
    1.为什么要进行规范设计
    2.设计规范 – 指标
    3.命名规范 – 表命名
    3.1 常规表
    3.2 中间表
    3.3 临时表
    3.4 维度表
    4.开发规范
    5.流程规范

    六、元数据管理
    1.业务元数据
    2.技术元数据
    3.管理元数据
    4.小编有话

    七、维度表
    1.什么是维度表
    2.维度表设计原则
    3.维度表设计方法

    八、三范式与反范式
    1.第一范式
    2.第二范式
    3.第三范式
    4.反范式化
    5.范式化设计和反范式化设计的优缺点
    5.1 范式化 (时间换空间)
    5.2 反范式化(空间换时间)
    6.OLAP和OLTP中如何设计范式

    九、数据仓库架构-Lambda和Kappa
    1.Lambda架构原理
    2.Lambda架构的缺点
    3.Kappa架构原理
    4.Lambda架构和Kappa架构优缺点对比
    5.数据架构评价标准
    6.小编有话

    十、数据治理(目的、方法、流程)
    1.什么是数据治理
    2.数据治理的目的
    3.数据治理的方法
    4.数据质量8个衡量标准
    5.数据治理流程

    十一、ETL
    1.什么是ETL
    2.ETL & ELT
    3.常用的ETL工具
    3.1 sqoop
    3.2 DataX
    3.3 Kettle
    3.4 canal

    十二、数据应用-OLAP
    1.OLAP和OLTP的区别
    2.OLAP分类
    3.OLAP基本操作
    4.OLAP选型

    十三、数据倾斜
    1.数据倾斜表现
    1.1 hadoop中的数据倾斜表现
    1.2 hive中数据倾斜
    1.3 Spark中的数据倾斜
    2.数据倾斜产生原因
    3.解决数据倾斜思路
    2.1 业务逻辑
    2.2 程序层面
    2.3 调参方面
    2.4 从业务和数据上解决
    `

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注