数据分析入门学习

本文最后更新于2018年8月18日,已超过 1 年没有更新,如果文章内容失效,还请反馈给我,谢谢!

=Start=

缘由:

前几天在微信上看到一篇文章「面向数据分析的道与术」,看的过程中突然想到几个问题——如果别人问你数据分析是什么?该怎么搞?为什么要这么搞?你的分析方法、过程、结果相比于其它人来说有什么优劣?

想着想着,感觉好多东西虽然都知道、了解一些,但又不成体系,说不出个所以然来,所以,就抽出了一些时间在网上找了些资料学习一下,简单入个门,后续如果有机会再实际深入探究。

正文:

参考解答:
# 什么是数据分析?
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实际应用中,数据分析可帮助人们作出判断,以便采取适当行动。
# 为什么要进行数据分析?
目的无外乎:
* 概括总结
* 评估预测
# 如何进行数据分析?
或者说数据分析的步骤、方法有哪些?
1. 需求分析
需求背景
分析目标
应用方向
2. 数据采集/收集
系统数据
外部数据
非结构化数据
3. 数据分析及处理
数据质量分析
数据处理方案设计
执行数据处理
数据处理校验&优化
4. 成果提交
结论
报告(精准)
图表(可视化效果)
5. 应用&反馈
效果评估
使用反馈
# 数据分析的注意事项(坑)有哪些?
1、数据不能给你答案
2、思考的严谨与数据的证伪
在数据中,很多情况都是证实要难于证伪。
在复杂的数据分析过程中,链条往往极长且异常复杂。如果在某一个环节只是对逻辑做了正向的想象而没有做反向的验证,可能最终的结果就谬之千里了。
3、数据关联与规则的独立性
4、面对大数据束手无策时,不如试试小数据
参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/4049.html

《数据分析入门学习》上有25条评论

  1. 业余时间学数据分析,如何快速上手
    https://mp.weixin.qq.com/s/XmrwaMFh2wnVSqhxK-aOEA

    01 数据分析师应该具备哪些技能
    其实企业对数据分析师的基础技能需求差别不大,可总结如下:
    · SQL数据库的基本操作,会基本的数据管理
    · 会用Excel/SQL做基本的数据分析和展示
    · 会用脚本语言进行数据分析,Python or R
    · 有获取外部数据的能力,如爬虫
    · 会基本的数据可视化技能,能撰写数据报告
    · 熟悉常用的数据挖掘算法:回归分析、决策树、随机森林、支持向量机等

    02 寻找最合适的学习路径
    你一定要清楚的是,你想要达到的目标是什么?如果你想利用数据分析的方法来支撑工作决策,那么你可能需要知道数据分析的流程是什么,通过数据分析的方法能获得哪些信息,这些信息可以用来支撑什么工作。
    然后你需要知道要达到这样的目的,需要哪些必备的技能,哪些是不需要学习的。其实在这个过程中你对知识的框架就有了大概的了解,并知道如何去避免无效的信息。
    更重要的是,你需要了解,完成一个数据分析项目,基本的流程是什么。这样你才知道学习的知识,在具体的工作中是如何应用,并能够在学习之后进行针对性的训练,做到有的放矢。

    03 数据分析的工作流程
    1. 定义问题
    2. 数据获取
    3. 数据预处理
    4. 数据分析与建模
    5. 数据可视化及数据报告撰写

  2. 漫谈数据质量监控
    https://blog.csdn.net/zhaodedong/article/details/73385667

    x00、前言
      文章结构
        数据质量监控要做哪些监控内容
        该怎么做
    x01、什么值得你监控
      一、监控
        日常监控
        数据对账
        性能监控
      二、告警
      三、多数据源
    x02、怎样监控
      一、规则引擎
        Sql模板
        元数据
        自定义模板
      二、执行引擎
        Sql执行
        直接获取数据量
        算法执行引擎
        多数据源
    xFF、总结

  3. DataMan-美团旅行数据质量监管平台实践
    https://tech.meituan.com/mtdp_dataman.html

    数据质量是数据治理建设的重要一环,与元数据管理、数据标准化及数据服务管理等共同构建了数据治理的体系框架。建设一个完整DataMan质量监管平台,将从监控、标准、流程制度等方面提升信息管理能力,优先解决所面临的数据质量和数据服务问题,其效果体现以下几个方面:
    · 监控数据资产质量状态,为优化数据平台和数据仓库性能、合理配置数据存储资源提供决策支持;
    · 持续推动数据质量监控优化预警、实时监控的机制;
    · 重点优先监控关键核心数据资产,管控优化20%核心资源,可提升80%需求应用性能;
    · 规范了问题故障的跟踪、Review、优化方案。从数据中提炼价值,从方案中形成标准化的知识体系;
    · 由技术检测到业务监督,形成闭环工作流机制,提高整体数据质量,全面提升服务业务水平。

    数据质量是数据仓库建设、数据应用建设和决策支持的关键因素,可通过完善组织架构和管理流程,加强部门间衔接和协调,严格按照标准或考核指标执行落地,确保数据质量方能将数据的商业价值最大化,进而提升企业的核心竞争力和保持企业的可持续发展。

    数据质量分析
    https://blog.csdn.net/wzgl__wh/article/details/50840832

  4. 数据可视化过程不完全指南
    https://mp.weixin.qq.com/s/9BI7OHG-J6OxBGI02El9Yg

    个人以为数据可视化服务商业分析的经典过程可浓缩为:从业务与数据出发,经过数据分析与可视化形成报告,再跟踪业务调整回到业务,是个经典闭环。

    一、理解 DATA
    进行 DATA 探索前,我们需先结合业务去理解 DATA,这里推荐运用 5W1H 法,也即在拿到数据后问自身以下几个问题:

    Who:是谁搜集了此数据?在企业内可能更关注是来自哪个业务系统。
    How:是如何采集的此数据?尽可能去了解详细的采集规则,采集规则是影响后续分析的重要因素之一。如:数据来自埋点,来自后端还是前端差异很大,来自后端则多是实时的,来自前端则需更近一步了解数据在什么网络状态会上传、无网络状态下又是如何处理的。
    What:是关于什么业务什么事?数据所描述的业务主题。
    Why:为什么搜集此数据?我们想从数据中了解什么,其实也就是我们此次分析的目标。
    When:是何时段内的业务数据?
    Where:是何地域范围内的业务数据?

    通过回答以上几个问题,我们能快速了解:数据来源是什么?它的可信度有多少?它在描述何时发生的怎样的业务(问题)?我们为什么要搜集此数据?等等。从而快速了解数据与业务开展近一步的探索与分析。

    二、探索 DATA
    1. 分类数据的探索
    a. 条形图,用长度作为视觉暗示,利于直接比较。
    b. 使用饼图、柱形堆叠图、瀑布图等,能在分类数据中对比占比情况。
    c. 使用树形图,能在展示一级分类的子类统计,可实现维度的又一层下钻。

    2. 时序数据的探索
    a. 用于观察事物随时间线索变化的探索。
    b. 用于发现事物随时间周期变化规律的探索。

    3. 空间数据的探索
    空间数据探索主要是期望展现或者发现业务事件在地域分布上的规律,即区域模式。全球数据通常按照国家分类,而国内数据则按照省份去分类,对于省份数据则按照市、区分类,以此类推,逐步向细分层次下钻。空间数据探索最常用为等值热力图。

    4. 多元变量的探索
    数据探索过程中,有时候我们需要对比多个个体多个变量,从而寻找数据个体间的差异或者数据变量间的关系。在这种情况下,我们推荐使用散点图、气泡图,或者将多个简单图表组合生成“图矩阵”,通过对比“图矩阵”来进行多元变量的探索。其中,散点图和气泡图适合变量相对较少的场景,对于变量5个及以上的场景我们更多地是推荐“图矩阵”。

    5. 数据分布的探索
    探索数据的分布,能帮助我们了解数据的整体的区间分布、峰值以及谷值以及数据是否稳定等等。

    之前在分类数据探索阶段曾提到分类清晰的条形图在一定程度上向我们反映了数据的分布信息。但,之前我们是对类别做的条形图,更多时候我们是需查看数据“坐落区间”,这里我们推荐直方图以及直方图的变型密度曲线图(密度曲线图,上学时代学的正态分布就常用密度曲线图绘制)。此外,对数据分布探索有一个更为科学的图表类型,那就是:箱线图。

  5. 基于设备指纹的风控建模以及机器学习的尝试
    https://mp.weixin.qq.com/s/npM-7kK32xvjZ6ix7LsF0w

    设备指纹的采集有很多方式,但是我们主要关注以下几个方向:
    硬件环境 (cpu型号,主板型号,制造商等…)
    硬件运行的环境(充电,电量,罗盘等…)
    软件环境(系统版本,组件版本等…)
    软件运行的环境(内存,写入速度,运行速度等…)

    从4个方向共39个维度进行采集。因为需要兼容GDPR的要求,我们采集信息只有设备的特征以及运行的状态,通过这两大组的数据组合去判断这个设备是否是改机或者是场机,以此来对抗黑灰产,所以我们需要申请的权限有且仅一个:
    READ_PHONE_STATE

    我们拿到了非常多异常特征的值,启发了设备指纹的采集方向和思路,重新设计了设备指纹,把39维的采集维度扩增到80维,待重新采集一段时间后,再使用算法进行对设备指纹的数据重新建模。

    尽管在有数据的情况下,想着可以一步到位通过机器学习来建立一个比较好的模型,但实际上可能还是经验和特征不够的问题,导致建模的结果并不是特别的好,不过好在模型筛选出来的数据都比较有代表性,提供了设备指纹一些设计思路和方向,对于后续重新建模提供了基础的模板和方向。

  6. 产品经理如何进行竞品分析?
    https://www.zhihu.com/question/23601989

    问题1:你的目的是什么?你到底需要分析什么?
    问题2:我们该如何选择竞品?
    问题3:明确目的,选择好竞品后,该如何收集资料与信息?
    问题4:完成了信息收集,接下来到底要怎么在竞品间进行分析?

  7. 大数据不就是写SQL吗?
    https://mp.weixin.qq.com/s/1ynozlnLV-EChiAFcAqrUQ

    在哪里写SQL?

    这个问题高级点的问法是用哪种SQL引擎?
    SparkSQL、Hive、Phoenix、Drill、Impala、Presto、Druid、Kylin (这里的SQL引擎是广义的,大家不必钻牛角尖)

    我用一句话简单概括下这几个东西,先不管你们现在看不看得懂:
    Hive:把sql解析后用MapReduce跑
    SparkSQL:把sql解析后用Spark跑,比hive快点
    Phoenix:一个绕过了MapReduce运行在HBase上的SQL框架
    Drill/Impala/Presto:交互式查询OLAP,都是类似google Dremel的东西,区别这里就不说了
    Druid/Kylin:强调预计算,同样是OLAP

  8. 数据库从0到0.1 (二): OLTP VS OLAP VS HTAP
    https://blog.bcmeng.com/post/oltp-olap-htap.html

    OLTP是Online Transaction Processing的简称;OLAP是OnLine Analytical Processing的简称;HTAP是Hybrid Transactional/Analytical Processing的简称。Transaction是指形成一个逻辑单元,不可分割的一组读,写操作;Online一般指查询延迟在秒级或毫秒级,可以实现交互式查询。

    OLTP的查询一般只会访问少量的记录,且大多时候都会利用索引。在线的面向终端用户直接使用的Web应用:金融,博客,评论,电商等系统的查询都是OLTP查询,比如最常见的基于主键的CRUD操作。

    OLAP的查询一般需要Scan大量数据,大多时候只访问部分列,聚合的需求(Sum,Count,Max,Min等)会多于明细的需求(查询原始的明细数据)。 OLAP的典型查询一般像:现在各种应用在年末会发布的大数据分析和统计应用,比如2017豆瓣读书报告,2017豆瓣读书榜单,网易云音乐2017听歌报告; OLAP在企业中的一个重要应用就是BI分析,比如2017年最畅销的手机品牌Top5;哪类人群最喜欢小米或华为手机等等。

    OLTP的特点:
    · 专门用来做日常的,基本的操作
    · 任务由短的,原子的,隔离的事务组成
    · 处理的数据量在G级别
    · 重视一致性和可恢复性
    · 事务的吞吐量是关键性能指标
    · 最小化并发冲突

    OLAP的特点:
    · 专门用来做决策支持
    · 历史的,总结的,统一的数据比具体的,独立的数据更重要
    · 侧重于查询
    · 查询吞吐量和相应时间是关键性能指标

  9. 如何进行系统调研
    https://blog.bcmeng.com/post/system-research.html

    平台侧系统调研的原则
     个人认为我们平台侧进行系统调研时应该原理为主,测试为辅。(测试和原理一样都很重要,如同实验物理和理论物理一样,是相辅相成,不可分割的,但是在系统调研调研阶段我认为我们应该更侧重原理,调研时测试的目的应该是验证或纠正我们对系统原理的理解)。
    平台侧系统调研的步骤
     1、先通过系统官方文档,论文,公开资料,代码进行系统原理的调研,掌握系统的核心架构和原理;
     2、用该领域的标准测试集进行测试(比如OLAP领域的SSB和TPC-H测试);
     3、从以下方面进行考虑:
      运维管理成本
      开发成本
      社区的活跃度
      业务需求的紧迫性
      该系统离我们理想系统的距离和改造的成本
      该系统在大规模集群下的可能瓶颈和问题
      该系统的固有缺陷以及避免改缺陷的成本

    平台侧调研需要注意的问题
     文档是否详细?
     看代码时不要纠结于细节,带着目的去看。
    如何进行用户侧系统调研?
     目标系统在我们的需求场景下是否有成功案例?
     是否足够易用?
     性能和QPS是否能满足需求?
     是否可以提供SLA保证?

  10. Presto实现原理和美团的使用实践
    https://tech.meituan.com/presto.html

    Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师一直依靠Hive来做数据分析。但Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Facebook也调研了其他比Hive更快的工具,但它们要么在功能有所限制要么就太简单,以至于无法操作Facebook庞大的数据仓库。

    2012年开始试用的一些外部项目都不合适,他们决定自己开发,这就是Presto。

    Presto Overview
    https://prestodb.io/overview.html

    What is Presto or PrestoDB?
    https://amazonaws-china.com/cn/big-data/what-is-presto/

  11. 快手万亿级实时OLAP平台的建设与实践
    https://mp.weixin.qq.com/s/bKDtv892f4TJVV-JjW0vfQ

    1、快手 OLAP 平台概览
    2、快手使用 OLAP 的业务场景
    根据对用户调研的总结,我们对比了现在比较常用的 OLAP 技术。
    首先,Hive/SparkSQL 在数据仓库的领域应用是比较广泛的,但是因为查询时延很难能够满足毫秒到秒级的要求,同时因为是离线计算,数据时效性也比较差。
    其次,ES 是一个功能很强大的系统,在中等数据规模场景下能较好地满足需求,但是在万亿和更大的数据规模场景下,数据的写入性能和查询性能都遇到了很大的瓶颈。
    Kylin 和 Druid 功能比较类似,考虑到 Druid 采用 OLAP 架构,数据时效性相对于 Kylin 来讲会更好,数据的变更也相对更加灵活,所以最终选用 Druid 作为 OLAP 平台的查询引擎。
    3、Druid 系统概述
    Druid的查询性能非常好,总结来说主要是因为采用了如下五个技术点:数据的预聚合、列式存储、Bitmap索引、mmap、以及查询结果的中间缓存。下面针对两个点具体展开讲一下。
    首先讲下数据预聚合。Druid 会把一行数据消息分成三个部分,包括时间戳列、维度列以及指标列。所谓预聚合,就是当数据录入到 Druid 系统时,会按照一定的时间周期把原始数据做一次预先聚合,会根据一个全维度聚合出要计算的指标,也就是要索引的内容。后续所有的查询都是通过这些预聚合的中间结果做二次查询。
    接下来讲下 Bitmap 索引。Bitmap 索引主要为了加速查询时有条件过滤的场景。Druid 在生成索引文件的时候,对每个列的每个取值生成对应的 Bitmap 集合。如图上所示,Gender 为 Male 对应的 Bitmap 为“1001”,代表第 1 行和第 4 行的 Gender 为“Male”。举一个查询的例子,假设要筛选 Gender =‘Female’and City =‘Taiyuan’的数据,那么只需要把 Gender =‘Female’对应的 Bitmap “0110”和 Taiyuan 对应的 Bitmap “0101”进行与操作,得到结果为“0100”,代表第二行满足筛选条件。通过 Bitmap 可以快速定位要读取的数据,加速查询速度。
    4、Druid 在快手使用的经验以及一些主要改进点
    5、快手对 Druid 集群资源利用率的改进
    6、总结:快手对 Druid 的改进
    在性能提升方面,我们做了时序和维度两个层面的物化视图以及元数据方面的交互优化。在资源管理层面,实现了 Supervisor indexing task 的自动伸缩、Middler Manager 细粒度资源分配以及并行 Compaction。在稳定性层面,设计了 Broker 和 Historical 的隔离部署。在平台易用性层面,自研了数据源的管理系统、数据探针系统,以及引入 Superset 数据可视化平台。

  12. 越来越火的图数据库究竟是什么?
    https://mp.weixin.qq.com/s/oYjD9zCtj9BpCL5rfTGLHQ

    1.1 什么是图?
    图由两个元素组成: 节点和 关系。

    每个节点代表一个实体(人,地,事物,类别或其他数据),每个关系代表两个节点的关联方式。这种通用结构可以对各种场景进行建模 - 从道路系统到设备网络,到人口的病史或由关系定义的任何其他事物。

    1.2 什么是图数据库?
    图数据库(Graphdatabase)并非指存储图片的数据库,而是支持以 图这种数据结构存储和查询数据的数据库。

    图形数据库是一种在线数据库管理系统,具有处理图形数据模型的创建,读取,更新和删除(CRUD)操作。

    与其他数据库不同, 关系在图数据库中占首要地位。这意味着应用程序不必使用外键或带外处理(如MapReduce)来推断数据连接。

    与关系数据库或其他NoSQL数据库相比,图数据库的数据模型也更加简单,更具表现力。

    图形数据库是为与事务(OLTP)系统一起使用而构建的,并且在设计时考虑了事务完整性和操作可用性。

    1.3 两个重要属性
    根据存储和处理模型不同,市面上图数据库也有一些区分。

    比如: Neo4J就是属于原生图数据库,它使用的后端存储是专门为Neo4J这种图数据库定制和优化的,理论上说能更有利于发挥图数据库的性能。
    而 JanusGraph不是原生图数据库,而将数据存储在其他系统上,比如Hbase。

    ① 图存储
    一些图数据库使用 原生图存储,这类存储是经过优化的,并且是专门为了存储和管理图而设计的。并不是所有图数据库都是使用原生图存储,也有一些图数据库将图数据序列化,然后保存到关系型数据库或者面向对象数据库,或其他通用数据存储中。

    ② 图处理引擎
    原生图处理(也称为 无索引邻接)是处理图数据的最有效方法,因为连接的节点在数据库中物理地指向彼此。非本机图处理使用其他方法来处理CRUD操作。

  13. 细分十一步,助你构建完整的数据运营体系
    http://www.woshipm.com/operate/1987879.html

    数据运营是做什么的?个人的理解是:
    推动团队明确产品目标,定义产品数据指标,创建数据上报通道和规则流程,高效的推动实现数据需求,观测产品数据,做好数据预警,分析数据变化原因,根据分析结果进行产品迭代和运营,为产品决策提供依据,用数据驱动产品和组织成长,达成组织目标。

    通俗点说,数据运营搞清楚以下5个问题:
    1. 我们要做什么?——目标数据制订;
    2. 现状是什么?——行业分析,产品数据报表输出;
    3. 数据变化的原因?——数据预警,数据变化的原因分析;
    4. 未来会怎样?——数据预测;
    5. 我们应该做什么?——决策与数据的产品应用。

    第一步,制订产品目标
    第二步,定义产品数据指标
    第三步,构建产品数据指标体系
    第四步,提出产品数据需求
    第五步,上报数据
    第六-八步,数据采集与接入、存储、调度与运算
    第九步:获取数据
    第十步:观测和分析数据
    第十一步:产品评估与数据应用

  14. 四年长居美国最佳工作榜首,数据科学家到底是什么神仙工作?
    https://mp.weixin.qq.com/s?__biz=MzU4NTQ2MzQ1Nw==&mid=2247483733&idx=1&sn=355c15c26e44a5e56cfab1fefd973d2d

    数据科学,是将数据转化为洞察(insights),并基于这些洞察作出决策。

    具体的工作流程是什么?
    提出问题;
    数据获取;
    数据处理;
    探索性数据分析;
    建模;
    可视化报告;
    作出决策,构建数据产品;

    根据现在数据科学家的工作流程,要想成为一个称职的数据科学家,需要掌握以下的知识结构[8],分别是:
    计算机科学
    数学
    统计学
    机器学习
    领域知识
    数据可视化
    沟通技巧

  15. 给初/中级数据分析师的一些建议
    https://mp.weixin.qq.com/s/KWexZ_n8Q24uowDvKlOgZg

    正文:
    数据分析师的日常工作,简而言之,便是基于一堆数据,利用技术分析手段,通过各种维度的指标,描述某种现象或寻找特定规律。
    用一个成语形容,那便是抽丝剥茧,既是技术活儿,又是个细致活儿。
    因此,对数据分析师的要求也就不言而喻,既要懂得各种分析数据的技术和方法,同时又要非常小心谨慎,谨防犯错。因为基于错误的数据,可能得出错误的结论,从而导致错误的决策,造成重大损失。
    这样说来,想要做好这个工作,就必须要遵循一定的原则。不过,今天我们并不是要讲解如何避免犯错,而是站在一个全局的角度,聊聊如何培养比较好的思维习惯。
    如果具备了良好的思维习惯,那么犯错的几率也会大大降低。

    # 主题意识
    数据分析的核心在于提炼信息,总结知识,形成智慧。
    1.由点到线,由线及面
    2.带入主题背景思考问题
    3.以主题总结知识

    # 交付意识
    数据分析师的主要产物就是各种数据结果和报表,而这些产出往往蕴含的价值很大,与此同时如果出现错误,后果也会比较严重。因此我们应该有交付意识,把需求方当做是甲方,我们要对自己的交付物负责。
    1.对结果负责
    2.按时交付
    3.清单思维

    # 学习意识
    1.学习新技术,关注行业发展
    2.相互学习
    3.以输出倒逼输入

  16. 常见数据分析误区:不要让数据误导你!
    https://mp.weixin.qq.com/s/wmD4TRFPqMTHMe4nAXg2gg

    本文的主要受众为:已经工作两年左右的数据分析师,或者有意向进入这个行业的学生。
    本文会从统计学的角度,结合具体的业务示例,讲解工作中可能遇到的数据分析误区。

    1、需求不匹配
    2、指标不合理
    3、采集有偏差
    数据样本量不够
    存在选择性偏见或者幸存者偏见
    混入脏数据
    4、分析有错误
    5、推导不严谨

  17. 【知乎热文】数据分析师的出路在哪儿
    https://mp.weixin.qq.com/s/YiGG9Z6Q_ReWsJd_zlrihA

    出路,在每个行业都是一个热门话题:
    英语老师的出路在哪里,
    外贸跟单的出路在哪里,
    数据库工程师的出路在哪里,
    大前端全栈的出路在哪里。

    用数据及数据技术,为企业创造收益,变成了数据分析师的出路!
    回归企业创富的途径上来,辅以数据手段,看看数据分析师在每个阶段应该担任的责任和可能有创收点的机会。

    1. 没有数据
    2. 有数据,没统计
    3. 有数据,有统计,没分析
    4. 有数据,有统计,有分析,有决策 (具备商业结构思维)
    5. 冲击行业的影响力人物,成为研究领袖

  18. 面试大数据分析师,你需要掌握的基础技术栈。
    https://mp.weixin.qq.com/s/RtX-OAFwl86eBCMs2hNyHA

    本文主要面向的读者是在校计算机/软件相关专业想踏足大数据领域寻找相关实习机会的学生,以及刚工作1-2年想转大数据方向的同学。

    读完本文,你将收获大数据技术学习的基本方向,以及在面试前需要准备和复习的常见面试题。

    大数据分析师的日常工作流程大致如下:
    1.设计定义要收集的数据,并由数据收集系统完成收集;
    2.完成数据的预处理,将数据转化为结构化的数据;
    3.根据业务需求,对数据进行离线SQL分析或者实时分析得到相应的结果信息;
    4.将上述结果信息通过数据可视化工具呈现出来,通过对比分析其趋势或差异,推导出相应的结论。

    数据存储
      离线文件存储——HDFS
      关系型数据库——MySQL
      NoSQL型数据库——HBase
    数据分析
      离线数据分析——Hive、SparkSQL
      实时数据分析——Storm、Flink、SparkStreaming
    其它
      消息中间件——Kafka
      资源管理调度——Yarn
      数据可视化——Tableau

  19. 成为一名合格的数据科学家,做到以下几点就够了
    https://mp.weixin.qq.com/s/cJXzfL8hkAnxkOf7wxz5cg
    https://github.com/conordewey3/DS-Career-Resources

    1、掌握沟通的艺术
    这可能是所有文章中最受欢迎的建议。在数据科学中,沟通的重要性经常受到关注,并且有着充分的理由。如果您无法以某些方式传达洞察并驱动业务,那么努力从数据中获取洞察都是在做无用功。有效的沟通是一项技能,可以随着时间的推移不断练习和强化。

    2、建立稳固的统计基础
    无论是数据分析,机器学习,运行实验,还是更深奥的东西,都无法避免使用统计数据。花时间掌握基础的统计概念并建立坚实的统计基础将对这些问题起到很大帮助。

    3、保持怀疑 - 不断质疑你的假设
    作为数据科学家,无论我们对问题的了解程度如何,我们都会不断做出假设。这些假设可能与我们正在处理的数据或我们正在努力解决的问题有关,但它们需要受到质疑。通过对我们的产出保持某种程度的偏执可以确保走上正轨。这种技能通常与探索性的,以研究为导向的工作相关联,但比你想象的要适用得多。

    4、好奇心会带你走的更远 - 多提问
    与上一点类似,好奇也是值得的。好奇心可以引导您获得其他方面得不到的有趣见解。它促使你采用成长的心态并不断提出问题 - 这些问题在你学习和成长上起到的作用与工作本身一样多。

    5、把你的工作展示在世界面前(Github,博客等)
    这对我来说很重要。在我职业生涯的早期,我就了解到了在众人面前展示自己成果的好处。无论是通过博客文章,项目,推文还是其他东西 - 这都无关紧要。重要的是你要把东西展示了出来。下面的推文几乎总结了我对此的立场:

    6、使用您感兴趣的真实数据构建学习项目
    在学习项目时,请确保您对该主题感兴趣。这看起来非常简单,但是很多数据科学家都试图做出在潜在员工和同事看来最复杂或最令人印象深刻的项目。坚持您喜欢的并使用真实世界的数据,而不是超级干净的Kaggle或UCI数据集。也可以收集一些数据并构建自己的数据集。

    7、你永远都不会知道所有的事 - 但没关系
    很明显,数据科学是一个广泛而复杂的领域。花一整天的时间练习它,甚至还停留在表面上。总会有另一种要掌握的技术,另一种要学习的工具,以及另一种要阅读的论文。这就是骗子综合症与这个领域如此相关的原因。我发现这一点既令人沮丧又令人兴奋。。

    8、为问题挑选合适的工具并掌握如何使用
    你无法掌握每一个工具,并不意味着你不应该掌握某些工具。你每天的工作中可能大部分时间都在使用工具构建模块,比如R,SQL,Vim,Airflow,Scikit-learn。只要你认真学习你的关键工具就可以了。

    9、更多关键点
    效率优先
    学会正确估计任务所需时间
    思考你的关键路径
    与经验丰富的数据科学家合作
    教授和传播数据科学
    学习领域知识,而不仅仅是方法
    最重要的技能是批判性思维
    去参加活动 - 黑客马拉松,会议,沙龙
    学习相关技能,而不仅仅是技术技能
    ……

  20. Vol.03 nMeetup | 图数据库综述与 Nebula 在图数据库设计的实践
    https://zhuanlan.zhihu.com/p/77459312

    OLAP 更偏向于做离线分析,OLTP 更偏向于线上处理。

    图数据的常见多对多关系数据库场景:
    第一个 Social Network(社交网路),比如说微信或者 Facebook 好友关系等等。这个网络有几十亿个用户,几千亿到几万亿的连接关系。

    第二个 Business Relation,商业的关系,常见的有两种网络:金融与资金关系网络、公司关系。

    第三个是知识图谱,也是最近比较热的一个领域。在各个垂直领域会有不同的知识点,且知识点之间有相关性。

    图数据库的应用场景:
    第一个应用场景是基于社交关系网络的社交推荐,比如:拼多多的商品推荐,抖音的视频推荐,头条的内容推荐,都可以基于已有的好友关系来推荐。

    第二个就是风控领域,风控其实是银行保险业的核心话题。传统的风控是基于规则——基于规则的风控手段,相对已经比较成熟了,一般是拿直接的交易对手来做规则判断。但现在风控有个新趋势,就是通过关联关系做拓展,比如交易对手等相关的周边账号,通过这些关系来判断这笔交易或者转账的风险。从规则向基于关联关系的风控演进,这个趋势比较明显。

    图数据库面临的挑战:
    第一个挑战就是低延时。
    第二个挑战是高吞吐。
    第三个挑战是数据量激增。
    第四个挑战是分析的复杂性。
    最后一个挑战是关于数据一致性——当然还有很多其他挑战,这里没有全部罗列。

发表评论

电子邮件地址不会被公开。 必填项已用*标注