大数据生态

=Start=

缘由:

虽然之前因为大量日志安全分析、处理的原因,已经实际用过Hadoop MapReduce、Storm、Hive、Presto等大数据工具,但毕竟不是专门做大数据相关工作的,而且现在大数据的发展速度也快,所以也经常对一些名词是云里雾里的——不甚明白,因此一直想找机会大致系统的了解一下,也不希望多么精深,只希望不落后于这个时代就行。

正文:

参考解答:
理论基础:
  • 《Google File System》:论述了怎样借助普通机器有效的存储海量的大数据;(HDFS是对应的开源实现)
  • 《Google MapReduce》:论述了怎样快速计算海量的数据;(Hadoop MapReduce是其对应的开源实现)
  • 《Google BigTable》:论述了怎样实现海量数据的快速查询;(HBase是其对应的开源实现)
要解决的核心问题:
  • 存储,海量的数据怎样有效的存储?主要包括HDFS;
  • 计算,海量的数据怎样快速计算?主要包括MapReduce、Storm、Spark、Flink等;
  • 查询,海量数据怎样快速查询?主要为NoSQL和OLAP,NoSQL主要包括HBase、 Cassandra等,其中OLAP包括Kylin、Impla等,其中NoSQL主要解决随机查询,OLAP技术主要解决关联查询;
  • 挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、Caffe、Mahout等;
一图流:

数据存储、资源管理调度、离线批处理、数据仓库、实时流处理、键值查询、数据挖掘、一些功能组件(ZooKeeper、Kafka、……)

参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/3743.html

《大数据生态》上有17条评论

  1. 大数据(big data):基础概念
    https://zhuanlan.zhihu.com/p/33619503

    4. “大数据(big data)“的定义——6个”V”

    我们通过6个维度来定义什么是"大数据",这个维度的英文单词都是由字母"V"开头,所以也可以简记为6个“V”。分别是:Volume(规模)、Velocity(速度)、Variety(多样)、Veracity(质量)、Valence(连接)、Value(价值)

    Volume(规模):指的是每天产生的海量数据
    Velocity(速度):指的是数据产生的速度越来越快
    Variety(多样):指的是数据格式的多样性,例如文本、语音、图片等
    Veracity(质量):指的是数据的质量差别可以非常大
    Valence(连接):指的是大数据之间如何产生联系
    Value(价值):数据处理可以带来不同寻常的洞见进而产生价值

  2. 浅谈大数据平台基建的逻辑
    http://gigix.thoughtworkers.org/2018/3/16/infrastructure-of-big-data/

    接入层(Landing):以和源系统相同的结构暂存原始数据。有时被称为“贴源层”或ODS。
    整合层(Integration):持久存储整合后的企业数据,针对企业信息实体和业务事件建模,代表组织的“唯一真相来源”。有时被称为“数据仓库”。
    表现层(Presentation):为满足最终用户的需求提供可消费的数据,针对商业智能和查询性能建模。有时被称为“数据集市”。
    语义层(Semantic):提供数据的呈现形式和访问控制。例如某种报表工具。
    终端用户应用(End-user applications):使用语义层的工具,将表现层数据最终呈现给用户,包括仪表板、报表、图表等多种形式。
    元数据(Metadata):记录各层数据项的定义(Definitions)、血缘(Genealogy)、处理过程(Processing)。

  3. 技术资源推荐(数据仓库篇)
    http://www.mdjs.info/2018/03/21/data-warehouse/data-warehouse-resources/

    1. 0x00 前言
    2. 0x01 书籍推荐
      2.1. 一、数据仓库工具箱(第3版):维度建模权威指南
      2.2. 二、数据仓库(原书第4版)
      2.3. 三、数据挖掘:概念与技术(原书第3版)
      2.4. 四、大数据之路:阿里巴巴大数据实践
      2.5. 五、大数据日知录
    3. 0xFF 总结

  4. 常用的几种大数据架构剖析
    https://insights.thoughtworks.cn/common-big-data-infrastructure/

    总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:

    传统大数据架构
    流式架构
    Lambda架构(Lambda的数据通道分为两条分支:实时流和离线。)
    Kappa架构(将实时和流部分进行了合并,将数据通道以消息队列进行替代。)
    Unifield架构(将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。)

  5. 模式识别、机器学习傻傻分不清?给我三分钟!
    https://mp.weixin.qq.com/s/rzhrjG0B40-Ml9vkuiTpMw

    AI元老——模式识别
    那什么是模式识别?它指的是,对表征事物或现象的各种形式的信息进行处理和分析,从而达到对事物或现象进行描述、辨认、分类和解释的目的。

    AI大众情人——机器学习
    不同于模式识别中人类主动去描述某些特征给机器,机器学习可以这样理解:机器从已知的经验数据(样本)中,通过某种特定的方法(算法),自己去寻找提炼(训练/学习)出一些规律(模型);提炼出的规律就可以用来判断一些未知的事情(预测)。

    https://www.zhihu.com/question/38106452/answer/211218782
    http://blog.csdn.net/feichizhongwu888/article/details/52727958
    https://www.cnblogs.com/muchen/p/5434359.html#_label0

发表评论

电子邮件地址不会被公开。 必填项已用*标注