大数据生态

=Start=

缘由:

虽然之前因为大量日志安全分析、处理的原因,已经实际用过Hadoop MapReduce、Storm、Hive、Presto等大数据工具,但毕竟不是专门做大数据相关工作的,而且现在大数据的发展速度也快,所以也经常对一些名词是云里雾里的——不甚明白,因此一直想找机会大致系统的了解一下,也不希望多么精深,只希望不落后于这个时代就行。

正文:

参考解答:
理论基础:
  • 《Google File System》:论述了怎样借助普通机器有效的存储海量的大数据;(HDFS是对应的开源实现)
  • 《Google MapReduce》:论述了怎样快速计算海量的数据;(Hadoop MapReduce是其对应的开源实现)
  • 《Google BigTable》:论述了怎样实现海量数据的快速查询;(HBase是其对应的开源实现)
要解决的核心问题:
  • 存储,海量的数据怎样有效的存储?主要包括HDFS;
  • 计算,海量的数据怎样快速计算?主要包括MapReduce、Storm、Spark、Flink等;
  • 查询,海量数据怎样快速查询?主要为NoSQL和OLAP,NoSQL主要包括HBase、 Cassandra等,其中OLAP包括Kylin、Impla等,其中NoSQL主要解决随机查询,OLAP技术主要解决关联查询;
  • 挖掘,海量数据怎样挖掘出隐藏的知识?也就是当前火热的机器学习和深度学习等技术,包括TensorFlow、Caffe、Mahout等;
一图流:

数据存储、资源管理调度、离线批处理、数据仓库、实时流处理、键值查询、数据挖掘、一些功能组件(ZooKeeper、Kafka、……)

参考链接:

=END=

声明: 除非注明,ixyzero.com文章均为原创,转载请以链接形式标明本文地址,谢谢!
https://ixyzero.com/blog/archives/3743.html

《大数据生态》上有23条评论

  1. 大数据(big data):基础概念
    https://zhuanlan.zhihu.com/p/33619503

    4. “大数据(big data)“的定义——6个”V”

    我们通过6个维度来定义什么是"大数据",这个维度的英文单词都是由字母"V"开头,所以也可以简记为6个“V”。分别是:Volume(规模)、Velocity(速度)、Variety(多样)、Veracity(质量)、Valence(连接)、Value(价值)

    Volume(规模):指的是每天产生的海量数据
    Velocity(速度):指的是数据产生的速度越来越快
    Variety(多样):指的是数据格式的多样性,例如文本、语音、图片等
    Veracity(质量):指的是数据的质量差别可以非常大
    Valence(连接):指的是大数据之间如何产生联系
    Value(价值):数据处理可以带来不同寻常的洞见进而产生价值

  2. 浅谈大数据平台基建的逻辑
    http://gigix.thoughtworkers.org/2018/3/16/infrastructure-of-big-data/

    接入层(Landing):以和源系统相同的结构暂存原始数据。有时被称为“贴源层”或ODS。
    整合层(Integration):持久存储整合后的企业数据,针对企业信息实体和业务事件建模,代表组织的“唯一真相来源”。有时被称为“数据仓库”。
    表现层(Presentation):为满足最终用户的需求提供可消费的数据,针对商业智能和查询性能建模。有时被称为“数据集市”。
    语义层(Semantic):提供数据的呈现形式和访问控制。例如某种报表工具。
    终端用户应用(End-user applications):使用语义层的工具,将表现层数据最终呈现给用户,包括仪表板、报表、图表等多种形式。
    元数据(Metadata):记录各层数据项的定义(Definitions)、血缘(Genealogy)、处理过程(Processing)。

  3. 技术资源推荐(数据仓库篇)
    http://www.mdjs.info/2018/03/21/data-warehouse/data-warehouse-resources/

    1. 0x00 前言
    2. 0x01 书籍推荐
      2.1. 一、数据仓库工具箱(第3版):维度建模权威指南
      2.2. 二、数据仓库(原书第4版)
      2.3. 三、数据挖掘:概念与技术(原书第3版)
      2.4. 四、大数据之路:阿里巴巴大数据实践
      2.5. 五、大数据日知录
    3. 0xFF 总结

  4. 常用的几种大数据架构剖析
    https://insights.thoughtworks.cn/common-big-data-infrastructure/

    总的来说,目前围绕Hadoop体系的大数据架构大概有以下几种:

    传统大数据架构
    流式架构
    Lambda架构(Lambda的数据通道分为两条分支:实时流和离线。)
    Kappa架构(将实时和流部分进行了合并,将数据通道以消息队列进行替代。)
    Unifield架构(将机器学习和数据处理揉为一体,从核心上来说,Unifield依旧以Lambda为主,不过对其进行了改造,在流处理层新增了机器学习层。)

  5. 模式识别、机器学习傻傻分不清?给我三分钟!
    https://mp.weixin.qq.com/s/rzhrjG0B40-Ml9vkuiTpMw

    AI元老——模式识别
    那什么是模式识别?它指的是,对表征事物或现象的各种形式的信息进行处理和分析,从而达到对事物或现象进行描述、辨认、分类和解释的目的。

    AI大众情人——机器学习
    不同于模式识别中人类主动去描述某些特征给机器,机器学习可以这样理解:机器从已知的经验数据(样本)中,通过某种特定的方法(算法),自己去寻找提炼(训练/学习)出一些规律(模型);提炼出的规律就可以用来判断一些未知的事情(预测)。

    https://www.zhihu.com/question/38106452/answer/211218782
    http://blog.csdn.net/feichizhongwu888/article/details/52727958
    https://www.cnblogs.com/muchen/p/5434359.html#_label0

  6. 自底向上——知识图谱构建技术初探
    https://www.anquanke.com/post/id/149122

    “The world is not made of strings , but is made of things.” ——辛格博士,from Google.

    知识图谱,是结构化的语义知识库,用于迅速描述物理世界中的概念及其相互关系,通过将数据粒度从document级别降到data级别,聚合大量知识,从而实现知识的快速响应和推理。

    1-定义
    2-数据类型和存储方式
    3-知识图谱的架构
    3.1-逻辑架构
    3.2-技术架构
    4-构建技术
    4.1-信息抽取
    4.1.1-实体抽取
    4.1.2-关系抽取
    4.1.3-属性抽取
    4.2-知识融合
    4.2.1-实体链接
    4.2.2-知识合并
    4.3-知识加工
    4.3.1-本体构建
    4.3.2-知识推理
    4.3.3-质量评估
    4.4-知识更新
    5-知识图谱的应用
    智能搜索——也是知识图谱最成熟的一个场景,自动给出搜索结果和相关人物;
    不一致性验证(类似交叉验证)——关系推理;
    异常分析(运算量大,一般离线);

  7. HIVE中get_json_object与json_tuple使用
    https://blog.csdn.net/sinat_29508201/article/details/50215351

    Hive JSON数据处理的一点探索
    https://www.cnblogs.com/yurunmiao/p/4728285.html

    Hive get_json_object用法
    https://sjq597.github.io/2015/11/05/Hive-get-json-object%E7%94%A8%E6%B3%95/

    # 取内容为json字符串格式的 content 列的 status 字段的值
    select get_json_object(content,'$.status') from test limit 1;

    Hive 中的复合数据结构简介以及一些函数的用法说明
    https://my.oschina.net/leejun2005/blog/120463

发表评论

电子邮件地址不会被公开。 必填项已用*标注