[read]ClickHouse原理解析与应用实践

=Start=

缘由：

之前总是用Hive/Presto做离线分析，现在要用ClickHouse了，之前只是听说过但没用过，不太懂，所以买本书来了解学习一下。

正文：

参考解答：

推荐序一 <*>
推荐序二
推荐序三
推荐序四
推荐序五
赞誉
前言 <*>

第1章　ClickHouse的前世今生 <*>

1.1　传统BI系统之殇
1.2　现代BI系统的新思潮
1.3　OLAP常见架构分类
1.4　OLAP实现技术的演进
1.5　一匹横空出世的黑马
1.5.1　天下武功唯快不破
1.5.2　社区活跃
1.6　ClickHouse的发展历程
1.6.1　顺理成章的MySQL时期
1.6.2　另辟蹊径的Metrage时期
1.6.3　自我突破的OLAPServer时期
1.6.4　水到渠成的ClickHouse时代
1.7　ClickHouse的名称含义
1.8　ClickHouse适用的场景
1.9　ClickHouse不适用的场景
1.10　有谁在使用ClickHouse
1.11　本章小结

第2章　ClickHouse架构概述 <*>

2.1　ClickHouse的核心特性
2.1.1　完备的DBMS功能
2.1.2　列式存储与数据压缩
2.1.3　向量化执行引擎
2.1.4　关系模型与SQL查询
2.1.5　多样化的表引擎
2.1.6　多线程与分布式
2.1.7　多主架构
2.1.8　在线查询
2.1.9　数据分片与分布式查询
2.2　ClickHouse的架构设计
2.2.1　Column与Field
2.2.2　DataType
2.2.3　Block与Block流
2.2.4　Table
2.2.5　Parser与Interpreter
2.2.6　Functions 与Aggregate Functions
2.2.7　Cluster与Replication
2.3　ClickHouse为何如此之快
2.3.1　着眼硬件，先想后做
2.3.2　算法在前，抽象在后
2.3.3　勇于尝鲜，不行就换
2.3.4　特定场景，特殊优化
2.3.5　持续测试，持续改进
2.4　本章小结

第3章　安装与部署

3.1　ClickHouse的安装过程
3.1.1　环境准备
3.1.2　安装ClickHouse
3.2　客户端的访问接口
3.2.1　CLI
3.2.2　JDBC
3.3　内置的实用工具
3.3.1　clickhouse-local
3.3.2　clickhouse-benchmark
3.4　本章小结

第4章　数据定义

4.1　ClickHouse的数据类型
4.1.1　基础类型
4.1.2　复合类型
4.1.3　特殊类型
4.2　如何定义数据表
4.2.1　数据库
4.2.2　数据表
4.2.3　默认值表达式
4.2.4　临时表
4.2.5　分区表
4.2.6　视图
4.3　数据表的基本操作
4.3.1　追加新字段
4.3.2　修改数据类型
4.3.3　修改备注
4.3.4　删除已有字段
4.3.5　移动数据表
4.3.6　清空数据表
4.4　数据分区的基本操作
4.4.1　查询分区信息
4.4.2　删除指定分区
4.4.3　复制分区数据
4.4.4　重置分区数据
4.4.5　卸载与装载分区
4.4.6　备份与还原分区
4.5　分布式DDL执行
4.6　数据的写入
4.7　数据的删除与修改
4.8　本章小结

第5章　数据字典

5.1　内置字典
5.1.1　内置字典配置说明
5.1.2　使用内置字典
5.2　外部扩展字典
5.2.1　准备字典数据
5.2.2　扩展字典配置文件的元素组成
5.2.3　扩展字典的数据结构
5.2.4　扩展字典的类型
5.2.5　扩展字典的数据源
5.2.6　扩展字典的数据更新策略
5.2.7　扩展字典的基本操作
5.3　本章小结

第6章　MergeTree原理解析

6.1　MergeTree的创建方式与存储结构
6.1.1　MergeTree的创建方式
6.1.2　MergeTree的存储结构
6.2　数据分区
6.2.1　数据的分区规则
6.2.2　分区目录的命名规则
6.2.3　分区目录的合并过程
6.3　一级索引
6.3.1　稀疏索引
6.3.2　索引粒度
6.3.3　索引数据的生成规则
6.3.4　索引的查询过程
6.4　二级索引
6.4.1　granularity与index_granularity的关系
6.4.2　跳数索引的类型
6.5　数据存储
6.5.1　各列独立存储
6.5.2　压缩数据块
6.6　数据标记
6.6.1　数据标记的生成规则
6.6.2　数据标记的工作方式
6.7　对于分区、索引、标记和压缩数据的协同总结
6.7.1　写入过程
6.7.2　查询过程
6.7.3　数据标记与压缩数据块的对应关系
6.8　本章小结

第7章　MergeTree系列表引擎

7.1　MergeTree
7.1.1　数据TTL
7.1.2　多路径存储策略
7.2　ReplacingMergeTree
7.3　SummingMergeTree
7.4　AggregatingMergeTree
7.5　CollapsingMergeTree
7.6　VersionedCollapsingMergeTree
7.7　各种MergeTree之间的关系总结
7.7.1　继承关系
7.7.2　组合关系
7.8　本章小结

第8章　其他常见类型表引擎

8.1　外部存储类型
8.1.1　HDFS
8.1.2　MySQL
8.1.3　JDBC
8.1.4　Kafka
8.1.5　File
8.2　内存类型
8.2.1　Memory
8.2.2　Set
8.2.3　Join
8.2.4　Buffer
8.3　日志类型
8.3.1　TinyLog
8.3.2　StripeLog
8.3.3　Log
8.4　接口类型
8.4.1　Merge
8.4.2　Dictionary
8.4.3　Distributed
8.5　其他类型
8.5.1　Live View
8.5.2　Null
8.5.3　URL
8.6　本章小结

第9章　数据查询 <*>

9.1　WITH子句
9.2　FROM子句
9.3　SAMPLE子句
9.4　ARRAY JOIN子句
9.5　JOIN子句
9.5.1　连接精度
9.5.2　连接类型
9.5.3　多表连接
9.5.4　注意事项
9.6　WHERE与PREWHERE子句
9.7　GROUP BY子句
9.7.1　WITH ROLLUP
9.7.2　WITH CUBE
9.7.3　WITH TOTALS
9.8　HAVING子句
9.9　ORDER BY子句
9.10　LIMIT BY子句
9.11　LIMIT子句
9.12　SELECT子句
9.13　DISTINCT子句
9.14　UNION ALL子句
9.15　查看SQL执行计划
9.16　本章小结

第10章　副本与分片

10.1　概述
10.2　数据副本
10.2.1　副本的特点
10.2.2　ZooKeeper的配置方式
10.2.3　副本的定义形式
10.3　ReplicatedMergeTree原理解析
10.3.1　数据结构
10.3.2　副本协同的核心流程
10.4　数据分片
10.4.1　集群的配置方式
10.4.2　基于集群实现分布式DDL
10.5　Distributed原理解析
10.5.1　定义形式
10.5.2　查询的分类
10.5.3　分片规则
10.5.4　分布式写入的核心流程
10.5.5　分布式查询的核心流程
10.6　本章小结

第11章　管理与运维

11.1　用户配置
11.1.1　用户profile
11.1.2　配置约束
11.1.3　用户定义
11.2　权限管理
11.2.1　访问权限
11.2.2　查询权限
11.2.3　数据行级权限
11.3　熔断机制
11.4　数据备份
11.4.1　导出文件备份
11.4.2　通过快照表备份
11.4.3　按分区备份
11.5　服务监控
11.5.1　系统表
11.5.2　查询日志
11.6　本章小结

前言

生生不息，“折腾”不止。为什么新的技术层出不穷，一直会更替变换？因为人们总是乐于追求更加美好的事物，因此业务总会产生新的诉求。

在软件领域，技术与业务犹如一对不可拆分的双轨车道，承载着产品这辆火车稳步向前。一方面，业务的诉求必须得到满足，所以它倒逼技术提升；另一方面，技术的提升又为业务模式带来了新的可能。

第1章　ClickHouse的前世今生

Google于2003～2006年相继发表了三篇论文“Google File System”“Google MapReduce”和“Google Bigtable”，将大数据的处理技术带进了大众视野。2006年开源项目Hadoop的出现，标志着大数据技术普及的开始，大数据技术真正开始走向普罗大众。

【IT系统从无到有】得益于IT技术的迅猛发展，各行各业开始置办IT系统以提高效率。
【烟囱式发展——互不相通】早期发展没考虑太多，多呈烟囱式发展，数据散落在各个独立的系统之内，相互割裂、互不相通。
【引入数据仓库】为了解决数据孤岛的问题，人们提出了数据仓库的概念。即通过引入一个专门用于分析类场景的数据库，将分散的数据统一汇聚到一处。
【BI概念的诞生】于20世纪90年代，有人第一次提出了BI（商业智能）系统的概念。自此以后，人们通常用BI一词指代这类分析系统。相对于联机事务处理系统，我们把这类BI系统称为联机分析（OLAP）系统。
【传统BI系统的设计想法很美好，实际应用场景和效果却有限】原因很多在此不赘述。
【技术创新让部分想法可落地】2003年起，Google陆续发表的三篇论文开启了大数据的技术普惠，Hadoop生态由此开始一发不可收拾，数据分析开启了新纪元。
【ClickHouse的横空出世让BI产品的选型又多了一个选择】天下武功唯快不破。

1.8　ClickHouse适用的场景

可以说ClickHouse具备了人们对一款高性能OLAP数据库的美好向往，所以它基本能够胜任各种数据分析类的场景，并且随着数据体量的增大，它的优势也会变得越为明显。

ClickHouse非常适用于商业智能领域（也就是我们所说的BI领域），除此之外，它也能够被广泛应用于广告流量、Web、App流量、电信、金融、电子商务、信息安全、网络游戏、物联网等众多其他领域。

1.9　ClickHouse不适用的场景

ClickHouse作为一款高性能OLAP数据库，虽然足够优秀，但也不是万能的。我们不应该把它用于任何OLTP事务性操作的场景，因为它有以下几点不足。

·不支持事务。
·不擅长根据主键按行粒度进行查询（虽然支持），故不应该把ClickHouse当作Key-Value数据库使用。
·不擅长按行删除数据（虽然支持）。

这些弱点并不能视为ClickHouse的缺点，事实上其他同类高性能的OLAP数据库同样也不擅长上述的这些方面。因为对于一款OLAP数据库而言，上述这些能力并不是重点，只能说这是为了极致查询性能所做的权衡。

参考链接：

ClickHouse原理解析与应用实践
https://book.douban.com/subject/35091211/
https://github.com/nauu/clickhousebook

《clickhouse原理解析与应用实践》读书笔记
https://blog.csdn.net/lonelymanontheway/article/details/108181649

https://clickhouse.tech/#quick-start

https://clickhouse.tech/docs/zh/

ClickHouse大数据分析技术与实战
https://www.jianshu.com/p/560bb382f91a

ClickHouse深度解析
https://www.cnblogs.com/zfwwdz/p/13151727.html

=END=

23 9 月, 2020

Docker

Database, KnowledgeBase

ClickHouse, ETL, Hive, OLAP, OLTP, 数据分析