简单整理一下OLAP数据库的发展历程

=Start=

缘由：

之前在搜索和了解OLAP数据库发展历程的过程中瞥到了几句话，突然有点感想，随手记录一下，避免过会就忘了。具体的细节，可以参考最后面参考链接中的文章。

正文：

参考解答：

早期的OLAP大部分就是用被划分在OLTP的MySQL来实现的，后来在数据量急剧扩大了MySQL装不下了（或者说AP的实效太低或是因为AP的处理影响到了TP的工作）才有了专门的OLAP用来进行数据分析。

不过看Doris的一篇文章中提到【这是我们希望 Apache Doris 能够带给用户的价值，不再让用户在多套系统之间权衡，仅通过一个系统解决绝大部分问题，降低复杂技术栈带来的开发、运维和使用成本，最大化提升生产力。】，很多有理想的公司/团队都在希望一个产品解决所有问题（其它的还有TiDB和OceanBase等HTAP方向的选手）。

我们看见TiDB和OceanBase两大分布式数据库都在发力HTAP能力，虽然大家的技术方案完全不同，但是要解决的问题是相似的，HTAP核心是要同时具备TP和AP能力，并且AP不能影响TP的响应时间。TiDB使用了不同的引擎来解决OLTP和OLAP需求，通过内置的数据传输来解决数据同步问题。OceanBase与Oracle等传统数据库类似，使用了一套引擎来实现，没有数据同步问题，通过增强资源隔离能力来解决AP对TP的干扰。我感觉技术难度都非常大，TiDB的方案会更适合互联网公司，而OceanBase的方案更适合企业级市场。

HTAP能力在中小型系统（数据量不到TB级，数据采集来源单一）里是非常有竞争力，这也是很多企业使用了Oracle、SQLServer，在数据量还没有增长起来不需要建设数据仓库的原因。不管是企业日常运维还是简单BI分析，如果能在单一数据库里完成，对于业务软件研发效率和运维都是巨大的优势，很多商场、医院、工厂都是这么解决的，有些互联网早期产品也是不用AP发展起来的。

HTAP对于大型核心系统的价值在慢慢下降，核心原因是大型系统数据量大、并发高，所以资源隔离更加复杂，数据来源也有多个渠道甚至是多个供应商。所以企业使用单独的AP系统可以有更好的性价比，这样也能保障TP业务的稳定性。第二个原因是大型企业要具备更强大的数据分析挖掘能力，需要保留大量历史数据做趋势分析和预测，如果使用原始的TP或者HTAP，一份数据是很难满足的，所以更需要单独的AP系统。

我理解今天很多TP产品在增强AP能力是合理的，不管是在单一引擎做还是通过数据复制多种引擎做都是有价值，也是成长为未来企业核心数据库必须要具备的能力，但是也要看到企业大型场景使用单独AP是更合理的数据规划。

简单来说就是，如果你有2方面的需求，比如需求A和需求B，这2个需求依赖的能力是不同的，甚至在某些场景下是有冲突的（鱼和熊掌难以兼得），但实际情况是2方面都有需求，这个时候你应该怎么办？

方案一：选1个产品来同时满足2个需求
or
方案二：选多个产品分别满足不同的需求，在各自细分领域选取能力更强而非更通用的产品

方案一和方案二各有好处，方案一的好处在于统一，产品统一风格统一，学习成本更低，但很明显无法（或者很难）在各方面都做到顶尖；方案二的话各方面都可以选择顶尖产品，但是在需求A和需求B之间有沟通依赖的情况下，可能出现1+1<2的情况。

完美的方案是不存在的，只有适合的方案，（并且需要）不断迭代才能逐渐发展成适合自己的模样。

01-数据管理领域的分化

OLAP 背景由来

联机分析处理的概念最早由关系数据库之父E.F. Codd于1993年提出。Codd认为，联机事务处理已不能满足终端用户对数据库查询分析的要求，SQL对大容量数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量的计算才能得到结果，而查询的结果并不能满足决策者提出的需求。

因此，Codd提出了多维数据库和多维分析的概念，即OLAP（Online analytical processing）。OLAP委员会对联机分析处理的定义为：使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互的存取，从而获得对数据更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求，它的技术核心是“维”这个概念，因此OLAP也可以说是多维数据分析工具的集合。

海量、实时、支持演进的新需求

随着互联网、电商和移动互联网等行业的兴起，数据规模越来越来大，分析洞察需求越来越精细化，激烈市场环境下的决策要求数据具有更高的时效性，不同于早期的技术，新时期的OLAP技术也呈现快速的迭代进化。

早期的报表系统，通过MapReduce计算出统计结果并存储在MySQL中，这个架构有两个局限，其一是MySQL单表存储能力有限只能保存有限的维度组合，数据量大时需要分库分表，其二是只能处理离线或微批准实时的数据，无法实时统计数据。

为了解决维度组合存储的问题，一种新的解决方案是把维度的组合作为Key、指标作为Value存储在KV引擎如HBase中，这样就让维度的数量大大增加，但是也无法支持更多的维度，因为维度的增加会导致维度组合量的成倍的增长，出现维度爆炸的问题。

为了解决海量数据实时查询的问题，Druid和ElasticSearch出现了，通过增量追加、实时聚合、索引、位图等技术，把数据的新鲜度从几十分钟提升到秒级。

另一个问题是维度和指标需要支持演进，比如为了适应业务新的变化，需要在原来的维度基础之上，增加新的采集维度，或者调整计算口径；另一种情况是维度字典表发生变化，比如组织架构调整后，需要把历史数据按照新的维度来计算。

为了解决维度爆炸、实时查询以及模型演进的问题，一种新架构的OLAP出现了，整合了列存、MVCC、物化视图的向量化执行引擎的MPP架构，解决海量数据、实时分析的需求，同时支持表结构的演进，其中以ClickHouse和Doris为代表。

02-Hadoop&数据库蓬勃发展

谈到新时期的OLAP的演化，就不得不提Hadoop的生态，以Google三驾马车的论文发表为代表，Hadoop开源生态得到蓬勃发展。数据存储在HDFS中，Hive进行数据结构的管理并支持SQL，处理引擎由MapReduce升级为Spark，实时流从Storm升级为Spark Streaming和Flink，非结构化的音视频和网页存储在HBase中，同时搭配分布式一致性组件ZooKeeper，数据管道Kafka，调度Yarn等，各类组件百花齐放，组件的升级迭代非常迅速。数据计算链路以Lambda和Kappa架构最为典型，离线以HDFS为存储Spark为处理引擎，输出结果存在OLAP中；实时以Kafka为管道，Flink为处理引擎，输出结果存储在OLAP中。而OLAP承接了大数据处理引擎的写入，并支持上层数据应用的查询，处在一个较为核心的位置。

而在数据库领域，为了简化数据摄入和ETL的过程，同时发挥行存和列存的优势，也提出了HTAP的概念。HTAP就是把OLTP和OLAP的优势结合起来，弥补了OLAP的一些不足，如行存引擎能支持高频写入，同时支持高并发的查询单条明细数据。在减少ETL复杂度方面，内置的数据同步能力，在小规模数据量和中低复杂度的业务场景中完全足够。国内数据库也在快速发展中，如阿里的OceanBase和PingCAP的TiDB。

实时 Druid

搜索技术 Elasticsearch

预聚合 Kylin

简单易用 Doris/StarRocks

功能强悍 ClickHouse

总结和建议

上面几个引擎简单介绍完了，如果之前没有使用过OLAP引擎，推荐大家试试Doris/StarRocks，这两款引擎门槛低、场景适应性好，如动手能力强可以尝试ClickHouse，而ElasticSearch更适合全文检索的场景，Kylin适合离线预聚合场景，看看所选的引擎是否能覆盖上面几个问题的场景。

如果已经用了以上某款或其他引擎，也大可不必急于切换其他引擎，深入挖掘这款引擎的潜力，等有痛点需求满足不了，综合权衡之后再决定是否切换或迁移。另外选型时，也应当考虑社区活跃度和成熟度，避免遇到问题时找不到技术支持，最后，选型应该亲自安装部署并用实际的场景去测试。

最后我再提醒一下，多维分析技术在公司内全面成功实施，运维和运营非常重要，大部分问题来自错误使用或不当的运维方式。

参考链接：

olap 的发展历程
https://scholar.google.com/scholar?q=olap+%E7%9A%84%E5%8F%91%E5%B1%95%E5%8E%86%E7%A8%8B&hl=zh-CN&as_sdt=0&as_vis=1&oi=scholart
https://www.jos.org.cn/jos/article/pdf/5649

京东李海波：OLAP关键技术演进思考
https://mp.weixin.qq.com/s/ORPob1cGRjKCMeupb-bgDw

2023，数据库发展展望
https://cloud.tencent.com/developer/article/2213288

十年对于数据库意味着什么？
https://doris.apache.org/zh-CN/blog/summit/

2023年数据库行业研究报告
https://www.21jingji.com/article/20230217/herald/ba44b80145c6592f8b18e97eb261c772.html

PingCAP 黄东旭万字长文剖析数据库发展新趋势：脱离应用开发者的数据库，不会成功
https://tidb.net/book/tidb-monthly/2023/2023-01/feature-indepth/tidb-db-development-ed-huang

数仓黄金价值圈: 为什么、是什么、怎么做｜社区征文
https://developer.volcengine.com/articles/7062616332591693837

数仓进阶篇@记一次BigData-OLAP分析引擎演进思考过程 | 社区征文
https://developer.volcengine.com/articles/7173999891943800846
https://mp.weixin.qq.com/s/R5dp4Ima5X83fpNReb3rvQ

浅谈 HTAP 混合技术和金融业应用场景
https://tidb.net/book/tidb-monthly/2023/2023-02/usercase/a-brief-discussion-on-htap-and-finance-application-scenarios

贝壳 OLAP 平台架构演进
https://www.infoq.cn/article/qgvyuf9kl4wljio8ufvy
https://mp.weixin.qq.com/s/H0KzKtwiD8u3YId4HJmemg

数据分析的技术源流
https://aws.amazon.com/cn/blogs/china/the-technical-origin-of-data-analysis/

MPP database (massively parallel processing database)
https://www.techtarget.com/searchdatamanagement/definition/MPP-database-massively-parallel-processing-database

=END=

12 8 月, 2023

Docker

Database, KnowledgeBase

Doris, HTAP, OceanBase, OLAP, OLTP, TiDB, 数据库