从Clickhouse迁移到Doris 数据仓库性能大提升

<<返回上一页

发布时间：2024-11-15 04:39:41点击：

从一个OLAP数据库迁移到另一个数据库是一项艰巨的工程。即使能找到一些有用的数据工具，您可能仍会犹豫是否对数据架构进行大手术，因为不确定如何运作。

本文分享如何从ClickHouse迁移到Doris的过程，包括为什么需要更改，需要注意什么以及如何比较两个数据库在各自环境中的性能。

这里有一家电子商务SaaS提供商，其数据系统提供实时和离线报告、客户分割和日志分析服务。最初，他们为这些不同的目的使用了不同的OLAP引擎：

这三个组件都有各自的痛点：

由于它们共同工作，这种架构可能太难以导航，因为它需要在开发、监控和维护方面了解所有这些组件。此外，每次用户扩展集群时，他们必须停止当前集群并迁移所有数据库和表，这不仅是一个巨大的任务，而且会对业务造成巨大的干扰。

Apache Doris填补了这些空白。

因此，计划进行迁移。

ClickHouse是旧数据架构中的主要性能瓶颈，也是最初想要进行更改的原因，因此从ClickHouse开始。

表创建语句

这里构建了自己的SQL重写工具，可以将ClickHouse表创建语句转换为Doris表创建语句。该工具可以自动执行以下更改：

查询语句

同样，也有工具可以将ClickHouse查询语句转换为Doris查询语句。这是为了准备ClickHouse和Doris之间的比较测试。转换中的关键考虑因素包括：

Apache Doris提供了广泛的数据写入方法。对于实时链接，采用Stream Load从NSQ和Kafka摄取数据。

对于大型离线数据，测试了不同的方法，以下是结论：

Spark-Doris-Connector是一种更通用的方法。它可以处理大量数据并确保写入稳定性。关键是找到正确的写入速度和并行性。

Spark-Doris-Connector还支持Bitmap。它允许您将Bitmap数据的计算工作负载移动到Spark集群中。

Spark-Doris-Connector和Flink-Doris-Connector都依赖于Stream Load。CSV是推荐的格式选择。用户的数十亿行测试表明，CSV比JSON快40%。

Spark Load方法利用Spark资源进行数据洗牌和排名。计算结果放在HDFS中，然后Doris直接从HDFS读取文件（通过Broker Load）。这种方法非常适合大规模数据摄入。数据越多，摄入速度越快，资源利用率越高。

这里比较了两个组件在SQL和连接查询方案上的性能，并计算了Apache Doris的CPU和内存消耗。

Apache Doris在16个SQL查询中的10个中表现优于ClickHouse，最大的性能差距比例接近30。总体而言，Apache Doris比ClickHouse快2~3倍。

对于连接查询测试，使用了不同大小的主表和维表。

测试包括完全连接查询和过滤连接查询。完全连接查询连接主表和维表的所有行，而过滤连接查询使用过滤器检索特定卖家ID的数据。结果如下：

主表（40亿行）：

主表（250亿行）：

主表（960亿行）：

Doris在所有查询中都表现出相对较快的性能，而ClickHouse无法执行所有查询。

在CPU和内存消耗方面，Apache Doris在所有大小的连接查询中都保持稳定的集群负载。