从Clickhouse迁移到Doris 数据仓库性能大提升
发布时间:2024-11-15 04:39:41点击:
从一个OLAP数据库迁移到另一个数据库是一项艰巨的工程。即使能找到一些有用的数据工具,您可能仍会犹豫是否对数据架构进行大手术,因为不确定如何运作。
本文分享如何从ClickHouse迁移到Doris的过程,包括为什么需要更改,需要注意什么以及如何比较两个数据库在各自环境中的性能。
这里有一家电子商务SaaS提供商,其数据系统提供实时和离线报告、客户分割和日志分析服务。最初,他们为这些不同的目的使用了不同的OLAP引擎:
这三个组件都有各自的痛点:
由于它们共同工作,这种架构可能太难以导航,因为它需要在开发、监控和维护方面了解所有这些组件。此外,每次用户扩展集群时,他们必须停止当前集群并迁移所有数据库和表,这不仅是一个巨大的任务,而且会对业务造成巨大的干扰。
Apache Doris填补了这些空白。
因此,计划进行迁移。
ClickHouse是旧数据架构中的主要性能瓶颈,也是最初想要进行更改的原因,因此从ClickHouse开始。
表创建语句
这里构建了自己的SQL重写工具,可以将ClickHouse表创建语句转换为Doris表创建语句。该工具可以自动执行以下更改:
查询语句
同样,也有工具可以将ClickHouse查询语句转换为Doris查询语句。这是为了准备ClickHouse和Doris之间的比较测试。转换中的关键考虑因素包括:
Apache Doris提供了广泛的数据写入方法。对于实时链接,采用Stream Load从NSQ和Kafka摄取数据。
对于大型离线数据,测试了不同的方法,以下是结论:
Spark-Doris-Connector是一种更通用的方法。它可以处理大量数据并确保写入稳定性。关键是找到正确的写入速度和并行性。
Spark-Doris-Connector还支持Bitmap。它允许您将Bitmap数据的计算工作负载移动到Spark集群中。
Spark-Doris-Connector和Flink-Doris-Connector都依赖于Stream Load。CSV是推荐的格式选择。用户的数十亿行测试表明,CSV比JSON快40%。
Spark Load方法利用Spark资源进行数据洗牌和排名。计算结果放在HDFS中,然后Doris直接从HDFS读取文件(通过Broker Load)。这种方法非常适合大规模数据摄入。数据越多,摄入速度越快,资源利用率越高。
这里比较了两个组件在SQL和连接查询方案上的性能,并计算了Apache Doris的CPU和内存消耗。
Apache Doris在16个SQL查询中的10个中表现优于ClickHouse,最大的性能差距比例接近30。总体而言,Apache Doris比ClickHouse快2~3倍。
对于连接查询测试,使用了不同大小的主表和维表。
测试包括完全连接查询和过滤连接查询。完全连接查询连接主表和维表的所有行,而过滤连接查询使用过滤器检索特定卖家ID的数据。结果如下:
主表(40亿行):
主表(250亿行):
主表(960亿行):
Doris在所有查询中都表现出相对较快的性能,而ClickHouse无法执行所有查询。
在CPU和内存消耗方面,Apache Doris在所有大小的连接查询中都保持稳定的集群负载。