物化视图在 MaxCompute 中的探索与实践
发布时间:2024-11-15 04:39:49点击:
MaxCompute 是一个多功能、高性能、易使用的企业级的数据仓库服务,已经为阿里巴巴集团提供服务达 14 年。目前每日 DML 的任务数超过了 2,600 万,单日的数据量规模达到 EB 级,服务集团内用户 4W+。在如此大的体量之下,也暴露出几个问题:随着业务的规模越来越大,重复计算越来越多,消耗了大量资源;对于计算结果的产出时效有了更高要求;通过大批量改造脚本来进行数据治理的成本高,难度大。最终物化视图成为解决以上问题的最佳方案。
与普通视图(Virtual View)不同,物化视图存储的是查询结果的物理副本,而普通视图仅仅是一个虚拟的表,它在查询时才动态地生成结果。物化视图的发展历史与数据库技术的进步紧密相关。以下是物化视图发展的一些关键阶段。
物化视图也有一些缺点:
二、物化视图的设计和实现
在物化视图的设计阶段,我们关注物化视图的创建、维护和应用。
MaxCompute 支持创建普通物化视图、分区物化视图、聚簇物化视图和穿透物化视图,具体的创建方式体现在建表语句中,PARTITIONED BY (col_name) 语句指定创建物化视图表为分区表,CLUSTERED BY (col_name) SORTED BY (col_name [ASC | DESC])INTO number_of_buckets BUCKETS 语句指定创建物化视图为聚簇表。
在物化视图创建的过程中有两个关键点,第一个是需要建立一个基表到物化视图的索引,这样在查询时就能快速地获取到相关的物化视图。第二个是基表数据版本保存,在物化视图的元数据中需要保存对应基表的数据版本;另外对于分区物化视图,要求分区物化视图的分区列和基表保持一致,这样的话,可以实现分区级的增量更新。
MaxCompute 通过建表语句中的 TBLPROPERTIES 指定是否开启自动刷新,刷新时间间隔和分区增量刷新:
3.如何使用物化视图实现加速查询
自动查询改写:自动查询改写通过四个步骤实现,第一步,利用基表到 MV 的索引去获取相关物化视图;第二步是命中预判定,假如一个基表关联的 MV 的数目太多的话,通过命中预判定,以便尽早过滤无效的物化视图;第三步是把物化视图注册到优化器中;第四步是改写校验及执行,这主要包括的是基于 CALCITE 改写规则的二次开发,其中包含了一系列的校验,包括字段校验、谓词校验、关联校验以及分组和聚合校验等,通过这些校验来判断查询字段、查询条件、关联条件、分组和聚合条件等是否与物化视图一致,从而决定是否能用物化视图改写查询。
ds uid pv users ds‘’ ds‘’ ds
ds uid pv users ds‘’ ds
查询改写后的 SQL 就变成了:
ds pv mv ds‘’ ds‘’
自动查询改写是基于 SPJG 的匹配。匹配会自动忽略空格、换行、注释、别名等影响,除此之外查询 SQL 与物化视图 SQL 不完全相同的场景下,自动查询改写会尝试改写查询 SQL,补偿物化视图 SQL 和查询 SQL 之间缺少的计算动作,比如当 SQL 查询的 SELECT 列与物化视图 SQL 的 SELECT 列不完全相同时,自动查询改写对 SELECT 列支持情况如下:
自动穿透:自动穿透的关键是区分物化数据和非物化数据。通过 SQL 解析后的执行计划,确定查询 SQL 的目标分区,然后去 MV 里面看相应的分区是否得到了物化,如果存在没有物化的分区,就将该分区转化为视图去执行。比如有个查询 SQL 是:select key from src where ds >= ‘20230530’group by key,存在一个按天增量的 MV 只有 20230601 到 20230605 的数据,自动穿透功能会直接读取 20230601到 20230605 已物化的分区,并将未物化的分区 20230530 和 2023 转化为视图执行,最后将两部分数据 UNION ALL 起来。自动穿透既节省了存储,又实现了灵活扩展。
三、智能推荐及自动物化视图
物化视图在推广的过程中存在以下三个问题:
针对以上三个问题,MaxCompute 通过智能推荐和自动物化的方法降低物化视图的创建难度,提高用户使用体验。
通过对执行任务进行分析,智能选择资源消耗大、任务耗时长、使用频率高、预期收益大的 SQL 进行语句拆分和合并,提取出公共表达式,基于公共表达式构建物化视图。在任务运行时选择匹配率高的物化视图进行推荐,比如:
在自动物化视图的实现中,有三个关键点:
MaxCompute 物化视图的功能概览如下图所示:
我们针对业界产品做了一个分析,对比 MaxCompute 与 Hive、Spark、Snowflake、RedShift、BigQuery 等产品的物化视图功能,如下所示。
可以看到,MaxCompute 中的物化视图的功能还是很全的,囊括了分区、聚簇、查询改写、延时物化、穿透、自动生成和自动更新等功能。
MaxCompute 物化视图在淘天业务线的应用效果如下:
在淘天业务线上,目前创建了超 5 千个物化视图,优化的查询任务超 2 万。优化后的查询平均资源的消耗降低了 20% 以上,甚至有一些查询消耗降低了 80%。目前自动物化视图这个功能还在灰度中,预计最终可以创建超 10 万个物化视图,查询的覆盖范围可以达到 50 万,预计将节省 14% 的 CU 资源。
最后是对未来工作的展望。
未来,我们还将在以下方面进行完善: