亲宝软件园·资讯

展开

SQL Optimizer

​ 红豆奶茶少冰半糖  ​ 人气:0

一、 大数据体系和SQL

1、SQL的处理流程

1.1 Parser

String -> AST (Abstruct Syntax Tree):

实现:递归下降 (ClickHouse),Flex 和 Bison (PostgreSQL),JavaCC (Flink),Antlr (Presto,Spark)

1.2 Analyzer和Logical Plan

 Analyzer:

 Logical Plan:

1.3 Physical Plan 和 Executor

 Physical Plan: 执行计划子树

 Executor

1.4 小结

二、 常见的查询优化器

1、查询优化器分类

2、RBO(Rule-based optimizer)

2.1 关系代数

2.2 优化原则

2.3 RBO-列裁剪

2.4 RBO-谓词下推

2.5 RBO-传递闭包

2.6 RBO-Runtime Filter

对一个join如果能在查询端提早过滤不必要数据,可减少开销

2.7 小结

3、CBO(Cost-based optimizer)

3.1 CBO-概念

△使用一个模型估算执行计划的代价,选择代价最小的执行计划

△算子代价:CPU,内存,磁盘IO,网络I/O等代价

统计信息+推导规则→计算算子代价→计算执行计划代价→执行计划枚举

3.2 CBO-统计信息

原始表统计信息

推导统计信息

3.2.1 CBO-统计信息的收集方式

CREATE TABLE REGION( R_ REGIONKEY INT NOT NULL, R NAME CHAR(25) NOT NULL, R_ COMMENT VARCHAR(152) ) DUPLICATE KEY(R_ REGIONKEY) DISTRIBUTED BY HASH(R_ REGIONKEY) BUCKETS 1 PROPERTIES (" sotumnselelR w");

ANALYZE TABLE table_name COMPUTE STATISICS FOR COLUMNS column-name1,column-name2....

动态采样:

SELECT count(*) FROM table_name

3.2.2 CBO-统计信息推导规则

3.3 CBO-执行计划枚举

3.4 CBO-小结

4、总结

三、 社区开源实践

1、Apache Calcite概览

1.1 Calcite RBO

HepPlanner

1.2 Calcite CBO

VolcanoPlanner

1.3 小结

四、 前沿趋势

1、AI4DB

2、DB4AI

3、总结

五、 大总结

加载全部内容

相关教程
猜你喜欢
用户评论