《大规模分布式存储系统》第10章　数据库功能【10.4】_Java自学网

javazx 发表于 2017-3-10 13:50:05

《大规模分布式存储系统》第10章　数据库功能【10.4】

10.4　OLAP业务支持
OLAP业务的特点是SQL每次执行涉及的数据量很大，需要一次性分析几百万行
甚至几千万行的数据。另外，SQL执行时往往只读取每行的部分列而不是整行数据。
为了支持OLAP计算，OceanBase实现了两个主要功能：并发查询以及列式存
储。并行查询功能允许将SQL请求拆分为多个子请求同时发送给多台机器并发执行，
列式存储能够提高压缩率，大大降低SQL执行时读取的数据量。本节首先介绍并发查
询功能，接着介绍OceanBase的列式存储引擎。
10.4.1　并发查询
如图10-13所示，MergeServer将大请求拆分为多个子请求，同时发往每个子请求
所在的ChunkServer并发执行，每个ChunkServer执行子请求并将部分结果返回给
MergeServer。MergeServer合并ChunkServer返回的部分结果并将最终结果返回给客户
端。
图　10-13　OceanBase并发查询
MergeServer并发查询执行步骤如下：
1）MergeServer解析SQL语句，根据本地缓存的子表位置信息获取需要请求的
ChunkServer。
2）如果请求只涉及一个子表，将请求发送给该子表所在的ChunkServer执行；如
果请求涉及多个子表，将请求按照子表拆分为多个子请求，每个子请求对应一个子
表，并发送给该子表所在的ChunkServer并发执行。MergeServer等待每个子请求的返
回结果。
3）ChunkServer执行子请求，计算子请求的部分结果。SQL执行遵从10.2.4节提
到的本地化原则，即能让ChunkServer执行的尽量让ChunkServer执行，包括Filter、
Project、子请求部分结果的GroupBy、OrderBy、聚合运算等。
4）每个子请求执行完成后，ChunkServer将执行结果回复MergeServer,Merge-
Server首先将每个子请求的执行结果保存起来。如果某个子请求执行失败，
MergeServer会将该子请求发往子表其他副本所在的ChunkServer执行。
5）等到所有的子请求执行完成后，MergeServer会对全部数据排序、分组、聚合
并将最终结果返回给客户。OceanBase还支持批量读取（multiget）操作一次性读取多
行数据，且读取的数据可能在不同的ChunkServer上。对于这样的操作，MergeServer
会按照ChunkServer拆分子请求，每个子请求对应一个ChunkServer。假设客户端请求5
行数据，其中第1、3、5行在ChunkServer A上，第2、4行在ChunkServer B上。那么，
该请求将被拆分为（1、3、5）和（2、4）两个子请求，分别发往ChunkServer A和
B。
Class ObMsSqlRequest
{
public:
//唤醒正在等待的工作线程
int signal(ObMsSqlRpcEvent＆event);
//等待某个子请求返回
int wait_single_event(int64_t＆timeout);
//处理某个子请求的返回结果
virtual int process_result(const int64_t timeout,ObMsSqlRpcEvent*event,bool＆
finish)=0;
};
ObMsSqlRequest类用于实现并发查询，相应地，ObMsSqlScanRequest以及ObMs-
SqlGetRequest类分别用于实现并发扫描和并发批量读取。MergeServer将大请求拆分
为多个子请求，每个子请求对应一个子请求事件（ObMsSqlRpcEvent）。工作线程将
子请求发给相应的ChunkServer后开始等待（调用wait_single_event方法），
ChunkServer执行完子请求后应答MergeServer。MergeServer收到应答包后回调signal
函数，唤醒工作线程，工作线程接着调用process_result进行处理。
ObMsSqlScanRequest和ObMsSql-GetRequest实现了process_result接口，将每个子请求
返回的部分结果保存到结果合并器merge_operator_中。如果所有的子请求全部执行完
成，process_result函数返回的finish变量将置为true，这时，merge_operator_中便保存
了并发查询的最终结果。
细心的读者可能会发现，OceanBase这种查询模式虽然解决了绝大部分大查询请
求的延时问题，但是，如果查询的返回结果特别大，MergeServer将成为性能瓶颈。
因此，新版的OceanBase系统将对OLAP查询执行逻辑进行升级，使其能够支持数据
量更大且更加复杂的SQL查询。
10.4.2　列式存储
列式存储主要的目的有两个：1）大部分OLAP查询只需要读取部分列而不是全
部列数据，列式存储可以避免读取无用数据；2）将同一列的数据在物理上存放在一
起，能够极大地提高数据压缩率。
列组（Column Group）
OceanBase通过列组支持行列混合存储，每个列组存储多个经常一起访问的列。
如图10-14所示，OceanBase SSTable首先按照列组存储，每个列组内部再按行存
储。分为几种情况：
图　10-14　OceanBase列组设计
●所有列属于同一个列组。数据在SSTable中按行存储，OLTP应用往往配置为这
种方式。
●每列对应一个列组。数据在SSTable中按列存储，这种方式在实际应用中比较
少见。
●每个列组对应一行数据的部分列。数据在SSTable中按行列混合存储，OLAP应
用往往配置为这种方式。
OceanBase还允许一个列属于多个列组，通过冗余存储这些列，能够提高访问性
能。例如，某表格总共包含5列，用户经常一起访问（1，3，5）或者（1，2，3，
4）列。如果将（1，3，5）和（1，2，3，4）存储到两个列组中，那么，大部分访
问只需要读取一个列组，避免了多个列组的合并操作。
列式存储提高了数据压缩比，然而，实践过程中我们发现，由于OceanBase最初
的几个版本内存操作实现得不够精细，例如数据结构设计不合理，数据在内存中膨
胀很多倍，导致大查询的性能瓶颈集中在CPU，列式存储的优势完全没有发挥出
来。这就告诉我们，列式存储的前提是设计好内存数据结构，把CPU操作优化好，
否则，后续的工作都是无用功。为了更好地支持OLAP应用，新版的OceanBase将重
新设计列式存储引擎。

页: [1]

Java自学网's Archiver

《大规模分布式存储系统》第10章 数据库功能【10.4】

《大规模分布式存储系统》第10章　数据库功能【10.4】