数仓管理

在 Easystream 的 SQL 任务和 Notebook 任务中,所有的数据源、数据输出和维表均需提前登记注册到数仓中,以便统一管理。在 Easystream 数仓-数据源管理页面中,可以查看并管理已登记和创建的流表和数据源。其中,kafka,nydus 流表需要先将连接信息等注册数据源到数据源管理中,然后再注册库表到流表管理中;其余的如 redis,es,jdbc,hbase,memcache 等都只需要注册连接信息到数据源管理后,即可在任务中用数据源管理中注册的名称进行数据的访问了。

数仓管理主要包含:

  • 流表管理 :主要用来登记来自 kafka 的流式数据,用户需要登记输入数据的 schema 信息、数据源信息、以及序列化信息,登记完成以后可以直接在 SQL 中使用 [数据源.]数据库.表 的方式访问,和离线 hive 类似,一处登记,多处使用。

  • 数据源管理:主要用来登记和管理数据源的连接信息。

    源表:包含 kakfa、nydus 等流表的数据源信息;

    维表:Redis、HBase、DDB 等可以用来做维表 JOIN 的数据源头信息;

    SINK表:Kudu、Es 等 SINK 数据源信息。

    完成登记以后可以在 SQL 中直接使用登记的 catalog 和数据源本身的 DB 和 Table 访问数据。数据源具体登记方法请参考 数据源登记 章节。

    目前我们支持的数据源有:kafka、nydus、kudu、rocketmq、ddb、jdbc、tair、hbase、hive、redis、memcache、es 等,具体使用方法可以参考 数据源登记参数配置参考 章节。