在 Easystream 的 SQL 任务和 Notebook 任务中,所有的数据源、数据输出和维表均需提前登记注册到数仓中,以便统一管理。在 Easystream 数仓-数据源管理页面中,可以查看并管理已登记和创建的流表和数据源。其中,kafka,nydus 流表需要先将连接信息等注册数据源到数据源管理中,然后再注册库表到流表管理中;其余的如 redis,es,jdbc,hbase,memcache 等都只需要注册连接信息到数据源管理后,即可在任务中用数据源管理中注册的名称进行数据的访问了。

    数仓管理主要包含:

    • 流表管理 :主要用来登记来自 kafka 的流式数据,用户需要登记输入数据的 schema 信息、数据源信息、以及序列化信息,登记完成以后可以直接在 SQL 中使用 [数据源.]数据库.表 的方式访问,和离线 hive 类似,一处登记,多处使用。

    • 数据源管理:主要用来登记和管理数据源的连接信息。

      源表:包含 kakfa、nydus 等流表的数据源信息;

      维表:Redis、HBase、DDB 等可以用来做维表 JOIN 的数据源头信息;

      Sink表:Kudu、Es 等 SINK 数据源信息。

      完成登记以后可以在 SQL 中直接使用登记的 catalog 和数据源本身的 DB 和 Table 访问数据。数据源具体登记方法请参考 数据源登记 章节。

    目前我们支持的数据源有:

    类型 支持数据源
    RDBMS SQLServer、PostgreSQL、Oracle、MySQL、Greenplum、DB2
    NoSQL tair、tair-pdb、tair-rdb、Redis_cluster、redis_sentinel、HBASE、Phoenix、MongoDB、Memcached、ElasticSearch、SAP HANA、ClickHouse
    MPP Vertica、doris
    大数据存储 maxcompute、datahub、Hive、HDFS
    分析型数据库 Kudu、Kylin、TiDB、Druid
    国产数据库 达梦DM
    数据湖 Arctic、Icerberg
    时序数据库 TSDB、InfluxDB
    消息队列 RocketMQ、Kafka、Nydus
    其他 FTP、API、Feature Based、DDB、DDBQS

    具体使用方法可以参考 数据源登记参数配置参考 章节。