数仓管理
更新时间: 2022-02-28 11:22:46
阅读 1086
在 Easystream 的 SQL 任务和 Notebook 任务中,所有的数据源、数据输出和维表均需提前登记注册到数仓中,以便统一管理。在 Easystream 数仓-数据源管理页面中,可以查看并管理已登记和创建的流表和数据源。其中,kafka,nydus 流表需要先将连接信息等注册数据源到数据源管理中,然后再注册库表到流表管理中;其余的如 redis,es,jdbc,hbase,memcache 等都只需要注册连接信息到数据源管理后,即可在任务中用数据源管理中注册的名称进行数据的访问了。
数仓管理主要包含:
流表管理 :主要用来登记来自 kafka 的流式数据,用户需要登记输入数据的 schema 信息、数据源信息、以及序列化信息,登记完成以后可以直接在 SQL 中使用 [数据源.]数据库.表 的方式访问,和离线 hive 类似,一处登记,多处使用。
数据源管理:主要用来登记和管理数据源的连接信息。
源表:包含 kakfa、nydus 等流表的数据源信息;
维表:Redis、HBase、DDB 等可以用来做维表 JOIN 的数据源头信息;
Sink表:Kudu、Es 等 SINK 数据源信息。
完成登记以后可以在 SQL 中直接使用登记的 catalog 和数据源本身的 DB 和 Table 访问数据。数据源具体登记方法请参考 数据源登记 章节。
目前我们支持的数据源有:
类型 | 支持数据源 |
---|---|
RDBMS | SQLServer、PostgreSQL、Oracle、MySQL、Greenplum、DB2 |
NoSQL | tair、tair-pdb、tair-rdb、Redis_cluster、redis_sentinel、HBASE、Phoenix、MongoDB、Memcached、ElasticSearch、SAP HANA、ClickHouse |
MPP | Vertica、doris |
大数据存储 | maxcompute、datahub、Hive、HDFS |
分析型数据库 | Kudu、Kylin、TiDB、Druid |
国产数据库 | 达梦DM |
数据湖 | Arctic、Icerberg |
时序数据库 | TSDB、InfluxDB |
消息队列 | RocketMQ、Kafka、Nydus |
其他 | FTP、API、Feature Based、DDB、DDBQS |
具体使用方法可以参考 数据源登记参数配置参考 章节。
文档反馈
以上内容对您是否有帮助?