Kafka流表,是实时计算平台基于KafkaTopic定义而来的一种表。在数据资产地图上,支持显示Kafka流表的基础信息、数据血缘、产出信息、使用说明。

表详情介绍

下图为Kafka流表的表详情页:
Kafka流表 - 图1

其中,基础信息内数据源名表示大数据平台内数据源登记模块中,登记的数据源名称。Topic表示该数据源中具体的一个Topic。序列化方式表示的是Topic的序列化方式。

流表血缘

下图是流表的血缘图,本次流表血缘支持的流表类型有:

1、通过消息队列注册生成的流表:流表(Kafka)、流表(RocketMQ)、流表(Nydus)

2、通过物理表注册生成的流表:流表(MySQL)、流表(Oracle)、流表(HBase)、流表(Kudu)、流表(ES)

3、本次流表血缘支持的物理表节点有:MySQL、Oracle、Postgresql、Kudu、TiDB、Elasticsearch、HBase、Redis、Kafka、Pulsar、RocketMQ、Hive、Starrocks、Doris等。由于实时计算上报的物理表可能是纯DDL定义的,非数据源登记,故部分节点仅支持纯文本展示节点信息,不提供跳转详情页。

4、流表血缘目前仅支持读取和写入为流表的血缘,不支持串联读取或写入为流表对应的物理表血缘。

流表血缘展示前提:实时计算有配置正确实时计算任务,并且上报血缘信息。在此前提下,用户搜索流表后,在流表详情页点击“数据血缘”模块,可查看数据血缘信息
Kafka流表 - 图2