说明: 自3.8.3产品版本后,NoteBook任务已全面下线。

Notebook 任务抽离出了 Source 和 Sink 组件,将输入输出进行了模版化支持,用户只需要关注于核心的处理逻辑,简化处理流程。

Notebook 任务编写


在 Notebook 任务中,用户可以创建多个 SQL、Source、Sink 组件。每个组件顶部有操作栏,可以对该组件进行操作。

组件操作栏

通用操作包括:

开关:点击开关启用或禁用组件。

组件名称:双击组件名称可以对组件进行重命名。

类型选择:在类型选择下拉框中,可以选择组件内容的类型。如:Sink 组件可以选择 Sink 的数据源类型。

调试:点击调试按钮对组件进行调试。

删除:点击可删除组件。

全屏:点击可将组件窗口全屏展开。

收起/展开:单击组件操作栏空白处或点击收起/展开按钮,可收起或展开组件内容。

创建 Source 组件


点击已有组件下方的添加按钮,选择 Source 类型,即可在任务中添加一个 Source 组件。目前 Source 组件支持 NDC 订阅和自定义两种类型。

NDC 订阅


用户选择 NDC 订阅类型,选择对应数据源的库表。后台会默认创建一个 NDC 订阅任务将数据库中的更新的数据实时同步到 kafka 中。下游组件直接用 Source 名称就可以获取到这个表中的数据。比如 Source 名称为:test,那么下游的 SQL 节点使用方式为 select * from test 就可以获取到这个数据。

source组件

自定义 Source


用户选择自定义 Source 类型时,需要选择一个已上传到项目内的 Jar 包,并输入类名,来创建一个自定义 Source。上传 Jar 包的具体操作请参考 文件管理 章节。

创建 Sink 组件


点击已有组件下方的添加按钮,选择 Sink 类型,即可在任务中添加一个 Sink 组件。

在 Sink 组件的上游表名称一栏,如用户不输入任何内容,则表示从上一个组件的输出中获取数据,如果上一个组件没有输出数据则从上上一个组件获取数据。这里用户可以使用上游的 Source 组件的“Source 名称”或流表名称来指定 Sink 的数据来源。

根据 Sink 组件所选的数据源类型不同,组件中需要配置的内容也不同,此处以 HDFS 类型举例:

HDFS sink

归档地址:可以使用hdfs://hz-clustr2/user/action/\${yyyy-MM-dd-HH}路径中的 ${yyyy-MM-dd-HH}表示sink的年月日

${yyyy-MM-dd}(数据sink时间)

${yyyyMMdd}(数据sink时间)

${yyyy-MM-dd-HH}(数据sink时间)

${yyyyMMddHH}(数据sink时间)

${yyyy-MM-dd-HHmm}(数据sink时间)

${yyyyMMddHHmm}(数据sink时间)

归档文件格式:默认Parquet,支持下拉内容为:Parquet,json,text

归档周期(分):默认10

最大文件大小:默认256

并发:默认不输入值,做整数校验。提示:请输入整数(默认任务外面的并发)

文件前缀:表示的落盘文件的名称,目前只支持字母、数字、下划线。

创建 SQL 组件


进入 Notebook 任务页面后,系统默认创建了一个 SQL 组件,用户可以在这个组件内编写 SQL 代码,代码规范与普通 SQL 任务一致。在 SQL 组件中可以直接使用上游的 Source 组件的“Source 名称”或已登记的流表名称来指定数据来源。

使用组件顶部的操作栏可以对组件进行开启/关闭、调试、语法检查、格式化、删除等操作。

Sql组件

SQL 组件中使用的 SQL 语法除去不支持 DDL 语句外,其他都是标准的 ANSI SQL,具体的 SQL 语法请参考 基于元数据方式 SQL 开发 章节。

编写好一个 Notebook 任务后,点击“保存”即可保存任务。任务的启动、停止、运维等请参考 任务运维 章节。