任务开发 - Notebook 任务开发指南 - 《Easystream用户手册6.3.0》

Notebook 任务开发指南

更新时间: 2022-02-22 16:21:29 | 阅读 785

扫码

复制

导出

Notebook 任务编写
创建 Source 组件
- NDC 订阅
- 自定义 Source
创建 Sink 组件
创建 SQL 组件

说明： 自3.8.3产品版本后，NoteBook任务已全面下线。

Notebook 任务抽离出了 Source 和 Sink 组件，将输入输出进行了模版化支持，用户只需要关注于核心的处理逻辑，简化处理流程。

Notebook 任务编写

在 Notebook 任务中，用户可以创建多个 SQL、Source、Sink 组件。每个组件顶部有操作栏，可以对该组件进行操作。

通用操作包括：

开关：点击开关启用或禁用组件。

组件名称：双击组件名称可以对组件进行重命名。

类型选择：在类型选择下拉框中，可以选择组件内容的类型。如：Sink 组件可以选择 Sink 的数据源类型。

调试：点击调试按钮对组件进行调试。

删除：点击可删除组件。

全屏：点击可将组件窗口全屏展开。

收起/展开：单击组件操作栏空白处或点击收起/展开按钮，可收起或展开组件内容。

创建 Source 组件

点击已有组件下方的添加按钮，选择 Source 类型，即可在任务中添加一个 Source 组件。目前 Source 组件支持 NDC 订阅和自定义两种类型。

NDC 订阅

用户选择 NDC 订阅类型，选择对应数据源的库表。后台会默认创建一个 NDC 订阅任务将数据库中的更新的数据实时同步到 kafka 中。下游组件直接用 Source 名称就可以获取到这个表中的数据。比如 Source 名称为：test,那么下游的 SQL 节点使用方式为 select * from test 就可以获取到这个数据。

自定义 Source

用户选择自定义 Source 类型时，需要选择一个已上传到项目内的 Jar 包，并输入类名，来创建一个自定义 Source。上传 Jar 包的具体操作请参考文件管理章节。

创建 Sink 组件

点击已有组件下方的添加按钮，选择 Sink 类型，即可在任务中添加一个 Sink 组件。

在 Sink 组件的上游表名称一栏，如用户不输入任何内容，则表示从上一个组件的输出中获取数据，如果上一个组件没有输出数据则从上上一个组件获取数据。这里用户可以使用上游的 Source 组件的“Source 名称”或流表名称来指定 Sink 的数据来源。

根据 Sink 组件所选的数据源类型不同，组件中需要配置的内容也不同，此处以 HDFS 类型举例：

归档地址：可以使用hdfs://hz-clustr2/user/action/\${yyyy-MM-dd-HH}路径中的 ${yyyy-MM-dd-HH}表示sink的年月日

${yyyy-MM-dd}（数据sink时间）

${yyyyMMdd}（数据sink时间）

${yyyy-MM-dd-HH}（数据sink时间）

${yyyyMMddHH}（数据sink时间）

${yyyy-MM-dd-HHmm}（数据sink时间）

${yyyyMMddHHmm}（数据sink时间）

归档文件格式：默认Parquet，支持下拉内容为：Parquet，json，text

归档周期（分）：默认10

最大文件大小：默认256

并发：默认不输入值，做整数校验。提示：请输入整数（默认任务外面的并发）

文件前缀：表示的落盘文件的名称，目前只支持字母、数字、下划线。

创建 SQL 组件

进入 Notebook 任务页面后，系统默认创建了一个 SQL 组件，用户可以在这个组件内编写 SQL 代码，代码规范与普通 SQL 任务一致。在 SQL 组件中可以直接使用上游的 Source 组件的“Source 名称”或已登记的流表名称来指定数据来源。

使用组件顶部的操作栏可以对组件进行开启/关闭、调试、语法检查、格式化、删除等操作。

SQL 组件中使用的 SQL 语法除去不支持 DDL 语句外，其他都是标准的 ANSI SQL，具体的 SQL 语法请参考基于元数据方式 SQL 开发章节。

编写好一个 Notebook 任务后，点击“保存”即可保存任务。任务的启动、停止、运维等请参考任务运维章节。

以上内容对您是否有帮助？

鼠标选中文档，精准反馈问题

选中存在疑惑的内容，即可快速反馈问题，我们会跟进处理

不再提示我知道了

文档反馈