版本:v3.6.0

新增功能

1.【离线同步任务】数据来源和去向新增支持Iceberg数据源

  • 功能介绍:
    • 离线同步任务来源和去向新增支持Iceberg数据源。升级时默认隐藏Iceberg数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用Iceberg作为数据来源,需保证配置任务的用户有对应表的读权限;如使用Iceberg作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。

2.【离线同步任务】数据来源和去向新增支持TDSQL数据源

  • 功能介绍:
    • 离线同步任务来源和去向新增支持TDSQL数据源。升级时默认隐藏TDSQL数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用TDSQL作为数据来源,需保证配置任务的用户有对应数据源的读权限;如使用TDSQL作为数据去向,需保证配置任务的用户有对应数据源的写权限,否则用户无法成功选中数据源。

3.【实时同步任务】数据去向新增支持Arctic数据源

  • 功能介绍:
    • 实时同步任务去向新增支持Arctic数据源。升级时默认隐藏Arctic数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用Arctic作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。

功能优化

1.【离线同步任务】支持基于HiveJDBC读和写版本为1.1.0-CDH5.14.0的Hive

  • 功能介绍:
    • 离线同步任务数据来源和去向支持选取版本为1.1.0-CDH5.14.0、传输协议为Hive JDBC的Hive数据源,传输任务会基于HiveJDBC协议读和写Hive表。
  • 功能使用步骤:

    • 1、前往项目中心(新)登记Hive数据源。版本选中:1.1.0-CDH5.14.0,传输协议选中:Hive JDBC。 image2023-6-12 11_30_46.png
    • 2、传输任务数据来源侧选中已登记的数据源,选择库表并按需配置数据过滤条件和特殊字符替换。 注意:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,读取方式为基于Hive JDBC读取数据 image2023-6-12 11_38_55.png
    • 3、传输任务数据去向侧选中已登记的数据源,选择库表,并按需完成相关配置。 image2023-6-12 11_47_38.png 分区:如Hive表为分区表,请填写分区值;如Hive表为非分区表,任务配置时不会展示分区配置项。

      写入规则:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,写入规则支持Insert into(追加数据)和Truncate then append(清空表数据后插入数据)。需要注意:Truncate then append系统写入时会分为两条SQL执行,先清空表数据,再插入数据,如在清空表数据后、插入数据前任务报错,则表中对应数据会为空。

      批量条数:1)一次性批量提交的记录数大小。该值可以极大减少数据同步系统与数据源的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。2)每提交一批记录,HiveServer就会向YARN提交一个MapReduce任务,如果写入记录数多则会提交较多的任务,占用大量集群资源。

2.【离线同步任务】支持批量运行和批量提交任务

  • 功能介绍:
    • 支持批量运行和批量提交任务,提升批量场景下的操作效率。
  • 功能使用注意事项:
    • 如命中以下任一条件,则任务不可批量运行。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)当前任务正在运行中;3)任务审批中,不可运行;4)任务审批不通过,不可运行。
    • 如命中以下任一条件,则任务不可批量提交。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)任务审批中,不可提交;3)任务审批不通过,不可提交。

3.【离线同步任务】Kafka适配新的版本和认证方式:2.3.1、无认证;2.3.1、sasl_plaintext认证;2.7.1、无认证;2.7.1、sasl_plaintext认证。

  • 功能介绍:
    • 离线同步任务Kafka作为来源和去向适配新的版本和认证方式。

4.【离线同步任务】DM适配8.1版本

  • 功能介绍:
    • 离线同步任务DM作为来源和去向适配版本:8.1。

5.【离线同步任务】支持通过SQL模式读取平台内置Hive数据源

  • 功能介绍:
    • 离线同步任务的任务模式为SQL模式时,数据来源的数据源类型新增Hive,支持选取平台内置的Hive数据源。

6.【离线同步任务】任务查询Oracle时使用绑定变量

  • 功能介绍:
    • 任务查询Oracle时使用绑定变量,优化SQL查询效率

7.【离线同步任务】Clickhouse适配Spark3.3

  • 功能介绍:
    • 离线同步任务Clickhouse作为来源和去向适配Spark3.3