版本:v3.7.0

新增功能

1.【离线同步任务】离线同步任务对接发布中心

  • 功能介绍:离线同步任务支持对接发布中心实现跨环境发布。
  • 功能使用注意事项:
    • 项目-集群下所有离线同步任务均可通过发布中心发布至接收方的开发模式/线上模式。
    • 数据源、Hive库、参数组已对接发布中心的数据源映射/Hive库映射/参数组映射。如发布方任务使用的数据源、Hive库、参数组在发布中心已配置映射策略,则根据映射策略替换为接收方的数据源、Hive库、参数组,如此时接收方相应资源已被删除则任务检测不通过;如发布中心未配置映射策略则按照同名映射的规则替换为接收方的数据源、Hive库、参数组,如此时接收方不存在同名的资源则任务检测不通过。
    • 如发布方任务引用了脱敏规则,按照同名映射的规则替换为接收方的脱敏规则,如此时接收方不存在同名的脱敏规则则任务检测不通过。
    • 实际在接收方执行导入时,Hive库的替换逻辑为:优先按配置的接收方参数组的参数替换(如有),再按照Hive库映射配置的Hive库映射到的接收方库替换(如有),最后按照原始的发布方库。

2.【实时同步任务】数据去向新增支持Kudu数据源

  • 功能介绍:
    • 实时同步任务去向新增支持Kudu数据源。

3.【实时同步任务】数据去向新增支持Kafka数据源

  • 功能介绍:
    • 实时同步任务去向新增支持Kafka数据源。

4.【数据导入】数据导入配置支持复用

  • 功能介绍: 此前,每次用户如需导入本地数据,需要完成如下步骤:上传文件、选择数据去向并配置字段映射。在周期性上传的场景中,每次重新配置任务操作较为麻烦,故此版本实现数据导入配置支持复用:支持编辑已有的导入配置、支持基于已有的导入配置上传新文件和查看导入记录。

功能优化

1.【实时同步任务】数据来源为Kafka时新增序列化格式:ogg-json、maxwell-json

2.【离线同步任务】支持配置日志打印信息,并丰富日志打印内容

  • 功能介绍:
    • 数据传输-配置管理模块支持配置日志打印信息:打印内容和打印间隔。打印内容中,如勾选传输行数、传输速率、传输耗时,则所有离线同步任务日志中均打印勾选项;如勾选传输百分比,则离线同步任务数据来源为关系型数据库时打印传输百分比。
    • 日志打印任务基本信息和任务执行配置:作业基本信息含项目、集群、运行账号,任务执行配置以json的序列化格式进行打印,含reader、writer等信息。
    • 日志打印任务细化的执行步骤: 1)来源是关系型数据库,执行步骤依次为:“开始切分来源端数据(切分键:xxxx,并发度:xxxx)”、“来源端数据切分完成(切分键:xxxx,并发度:xxxx)”、“开始读取来源端数据“、”来源端数据读取完成“;注意:如果来源未开启并发读取,则不展示切分的执行步骤。 2)去向是关系型数据库,执行步骤依次为“开始执行去向端PreSql,PreSql:xxxxx”、“去向端PreSql执行完成,PreSql:”、“开始向去向端写入数据”、“去向端数据写入完成”、“开始执行去向端PostSql,PostSql:xxxxx”、“去向端PostSql执行完成,PostSql:”。

3.【数据导入】数据去向为Hive时支持快速创建Hive表。

4.【离线同步任务】数据脱敏功能增强:支持使用基于自定义udf的脱敏规则、扫描时支持选择扫描执行队列

5.【实时同步任务】去向为Hive、Iceberg、Arctic时根据字段内容动态分区支持使用函数

6.【离线同步任务】ES读取优化:复杂字段类型设置支持用户选择读取模式:读取为string类型或系统推断字段类型

7.【离线同步任务】并发读取的切分键支持搜索,Hover显示完整展示字段名称

版本:v3.6.0

新增功能

1.【离线同步任务】数据来源和去向新增支持Iceberg数据源

  • 功能介绍:
    • 离线同步任务来源和去向新增支持Iceberg数据源。升级时默认隐藏Iceberg数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用Iceberg作为数据来源,需保证配置任务的用户有对应表的读权限;如使用Iceberg作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。

2.【离线同步任务】数据来源和去向新增支持TDSQL数据源

  • 功能介绍:
    • 离线同步任务来源和去向新增支持TDSQL数据源。升级时默认隐藏TDSQL数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用TDSQL作为数据来源,需保证配置任务的用户有对应数据源的读权限;如使用TDSQL作为数据去向,需保证配置任务的用户有对应数据源的写权限,否则用户无法成功选中数据源。

3.【实时同步任务】数据去向新增支持Arctic数据源

  • 功能介绍:
    • 实时同步任务去向新增支持Arctic数据源。升级时默认隐藏Arctic数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用Arctic作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。

功能优化

1.【离线同步任务】支持基于HiveJDBC读和写版本为1.1.0-CDH5.14.0的Hive

  • 功能介绍:
    • 离线同步任务数据来源和去向支持选取版本为1.1.0-CDH5.14.0、传输协议为Hive JDBC的Hive数据源,传输任务会基于HiveJDBC协议读和写Hive表。
  • 功能使用步骤:

    • 1、前往项目中心(新)登记Hive数据源。版本选中:1.1.0-CDH5.14.0,传输协议选中:Hive JDBC。 image2023-6-12 11_30_46.png
    • 2、传输任务数据来源侧选中已登记的数据源,选择库表并按需配置数据过滤条件和特殊字符替换。 注意:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,读取方式为基于Hive JDBC读取数据 image2023-6-12 11_38_55.png
    • 3、传输任务数据去向侧选中已登记的数据源,选择库表,并按需完成相关配置。 image2023-6-12 11_47_38.png 分区:如Hive表为分区表,请填写分区值;如Hive表为非分区表,任务配置时不会展示分区配置项。

      写入规则:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,写入规则支持Insert into(追加数据)和Truncate then append(清空表数据后插入数据)。需要注意:Truncate then append系统写入时会分为两条SQL执行,先清空表数据,再插入数据,如在清空表数据后、插入数据前任务报错,则表中对应数据会为空。

      批量条数:1)一次性批量提交的记录数大小。该值可以极大减少数据同步系统与数据源的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。2)每提交一批记录,HiveServer就会向YARN提交一个MapReduce任务,如果写入记录数多则会提交较多的任务,占用大量集群资源。

2.【离线同步任务】支持批量运行和批量提交任务

  • 功能介绍:
    • 支持批量运行和批量提交任务,提升批量场景下的操作效率。
  • 功能使用注意事项:
    • 如命中以下任一条件,则任务不可批量运行。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)当前任务正在运行中;3)任务审批中,不可运行;4)任务审批不通过,不可运行。
    • 如命中以下任一条件,则任务不可批量提交。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)任务审批中,不可提交;3)任务审批不通过,不可提交。

3.【离线同步任务】Kafka适配新的版本和认证方式:2.3.1、无认证;2.3.1、sasl_plaintext认证;2.7.1、无认证;2.7.1、sasl_plaintext认证。

  • 功能介绍:
    • 离线同步任务Kafka作为来源和去向适配新的版本和认证方式。

4.【离线同步任务】DM适配8.1版本

  • 功能介绍:
    • 离线同步任务DM作为来源和去向适配版本:8.1。

5.【离线同步任务】支持通过SQL模式读取平台内置Hive数据源

  • 功能介绍:
    • 离线同步任务的任务模式为SQL模式时,数据来源的数据源类型新增Hive,支持选取平台内置的Hive数据源。

6.【离线同步任务】任务查询Oracle时使用绑定变量

  • 功能介绍:
    • 任务查询Oracle时使用绑定变量,优化SQL查询效率

7.【离线同步任务】Clickhouse适配Spark3.3

  • 功能介绍:
    • 离线同步任务Clickhouse作为来源和去向适配Spark3.3