版本:v3.7.1

功能优化

1.【离线同步任务】数据来源来源为DM、VastBase G100时支持SQL模式

  • 功能介绍:
    • 数据来源来源为DM、VastBase G100时支持SQL模式,用于多表关联查询等场景
  • 优化后功能使用步骤: 更新历史 - 图1

2.【离线同步任务】数据来源为HBase时支持根据timestamp时间戳过滤数据并支持读取timstamp字段

  • 功能介绍:
    • HBase表每个cell(存储单元)均包含timestamp时间戳,timestamp表示该Rowkey值对应的该列数据的更新时间。此前,离线传输读取Hbase时,在读取范围内如果同一Rowkey值对应的同一列存在多次更新,则仅读取该列最新版本的数据。此次支持根据timestamp值过滤数据,仅读取指定时间范围内更新的数据;支持读取HBase单元格的timestamp字段并写入去向表字段。
  • 功能使用注意事项:
    • 如果填写起始时间位点和结束时间位点,则会使用时间戳范围过滤条件进行读取HBase表数据。请按照格式:yyyy-MM-dd HH:mm:ss.SSS填写,其中“SSS”可不填,如不填则默认取000,系统执行时会将该值转成timestamp后从HBase中读取相应数据。支持填写系统参数和参数组参数。
    • 如未填写起始时间位点,则默认从最早数据开始读取。如未填写结束时间位点,则默认读取至最新数据。
    • 如果同时填写startRowKey、endRowKey和起始时间位点、结束时间位点,则会读取指定RowKey范围内指定时间戳范围内的数据;如果仅填写startRowKey、endRowKey,则会读取指定RowKey范围内的数据,不限时间戳范围;如果仅填写起始时间位点、结束时间位点,则会读取指定时间戳范围内的数据,不限RowKey范围。
    • 任务配置字段映射时,来源表字段如选取timestamp字段,运行任务时,同一RowKey值对应的多列数据对应的timestamp值不同时,则timestamp字段值取timestamp最新的列对应的timestamp值。
  • 优化后功能使用步骤: 更新历史 - 图2 更新历史 - 图3

3.【实时同步任务】来源为Kafka、去向为结构化数据源时,支持获取最新表结构功能

  • 功能介绍:
    • 针对去向表表结构变更的各类场景,处置策略如下:
      a.字段顺序调整:字段映射列表中按变更后的去向表字段顺序展示,并保留映射的来源表字段信息。
      b.新增字段:字段映射列表中新增行,行序号为去向表中该字段的列序号。针对该行的来源表字段:先使用同名映射匹配是否存在同名的来源表字段,如存在同名字段则来源表字段置为同名字段,如不存在同名字段则清空来源表字段选择框的值。
      c.删除字段:删除字段映射列表中的对应行
      d.字段类型变更:更新“字段类型”列该字段对应的值
      e.字段描述变更:更新“描述”列该字段的字段描述
      此外,针对去向表的表结构变更,消息通知框中会详细提示各类变更情况以及相应的字段。
  • 优化后功能使用步骤: 更新历史 - 图4

4.【实时同步任务】数据来源为Kafka时,适配版本和认证方式:2.0.1、无认证;2.0.1、Kerberos认证

5.【实时同步任务】新增“未知”任务状态

  • 功能介绍:
    • 针对联通yarn或k8s集群时,出现查询异常(无法联通或查询失败)时未获取到任务状态的任务,新增任务状态:未知。
  • 功能使用注意事项:
    • 此任务状态的任务不可启动、停止。启动中、运行中、停止中的任务可能会翻转为此状态。此状态可翻转为启动中、运行中、停止中、启动失败、运行失败。

6.【实时同步任务+离线同步任务+数据导入】获取队列时,如队列资源获取失败时,仅展示队列名称

  • 功能使用注意事项: 更新历史 - 图5

Bug修复

1.【实时同步任务】修复任务任务类型为分库分表同步时,任务配置页面和任务执行时库表正则匹配规则不一致的问题

版本:v3.7.0

新增功能

1.【离线同步任务】离线同步任务对接发布中心

  • 功能介绍:离线同步任务支持对接发布中心实现跨环境发布。
  • 功能使用注意事项:
    • 项目-集群下所有离线同步任务均可通过发布中心发布至接收方的开发模式/线上模式。
    • 数据源、Hive库、参数组已对接发布中心的数据源映射/Hive库映射/参数组映射。如发布方任务使用的数据源、Hive库、参数组在发布中心已配置映射策略,则根据映射策略替换为接收方的数据源、Hive库、参数组,如此时接收方相应资源已被删除则任务检测不通过;如发布中心未配置映射策略则按照同名映射的规则替换为接收方的数据源、Hive库、参数组,如此时接收方不存在同名的资源则任务检测不通过。
    • 如发布方任务引用了脱敏规则,按照同名映射的规则替换为接收方的脱敏规则,如此时接收方不存在同名的脱敏规则则任务检测不通过。
    • 实际在接收方执行导入时,Hive库的替换逻辑为:优先按配置的接收方参数组的参数替换(如有),再按照Hive库映射配置的Hive库映射到的接收方库替换(如有),最后按照原始的发布方库。

2.【实时同步任务】数据去向新增支持Kudu数据源

  • 功能介绍:
    • 实时同步任务去向新增支持Kudu数据源。

3.【实时同步任务】数据去向新增支持Kafka数据源

  • 功能介绍:
    • 实时同步任务去向新增支持Kafka数据源。

4.【数据导入】数据导入配置支持复用

  • 功能介绍: 此前,每次用户如需导入本地数据,需要完成如下步骤:上传文件、选择数据去向并配置字段映射。在周期性上传的场景中,每次重新配置任务操作较为麻烦,故此版本实现数据导入配置支持复用:支持编辑已有的导入配置、支持基于已有的导入配置上传新文件和查看导入记录。

功能优化

1.【实时同步任务】数据来源为Kafka时新增序列化格式:ogg-json、maxwell-json

2.【离线同步任务】支持配置日志打印信息,并丰富日志打印内容

  • 功能介绍:
    • 数据传输-配置管理模块支持配置日志打印信息:打印内容和打印间隔。打印内容中,如勾选传输行数、传输速率、传输耗时,则所有离线同步任务日志中均打印勾选项;如勾选传输百分比,则离线同步任务数据来源为关系型数据库时打印传输百分比。
    • 日志打印任务基本信息和任务执行配置:作业基本信息含项目、集群、运行账号,任务执行配置以json的序列化格式进行打印,含reader、writer等信息。
    • 日志打印任务细化的执行步骤: 1)来源是关系型数据库,执行步骤依次为:“开始切分来源端数据(切分键:xxxx,并发度:xxxx)”、“来源端数据切分完成(切分键:xxxx,并发度:xxxx)”、“开始读取来源端数据“、”来源端数据读取完成“;注意:如果来源未开启并发读取,则不展示切分的执行步骤。 2)去向是关系型数据库,执行步骤依次为“开始执行去向端PreSql,PreSql:xxxxx”、“去向端PreSql执行完成,PreSql:”、“开始向去向端写入数据”、“去向端数据写入完成”、“开始执行去向端PostSql,PostSql:xxxxx”、“去向端PostSql执行完成,PostSql:”。

3.【数据导入】数据去向为Hive时支持快速创建Hive表。

4.【离线同步任务】数据脱敏功能增强:支持使用基于自定义udf的脱敏规则、扫描时支持选择扫描执行队列

5.【实时同步任务】去向为Hive、Iceberg、Arctic时根据字段内容动态分区支持使用函数

6.【离线同步任务】ES读取优化:复杂字段类型设置支持用户选择读取模式:读取为string类型或系统推断字段类型

7.【离线同步任务】并发读取的切分键支持搜索,Hover显示完整展示字段名称

版本:v3.6.0

新增功能

1.【离线同步任务】数据来源和去向新增支持Iceberg数据源

  • 功能介绍:
    • 离线同步任务来源和去向新增支持Iceberg数据源。升级时默认隐藏Iceberg数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用Iceberg作为数据来源,需保证配置任务的用户有对应表的读权限;如使用Iceberg作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。

2.【离线同步任务】数据来源和去向新增支持TDSQL数据源

  • 功能介绍:
    • 离线同步任务来源和去向新增支持TDSQL数据源。升级时默认隐藏TDSQL数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用TDSQL作为数据来源,需保证配置任务的用户有对应数据源的读权限;如使用TDSQL作为数据去向,需保证配置任务的用户有对应数据源的写权限,否则用户无法成功选中数据源。

3.【实时同步任务】数据去向新增支持Arctic数据源

  • 功能介绍:
    • 实时同步任务去向新增支持Arctic数据源。升级时默认隐藏Arctic数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型
    • 配置任务时,如使用Arctic作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。

功能优化

1.【离线同步任务】支持基于HiveJDBC读和写版本为1.1.0-CDH5.14.0的Hive

  • 功能介绍:
    • 离线同步任务数据来源和去向支持选取版本为1.1.0-CDH5.14.0、传输协议为Hive JDBC的Hive数据源,传输任务会基于HiveJDBC协议读和写Hive表。
  • 功能使用步骤:

    • 1、前往项目中心(新)登记Hive数据源。版本选中:1.1.0-CDH5.14.0,传输协议选中:Hive JDBC。 image2023-6-12 11_30_46.png
    • 2、传输任务数据来源侧选中已登记的数据源,选择库表并按需配置数据过滤条件和特殊字符替换。 注意:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,读取方式为基于Hive JDBC读取数据 image2023-6-12 11_38_55.png
    • 3、传输任务数据去向侧选中已登记的数据源,选择库表,并按需完成相关配置。 image2023-6-12 11_47_38.png 分区:如Hive表为分区表,请填写分区值;如Hive表为非分区表,任务配置时不会展示分区配置项。

      写入规则:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,写入规则支持Insert into(追加数据)和Truncate then append(清空表数据后插入数据)。需要注意:Truncate then append系统写入时会分为两条SQL执行,先清空表数据,再插入数据,如在清空表数据后、插入数据前任务报错,则表中对应数据会为空。

      批量条数:1)一次性批量提交的记录数大小。该值可以极大减少数据同步系统与数据源的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。2)每提交一批记录,HiveServer就会向YARN提交一个MapReduce任务,如果写入记录数多则会提交较多的任务,占用大量集群资源。

2.【离线同步任务】支持批量运行和批量提交任务

  • 功能介绍:
    • 支持批量运行和批量提交任务,提升批量场景下的操作效率。
  • 功能使用注意事项:
    • 如命中以下任一条件,则任务不可批量运行。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)当前任务正在运行中;3)任务审批中,不可运行;4)任务审批不通过,不可运行。
    • 如命中以下任一条件,则任务不可批量提交。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)任务审批中,不可提交;3)任务审批不通过,不可提交。

3.【离线同步任务】Kafka适配新的版本和认证方式:2.3.1、无认证;2.3.1、sasl_plaintext认证;2.7.1、无认证;2.7.1、sasl_plaintext认证。

  • 功能介绍:
    • 离线同步任务Kafka作为来源和去向适配新的版本和认证方式。

4.【离线同步任务】DM适配8.1版本

  • 功能介绍:
    • 离线同步任务DM作为来源和去向适配版本:8.1。

5.【离线同步任务】支持通过SQL模式读取平台内置Hive数据源

  • 功能介绍:
    • 离线同步任务的任务模式为SQL模式时,数据来源的数据源类型新增Hive,支持选取平台内置的Hive数据源。

6.【离线同步任务】任务查询Oracle时使用绑定变量

  • 功能介绍:
    • 任务查询Oracle时使用绑定变量,优化SQL查询效率

7.【离线同步任务】Clickhouse适配Spark3.3

  • 功能介绍:
    • 离线同步任务Clickhouse作为来源和去向适配Spark3.3