更新历史
版本:v3.8.0
新增功能
1.【离线同步任务】支持版本管理功能
- 功能介绍:
- 离线同步任务每次提交上线,会生成一个版本号。支持查看历史版本,支持历史版本间的版本比对,支持开发模式最新版本和历史版本间的版本比对,并支持开发模式回滚至历史版本。
- 功能使用注意事项:
- 如果用户没有任务的查看权限,则不可点击“版本记录”按钮置灰不可点,不可查看历史版本和比对历史版本。
- 如果用户没有任务的编辑权限,则不可点击“回滚”按钮。
- 功能详细使用步骤:
- 功能入口:操作-版本记录
2.【实时同步任务】支持任务导入导出
- 功能介绍:
- 支持批量导入和批量导出实时同步任务,提升测试环境和生产环境的任务互通
- 功能详细使用步骤:
- 批量导入任务-功能入口:
- 批量导出任务-功能入口:
- 导入任务时:
(1)支持由用户选择任务负责人设置为导出端任务负责人或导入人。
(2)如果读写的数据源包含:{项目}-{集群}Hive/Arctic/Iceberg数据源,导入任务时将“{导出项目名称}-{导出集群名称}Hive数据源” 替换为“{导入项目名称}-{导入集群名称}Hive/Arctic/Iceberg数据源”。
(3)引用的数据源替换为目标端同名数据源。(注意:含来源数据源,去向数据源,来源为Oracle增量读取方式为ogg的消息数据源,任务类型为分库分表同步时来源为MySQL-指定binlog日志下的物理数据源,任务类型为分库分表同步时来源为SQLServer-指定ls下的物理数据源。
(4)支持由用户选择是否需同名覆盖
如未开启“覆盖同名任务”:仅覆盖uuid相同的任务。uuid是任务的唯一标识,在导入端导入并新建任务时,系统会将新建任务的uuid值赋值为导出端任务的uuid值。任务再次导入时,会按照uuid值匹配对应任务。需要注意:如覆盖时发现导入端已存在与导出端任务名称相同但uuid不同的任务,则导入失败。
如开启“覆盖同名任务”:则会先根据uuid进行匹配并覆盖对应的任务,如导入端无uuid相同的任务,再用任务名称匹配并覆盖对应的任务。在导入端覆盖同名任务时,系统会将任务的uuid值修改为导出端任务的uuid值。
3.【实时同步任务】来源支持SQLServer
- 功能介绍:任务类型为多表(Topic)同步或分库分表同步时,来源数据源类型支持SQLServer
- 功能详细使用步骤:
- 功能入口:
功能优化
1.【离线同步任务】对接UDF Studio,API作为数据来源支持使用UDF进行前置处理
- 功能介绍:
- API包含动态token、动态密钥算法以及前置认证时,支持选取UDF Studio的函数作为前置处理脚本以应对复杂的前置处理逻辑。具体流程为:传输请求API接口数据前会执行UDF,获取UDF处理后的url,header,params和body再去请求API。
- 功能使用注意事项:
- 配置任务时,仅可选择当前用户有权限、函数适用产品包含数据传输的UDF。运行任务时,会校验任务执行账号是否有函数权限,如无权限,任务会报错。
- 任务运行时:
1)如果函数有测试态,开发模式用函数的测试态,线上模式有函数的线上态
2)如果函数没有测试态,开发模式和线上模式都用函数的线上态
- 功能详细使用步骤:
- 函数使用说明:
1)实现接口 Function - 编码示例:
public class UDF implements Function
- 函数使用说明:
2.【离线同步任务】来源为FTP或HDFS、去向为FTP或HDFS、来源读取方式为非结构化时,数据传输distcp技术方案改为spark-distcp,不依赖于Hadoop版本
- 功能介绍:
- 原distcp技术方案对客户环境Hadoop版本有要求,此次方案优化后非结构化传输功能可不受限于客户环境的Hadoop版本。
3.【实时同步任务】来源为Oracle时,增量读取方式支持ogg
- 功能介绍:
- 部分场景下,Oracle的DBA不支持向数据开发团队开放Oracle数据库的CDC binlog读取权限,而是将Oracle数据源下多个库表的CDC binlog数据同步至Kafka的同一topic下。为下游应用方便,数据开发需要通过数据传输将同一topic下按照Oracle表进行数据分发,将每一张Oracle表的数据分别分发至不同的去向表。
- 优化后功能使用步骤:
- 功能入口:
4.【整体】对接安全中心-产品访问权限控制
- 功能介绍:在安全中心项目级别给角色/成员勾选数据传输的产品页面访问配置后,用户才可访问数据传输页面,否则访问会报错。
5.【离线同步任务】提交离线同步任务时增加二次确认
- 功能介绍:为避免用户误提交影响线上任务,提交离线同步任务时增加二次确认。
6.【离线同步任务】增加Ops参数,用于在平台粒度配置数据去向为Kudu时是否批量转换与去向字段类型不兼容的来源表字段类型
7.【实时同步任务】增加Ops参数,用于在平台粒度配置数据去向为Kudu时是否批量转换与去向字段类型不兼容的来源表字段类型
8.【实时同步任务】来源为TeleDB、Oracle、MySQL、SQLServer、Kafka-ogg json时支持内置变量
- 功能介绍:
- 1、数据来源为MySQL、Oracle、SQLServer、TeleDB,任务类型为分库分表同步或多表(Topic)同步时,自定义表达式支持填写和解析变量:${op}、${op_ts}。${op}表示来源数据库日志中的操作类型,${op_ts}表示来源数据库中的操作时间。
- 2、数据来源为Kafka,序列化格式为ogg-json时,自定义表达式支持填写和解析变量:${pos}、${op_ts}、${current_ts}、${table}。对应于ogg-json中的首层字段,${pos}表示当前事件在ogg流中的位置${op_ts}表示数据库日志中的操作时间,${current_ts}表示数据库日志的获取时间,${table}表示当前时间对应的表名称。
9.【离线同步任务】Kafka数据源适配Spark3.3版本
10.【实时同步任务】新增插件版本2.x
- 功能介绍:
- 历史任务默认版本为1.x,新增任务默认版本为2.x,此功能不影响历史任务。此外,复制任务时,复制创建出的任务与复制的任务的插件版本保持一致;导入任务时,与导出端导出的任务保持一致。
版本:v3.7.1
功能优化
1.【离线同步任务】数据来源来源为DM、VastBase G100时支持SQL模式
- 功能介绍:
- 数据来源来源为DM、VastBase G100时支持SQL模式,用于多表关联查询等场景
- 优化后功能使用步骤:
2.【离线同步任务】数据来源为HBase时支持根据timestamp时间戳过滤数据并支持读取timstamp字段
- 功能介绍:
- HBase表每个cell(存储单元)均包含timestamp时间戳,timestamp表示该Rowkey值对应的该列数据的更新时间。此前,离线传输读取Hbase时,在读取范围内如果同一Rowkey值对应的同一列存在多次更新,则仅读取该列最新版本的数据。此次支持根据timestamp值过滤数据,仅读取指定时间范围内更新的数据;支持读取HBase单元格的timestamp字段并写入去向表字段。
- 功能使用注意事项:
- 如果填写起始时间位点和结束时间位点,则会使用时间戳范围过滤条件进行读取HBase表数据。请按照格式:yyyy-MM-dd HH:mm:ss.SSS填写,其中“SSS”可不填,如不填则默认取000,系统执行时会将该值转成timestamp后从HBase中读取相应数据。支持填写系统参数和参数组参数。
- 如未填写起始时间位点,则默认从最早数据开始读取。如未填写结束时间位点,则默认读取至最新数据。
- 如果同时填写startRowKey、endRowKey和起始时间位点、结束时间位点,则会读取指定RowKey范围内指定时间戳范围内的数据;如果仅填写startRowKey、endRowKey,则会读取指定RowKey范围内的数据,不限时间戳范围;如果仅填写起始时间位点、结束时间位点,则会读取指定时间戳范围内的数据,不限RowKey范围。
- 任务配置字段映射时,来源表字段如选取timestamp字段,运行任务时,同一RowKey值对应的多列数据对应的timestamp值不同时,则timestamp字段值取timestamp最新的列对应的timestamp值。
- 优化后功能使用步骤:
3.【实时同步任务】来源为Kafka、去向为结构化数据源时,支持获取最新表结构功能
- 功能介绍:
- 针对去向表表结构变更的各类场景,处置策略如下:
a.字段顺序调整:字段映射列表中按变更后的去向表字段顺序展示,并保留映射的来源表字段信息。
b.新增字段:字段映射列表中新增行,行序号为去向表中该字段的列序号。针对该行的来源表字段:先使用同名映射匹配是否存在同名的来源表字段,如存在同名字段则来源表字段置为同名字段,如不存在同名字段则清空来源表字段选择框的值。
c.删除字段:删除字段映射列表中的对应行
d.字段类型变更:更新“字段类型”列该字段对应的值
e.字段描述变更:更新“描述”列该字段的字段描述
此外,针对去向表的表结构变更,消息通知框中会详细提示各类变更情况以及相应的字段。
- 针对去向表表结构变更的各类场景,处置策略如下:
- 优化后功能使用步骤:
4.【实时同步任务】数据来源为Kafka时,适配版本和认证方式:2.0.1、无认证;2.0.1、Kerberos认证
5.【实时同步任务】新增“未知”任务状态
- 功能介绍:
- 针对联通yarn或k8s集群时,出现查询异常(无法联通或查询失败)时未获取到任务状态的任务,新增任务状态:未知。
- 功能使用注意事项:
- 此任务状态的任务不可启动、停止。启动中、运行中、停止中的任务可能会翻转为此状态。此状态可翻转为启动中、运行中、停止中、启动失败、运行失败。
6.【实时同步任务+离线同步任务+数据导入】获取队列时,如队列资源获取失败时,仅展示队列名称
- 功能使用注意事项:
Bug修复
1.【实时同步任务】修复任务任务类型为分库分表同步时,任务配置页面和任务执行时库表正则匹配规则不一致的问题
版本:v3.7.0
新增功能
1.【离线同步任务】离线同步任务对接发布中心
- 功能介绍:离线同步任务支持对接发布中心实现跨环境发布。
- 功能使用注意事项:
- 项目-集群下所有离线同步任务均可通过发布中心发布至接收方的开发模式/线上模式。
- 数据源、Hive库、参数组已对接发布中心的数据源映射/Hive库映射/参数组映射。如发布方任务使用的数据源、Hive库、参数组在发布中心已配置映射策略,则根据映射策略替换为接收方的数据源、Hive库、参数组,如此时接收方相应资源已被删除则任务检测不通过;如发布中心未配置映射策略则按照同名映射的规则替换为接收方的数据源、Hive库、参数组,如此时接收方不存在同名的资源则任务检测不通过。
- 如发布方任务引用了脱敏规则,按照同名映射的规则替换为接收方的脱敏规则,如此时接收方不存在同名的脱敏规则则任务检测不通过。
- 实际在接收方执行导入时,Hive库的替换逻辑为:优先按配置的接收方参数组的参数替换(如有),再按照Hive库映射配置的Hive库映射到的接收方库替换(如有),最后按照原始的发布方库。
2.【实时同步任务】数据去向新增支持Kudu数据源
- 功能介绍:
- 实时同步任务去向新增支持Kudu数据源。
3.【实时同步任务】数据去向新增支持Kafka数据源
- 功能介绍:
- 实时同步任务去向新增支持Kafka数据源。
4.【数据导入】数据导入配置支持复用
- 功能介绍: 此前,每次用户如需导入本地数据,需要完成如下步骤:上传文件、选择数据去向并配置字段映射。在周期性上传的场景中,每次重新配置任务操作较为麻烦,故此版本实现数据导入配置支持复用:支持编辑已有的导入配置、支持基于已有的导入配置上传新文件和查看导入记录。
功能优化
1.【实时同步任务】数据来源为Kafka时新增序列化格式:ogg-json、maxwell-json
2.【离线同步任务】支持配置日志打印信息,并丰富日志打印内容
- 功能介绍:
- 数据传输-配置管理模块支持配置日志打印信息:打印内容和打印间隔。打印内容中,如勾选传输行数、传输速率、传输耗时,则所有离线同步任务日志中均打印勾选项;如勾选传输百分比,则离线同步任务数据来源为关系型数据库时打印传输百分比。
- 日志打印任务基本信息和任务执行配置:作业基本信息含项目、集群、运行账号,任务执行配置以json的序列化格式进行打印,含reader、writer等信息。
- 日志打印任务细化的执行步骤: 1)来源是关系型数据库,执行步骤依次为:“开始切分来源端数据(切分键:xxxx,并发度:xxxx)”、“来源端数据切分完成(切分键:xxxx,并发度:xxxx)”、“开始读取来源端数据“、”来源端数据读取完成“;注意:如果来源未开启并发读取,则不展示切分的执行步骤。 2)去向是关系型数据库,执行步骤依次为“开始执行去向端PreSql,PreSql:xxxxx”、“去向端PreSql执行完成,PreSql:”、“开始向去向端写入数据”、“去向端数据写入完成”、“开始执行去向端PostSql,PostSql:xxxxx”、“去向端PostSql执行完成,PostSql:”。
3.【数据导入】数据去向为Hive时支持快速创建Hive表。
4.【离线同步任务】数据脱敏功能增强:支持使用基于自定义udf的脱敏规则、扫描时支持选择扫描执行队列
5.【实时同步任务】去向为Hive、Iceberg、Arctic时根据字段内容动态分区支持使用函数
6.【离线同步任务】ES读取优化:复杂字段类型设置支持用户选择读取模式:读取为string类型或系统推断字段类型
7.【离线同步任务】并发读取的切分键支持搜索,Hover显示完整展示字段名称
版本:v3.6.0
新增功能
1.【离线同步任务】数据来源和去向新增支持Iceberg数据源
- 功能介绍:
- 离线同步任务来源和去向新增支持Iceberg数据源。升级时默认隐藏Iceberg数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型。
- 配置任务时,如使用Iceberg作为数据来源,需保证配置任务的用户有对应表的读权限;如使用Iceberg作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。
2.【离线同步任务】数据来源和去向新增支持TDSQL数据源
- 功能介绍:
- 离线同步任务来源和去向新增支持TDSQL数据源。升级时默认隐藏TDSQL数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型。
- 配置任务时,如使用TDSQL作为数据来源,需保证配置任务的用户有对应数据源的读权限;如使用TDSQL作为数据去向,需保证配置任务的用户有对应数据源的写权限,否则用户无法成功选中数据源。
3.【实时同步任务】数据去向新增支持Arctic数据源
- 功能介绍:
- 实时同步任务去向新增支持Arctic数据源。升级时默认隐藏Arctic数据源,如有需要可通过Ops配置开启,配置文档:通过easyops修改支持的数据源类型。
- 配置任务时,如使用Arctic作为数据去向,需保证配置任务的用户有对应表的写权限,否则用户无法成功选中表。
功能优化
1.【离线同步任务】支持基于HiveJDBC读和写版本为1.1.0-CDH5.14.0的Hive
- 功能介绍:
- 离线同步任务数据来源和去向支持选取版本为1.1.0-CDH5.14.0、传输协议为Hive JDBC的Hive数据源,传输任务会基于HiveJDBC协议读和写Hive表。
功能使用步骤:
- 1、前往项目中心(新)登记Hive数据源。版本选中:1.1.0-CDH5.14.0,传输协议选中:Hive JDBC。
- 2、传输任务数据来源侧选中已登记的数据源,选择库表并按需配置数据过滤条件和特殊字符替换。 注意:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,读取方式为基于Hive JDBC读取数据
3、传输任务数据去向侧选中已登记的数据源,选择库表,并按需完成相关配置。 分区:如Hive表为分区表,请填写分区值;如Hive表为非分区表,任务配置时不会展示分区配置项。
写入规则:Hive版本为:1.1.0-CDH5.14.0,传输协议为:Hive JDBC时,写入规则支持Insert into(追加数据)和Truncate then append(清空表数据后插入数据)。需要注意:Truncate then append系统写入时会分为两条SQL执行,先清空表数据,再插入数据,如在清空表数据后、插入数据前任务报错,则表中对应数据会为空。
批量条数:1)一次性批量提交的记录数大小。该值可以极大减少数据同步系统与数据源的网络交互次数,并提升整体吞吐量。如果该值设置过大,会导致数据同步运行进程OOM异常。2)每提交一批记录,HiveServer就会向YARN提交一个MapReduce任务,如果写入记录数多则会提交较多的任务,占用大量集群资源。
2.【离线同步任务】支持批量运行和批量提交任务
- 功能介绍:
- 支持批量运行和批量提交任务,提升批量场景下的操作效率。
- 功能使用注意事项:
- 如命中以下任一条件,则任务不可批量运行。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)当前任务正在运行中;3)任务审批中,不可运行;4)任务审批不通过,不可运行。
- 如命中以下任一条件,则任务不可批量提交。1)当前用户账号缺少该任务的“运行&上线&下线”权限;2)任务审批中,不可提交;3)任务审批不通过,不可提交。
3.【离线同步任务】Kafka适配新的版本和认证方式:2.3.1、无认证;2.3.1、sasl_plaintext认证;2.7.1、无认证;2.7.1、sasl_plaintext认证。
- 功能介绍:
- 离线同步任务Kafka作为来源和去向适配新的版本和认证方式。
4.【离线同步任务】DM适配8.1版本
- 功能介绍:
- 离线同步任务DM作为来源和去向适配版本:8.1。
5.【离线同步任务】支持通过SQL模式读取平台内置Hive数据源
- 功能介绍:
- 离线同步任务的任务模式为SQL模式时,数据来源的数据源类型新增Hive,支持选取平台内置的Hive数据源。
6.【离线同步任务】任务查询Oracle时使用绑定变量
- 功能介绍:
- 任务查询Oracle时使用绑定变量,优化SQL查询效率
7.【离线同步任务】Clickhouse适配Spark3.3
- 功能介绍:
- 离线同步任务Clickhouse作为来源和去向适配Spark3.3
以上内容对您是否有帮助?