更新合辑(2025年)
版本:v3.33.0
新增功能
1.【离线】离线传输任务,Spark引擎下,数据去向为Oracle时支持快速建表功能;
- 功能介绍:
- Spark引擎下,离线传输任务,当数据去向为Oracle时,新增支持快速建表操作,支持填写表名称生成建表语句;
- 配置管理中,针对离线同步任务快速建表功能,特殊字段类型映射规则新增支持配置数据去向为Oracle表的字段类型。
2.【离线】离线传输任务,Spark引擎下,数据来源和去向新增支持人大金仓KingbaseES类型;
- 功能介绍:
- 离线同步任务,spark引擎,数据来源和去向可选择人大金仓KingbaseES类型,适配版本为V009R001C002B0014和V008R006C008B0020。
3.【离线】离线传输任务的Maxcompute、Phoneix、RocketMQ数据源类型适配spark3.3.1版本;
4.【离线】离线传输任务,试运行时,若离线开发侧有开启离线同步专用队列功能,则试运行为配置的专用队列;
- 功能介绍:
- 离线开发的配置管理中,支持设置数据传输试运行的专用队列;
- 若试运行配置了专用队列,则在数据传输侧,试运行离线同步任务时,执行队列将不支持选择,默认使用配置的专用队列;
- 若配置了专用队列,同时试运行的任务中含有测试库的Hive类型,所需的测试队列为专用队列的镜像队列,不支持灵活选择。
5.【实时】新建实时同步任务,数据来源新增支持oceanbase类型,默认增量读取方式为oms,支持选择kafka topic;
- 功能介绍:
- 实时同步任务,数据来源新增支持Oceanbase类型。
功能优化
【离线】数据传输升级spark-doris-connector组件,使用最新版功能,优化老版兼容问题;
【离线】对接安全中心权限功能优化,修复选表无权限问题;
配置管理中的新建策略功能优化,选择hive数据源类型时,支持跨项目下的hive选择,同时优化跨集群的Hive名称展示问题;
问题修复,针对历史任务,编辑后页面出现数据源名称显示为数字的情况;
数据导入交互优化,导入新文件时,可选导入规则,涉及到联动字段时,支持展示并配置,去掉之前置灰的逻辑;
针对oracle到hive设置高级参数target.fileMergeNum后没有生效的问题修复;
【离线】交互优化,对于数据去向,涉及到preSQL和postSQL类型的数据源,统一放开条数至5条内容;
【离线】交互优化,自定义表达式输入框可调整长宽,支持Hover展示全部内容。
版本:v3.32.0
新增功能
1.【离线】离线传输任务,Spark引擎下,数据去向为MySQL时支持快速建表功能;
- 功能介绍:
- Spark引擎下,离线传输任务,当数据去向为MySQL时,新增支持快速建表操作,支持选择执行建表引擎,选择行模式、字符集等内容;
- 配置管理中,针对离线同步任务快速建表功能,特殊字段类型映射规则新增支持配置数据去向为MySQL表的字段类型;
2.【离线】离线传输任务,Spark引擎下,数据去向为Hive时快速创建Hive表支持配置表/分区生命周期。
- 功能介绍:
- 依赖数据治理360功能,若未部署数据治理360,则不支持对Hive表配置表/分区生命周期。
3.【实时】实时传输任务,自定义表达式功能增强。
- 功能介绍:
- 当数据去向为非kafka类型时,在字段映射配置页面,支持选择自定义表达式,新增支持${gtids}、${eventid}、${process_time}、${database}和${table},且会根据来源类型和序列化格式动态展示可选择的自定义表达式;
- 当数据去向为kafka(来源为非kafka)时,在高级配置页面,高级参数metadata.fields参数新增支持${gtids}、${eventid}、${process_time}、${database}和${table};
功能优化
【离线】离线同步任务血缘推送至数据地图,可在数据地图侧查看数据血缘,补充血缘链路。
【离线】融入离线开发的交互优化,针对已经删除进入回收站的任务,在查看离线同步任务引用详情时,展示该任务已移入回收站且不支持点击跳转。
【实时】报错文案优化,将异常问题进行归类,按照不同的报错原因返回展示,修复解析Topic字段时服务异常却报错topic无数据的问题。
【离线】修复不同项目组下数据源名称不一致但ID相同导致的发布中心导入任务包报错的问题。
【实时】修复SQLServer数据源类型在登记时未填写port使用默认端口导致实时任务运行报错的问题。
【实时】遗留问题修复,支持kafka source使用嵌套字段报错的问题修复。
版本:v3.31.0
新增功能
1.【离线】离线传输任务,Spark引擎下,数据来源和去向适配SQLServer2022版本;
- 功能介绍:
- Spark引擎下,离线传输任务,数据来源和去向为SQLServer时,支持2022版本创建离线同步任务。
2.【离线】Elasticsearch作为数据来源时,支持获取隐藏索引下的数据内容,并支持配置离线同步任务。
- 功能介绍:
- 依赖元数据中心产品功能,在Spark引擎下,离线传输任务,当Elasticsearch作为数据来源时,支持获取隐藏索引下的数据创建离线同步任务。
版本:v3.30.0
新增功能
1.【离线】FTP数据源类型适配spark3.3.4版本;
2.【离线】离线传输任务,Spark引擎下,数据去向新增RabbitMQ数据源类型;
- 功能介绍:
- Spark引擎下,离线传输任务,数据去向新增RabbitMQ数据源类型,支持数据写入;
3.【配置管理】快速创建表配置功能增强,支持下载物理字段和JDBC类映射规则,支持配置不同数据源的字段映射;
- 功能介绍:
- 配置管理,针对离线同步任务,快速创建表配置中,新增物理字段和JDBC类映射规则文件下载功能;
- 新增对于特殊字段类型映射规则自定义的功能,可选择诸如MySQL、SQLServer等数据源来源,配置快速建表的去向字段类型;
- 文案优化,细化物理字段和JDBC字段类型的内容显示。
4.【离线】spark引擎下,当数据来源/去向为登记的Hive类型且登记版本为3.1.x-CDP7.1.x时,支持针对大表传输场景进行优化。
- 功能介绍:
- 来源/去向为3.1.x-CDP7.1.x的hive类型时,支持分区过滤功能;
- 在源端为Hive大表传输场景下建议填写,可用于筛选Hive表分区显著提升数据读写性能,支持标准的where查询语句,仅需要填写涉及分区字段的条件表达式即可。
5.【离线】当数据去向为登记的Hive且版本为EasyData 2.1.x-Hadoop2.9.2版本时,分区表情况下支持动态写入功能;
6.【离线】Spark或DataX引擎下,支持向导/SQL模式下创建任务的openapi功能;
功能优化
1.【离线】修复hive2redis场景下,日志无报错但redis只写入少量数据的问题;
2.部署提效,支持对接控制台的统一域名来实现快速修改域名;
3.问题修复,登记PostgreSQL时,当版本为13.2时支持使用高版本驱动。
版本:v3.29.0
新增功能
- 【离线】Spark任务引擎下,当数据去向为Elasticsearch数据源类型时,支持选择或手动输入静态索引,支持配置preDSL和postDSL内容;
- 功能介绍:
- 当Elasticsearch数据源作为数据去向,静态索引下,支持选择已存在的索引或手动输入不存在的索引;
- 在静态或动态索引模式下,均支持配置preDSL或postDSL内容,比如可以配置mappings或分片数量等属性;
版本:v3.28.0
新增功能
1.【离线】DataX任务引擎下,数据来源和去向支持FTP数据源类型;
- 功能介绍:
- 创建离线同步任务时,若任务引擎为DataX,数据来源和去向均支持FTP数据源类型;
2.【离线】DataX任务引擎下,数据来源和去向支持Kafka数据源类型;
- 功能介绍:
- 创建离线同步任务时,若任务引擎为DataX,数据来源和去向均支持Kafka数据源类型;
3.【离线】创建离线同步任务,向导和SQL模式下,数据来源和去向适配Doris新版本(2.1),且若去向为Doris时快速建表功能也适配支持Doris新版本(2.1);
4.【实时】创建实时同步任务,数据去向适配Doris新版本(2.1);
5.【离线】离线传输任务的脏数据管理功能适配spark3.3.1版本;
6.【离线】Spark任务引擎下,若来源为MongoDB,去向为Hive时支持快速建表操作;
7.【离线】线上任务支持存储目录的功能,按照开发环境任务最新一次提交时的目录作为线上任务的目录,且在发布中心对线上任务进行发布时,将按照线上任务的存储目录,发布至接收方对应的目录下,若目录不存在,将新建同名目录;
8.【实时】对于Oracle数据源增加开关配置,默认展示Oracle数据源,但仅默认展示其ogg的增量读取方式;
功能优化
1.【离线】FTP作为数据来源时数据目录引用参数组功能优化,支持文件筛选"部分"时直接选择或表达式选择情况下均支持参数组功能;
2.【离线】Spark任务引擎下,FTP作为数据来源时,配置字段信息功能增加开关,默认为关,若开启之后,针对text、csv、excel文件格式,联动新增文件包含标题、标题所在行数以及字段信息内容,且增加提示,文件包含标题仅用于字段信息解析;
3.【实时】报警功能优化,新增延迟metric自动恢复的逻辑;
4.【离线】修复线上任务和开发环境任务重名的问题。
5.【离线】spark任务引擎下,若数据去向为kafka类型,生产者配置中默认去掉消费者的参数配置。
版本:v3.27.0
新增功能
- 【离线】数据来源为FTP,数据去向为Doris时,支持快速创建Doris表,FTP支持定义schem内容;
- 功能介绍:
- 数据来源为FTP时,支持自定义schema内容,当文件格式选择text、csv、excel时,支持选择文件是否包含标题以及标题所在的行数,可填写字段信息;当文件格式选择xml时,无需定义字段信息;
2.【离线】数据去向为Doris时,快速创建Doris表弹框优化,支持选择表类型。
- 功能介绍:
- 当选择表类型为明细表时,需要选择Key列,支持多选;
- 当选择表类型为主键表时,同样需要选择Key列,支持多选;
- 当选择表类型为聚合表时,需要选择Key列和Value列,且Value列需要选择对应的聚合类型,需要注意的是,Value列和Key列字段不可重复,value列支持选择多个字段,配置不同的聚合类型。
3.【离线】当任务引擎为Datax时,向导模式下数据来源和去向新增达梦数据源类型;
4.【离线】当任务引擎为DataX时,向导和SQL模式下,数据来源和去向适配MySQL8版本;
5.【离线】页面形式批量创建离线任务,任务引擎为DataX时,数据来源支持达梦类型,并适配MySQL8版本。
6.【离线】当任务引擎为DataX时,向导模式下,数据来源新增MongoDB类型;
7.【离线】当任务引擎为DataX时,向导模式下,数据来源新增本地文件类型(DataXLocal);
8.【离线】当任务引擎为DataX时,自定义参数中支持对channel数、脏数据、batchsize、jvm等参数进行配置;
9.【离线】离线同步任务列表,新增来源数据源和去向数据源信息展示,且支持对来源数据源和去向数据源进行筛选操作;
10.【实时】实时同步任务列表,支持批量删除操作;
11.【离线】数据去向为SQLServer时,写入规则支持merge into,且联动显示更新键字段,支持选择SQLServer表中的字段,支持多选。
12.【离线】以页面形式批量创建离线同步任务时,第三步支持对创建失败的任务执行重试操作;
13.【离线】【实时】数据去向支持快速建表的类型,表名统一长度为1~128个字符,包括离线(数据去向为Doris、StarRocks、iceberg、clickhouse、greenplum、内置hive)和实时(数据去向为内置hive、iceberg、starrocks)场景。
14.【离线】spark引擎下,向导模式,数据来源和去向新增influxDB数据源类型;
15.【离线】当任务引擎为DataX时,且数据来源为HDFS,字段映射支持删除操作,支持选择字段不导入功能,且支持自定义索引字段类型的功能,支持对字段映射列表进行调整。
16.【实时】自定义参数内容优化,支持对字段类型是否转换等进行配置;
17.【离线】spark引擎下,支持选择cdp版本的Hive数据,新增hive类型适配;
18.【实时】实时传输数据去向写入分区功能增强,支持对不同表结构的写入分区进行配置;
19.【离线】审批策略功能增强,支持使用范围授权,可将当前项目下创建的策略分享给其他项目复用;
功能优化
1.rocketmq版本问题修复,版本号和元数据中心对齐;
2.数据同步任务融合离线开发任务功能优化,支持对无编辑权限的用户进行置灰操作,无编辑权限的用户在离线开发侧不支持引用离线同步任务;
3.starrocks大小写敏感问题修复;
4.【离线】spark引擎下,当数据去向为vertica时,写入规则支持选择copy的限制条件进行调整:若数据来源类型为FTP-text,仅当特殊字符替换开关关闭时,写入规则才支持选择copy,其他情况下不限制copy的选择。
5.【离线】spark引擎下,向导或sql模式,当数据去向为Doris或starrocks时,且导入方式选择stream load,导入间隔默认值从0调整为1000ms,新增batchsize必填字段,默认为5w;
6.【离线】从发布中心跳转到离线同步任务详情页面的url内容更新;
7.【离线】datax引擎下的数据血缘上传逻辑优化;
8.【实时】flink cdc oracle connector功能优化,自动增加心跳配置。
以上内容对您是否有帮助?