数据传输

版本:v3.32.0

新增功能
  1. 【离线】离线传输任务,Spark引擎下,数据去向为MySQL时支持快速建表功能;
  • 功能介绍:
    • Spark引擎下,离线传输任务,当数据去向为MySQL时,新增支持快速建表操作,支持选择执行建表引擎,选择行模式、字符集等内容;
    • 配置管理中,针对离线同步任务快速建表功能,特殊字段类型映射规则新增支持配置数据去向为MySQL表的字段类型;
  1. 【离线】离线传输任务,Spark引擎下,数据去向为Hive时快速创建Hive表支持配置表/分区生命周期。
  • 功能介绍:
    • 依赖数据治理360功能,若未部署数据治理360,则不支持对Hive表配置表/分区生命周期。
  1. 【实时】实时传输任务,自定义表达式功能增强。
  • 功能介绍:
    • 当数据去向为非kafka类型时,在字段映射配置页面,支持选择自定义表达式,新增支持${gtids}、${eventid}、${process_time}、${database}和${table},且会根据来源类型和序列化格式动态展示可选择的自定义表达式;
    • 当数据去向为kafka(来源为非kafka)时,在高级配置页面,高级参数metadata.fields参数新增支持${gtids}、${eventid}、${process_time}、${database}和${table};
功能优化
  1. 【离线】离线同步任务血缘推送至数据地图,可在数据地图侧查看数据血缘,补充血缘链路。

  2. 【离线】融入离线开发的交互优化,针对已经删除进入回收站的任务,在查看离线同步任务引用详情时,展示该任务已移入回收站且不支持点击跳转。

  3. 【实时】报错文案优化,将异常问题进行归类,按照不同的报错原因返回展示,修复解析Topic字段时服务异常却报错topic无数据的问题。

  4. 【离线】修复不同项目组下数据源名称不一致但ID相同导致的发布中心导入任务包报错的问题。

  5. 【实时】修复SQLServer数据源类型在登记时未填写port使用默认端口导致实时任务运行报错的问题。

  6. 【实时】遗留问题修复,支持kafka source使用嵌套字段报错的问题修复。

数据标准

版本:v2.2.9

新增功能

1.标准拾取任务新增元数据获取方式

  • 功能介绍
    • 标准拾取原仅支持选择数据库来获取元数据,如元数据维护在线下则无法使用此功能,故此版本扩展了元数据获取方式。
    • 拾取内容为词根时,元数据获取方式支持:上传文件、手动填写;拾取内容为数据元时,元数据获取方式支持:上传文件。
    • 元数据获取方式为上传文件时,请下载模板并按照模板要求上传文件,仅支持上传excel文件,且不大于20M,文件行数不可超过50000行。
    • 元数据获取方式为手动填写时,请在字段描述输入框填写字段描述,字段描述间换行分隔,最多可填写200项字段描述。

2.词根增加“类型”配置项

  • 功能介绍
    • 词根类型区分普通词根和专有词根。
    • 专有词根与普通词根相对,指具有专门性的词根,如:社会统一信用代码、经纬度、分区日期;
    • 在标准拾取-词根拾取中,根据字段描述拆分词根时,会优先匹配专有词根。

指标系统

版本:v2.8.17.2

功能优化

1.支持查询指标自定义目录的OpenAPI接口

  • 功能介绍

    • 提供查询指标自定义目录的OpenAPI接口

版本:v2.8.17.3

功能优化

1.指标英文名称翻译和拼接优化

  • 功能介绍

    • 之前原子指标、派生指标的英文名称需要用户手工输入,本次优化后原子指标英文名称支持按照词根翻译进行推荐,例如“交易金额”这个原子指标,在已存在词根交易(trade)、金额(amount)时,则支持词根翻译后的原子指标英文名称推荐为“trade_amount”;派生指标的英文名称支持按照修饰词+原子指标+时间周期的英文进行拼接推荐,例如“近7天PC端交易金额”这个派生指标,可以由修饰词PC端、原子指标交易金额、时间周期近7天拼接为“pc_trade_amount_7d”。通过以上方式可以快捷高效、规范化命名原子指标和派生指标的英文名称。
  • 操作步骤

    • 提前创建好时间周期、修饰词、词根等,在创建原子指标时可自动查看推荐的英文名称,在创建派生指标时可自动查看推荐的英文名称

指标平台

版本:2.6.6.1

功能优化

1.模型分区设置中,区分T-1分区和最新分区

  • 功能介绍

    • 之前模型最新分区是按照自然日T-1来计算的,本次优化后最新分区是实际分区创建时间最晚的分区,和原有的T-1分区进行区分,并增加提示说明文案 2.指标详情页,模型名称增加跳转查看详情的链接
  • 功能介绍

    • 指标详情查看模型时,为了方便跳转模型详情,本次增加了跳转链接,提升用户体验

维度建模

版本:v2.0.0

新增功能

1.AutoETL支持适配SR、Doris

  • 功能介绍

    • 导入模型时,StarRocks、Doris支持2种导入模板分别是“批量建表&数据传输任务(ODS层)”、“批量建表&离线开发任务(DWD、DWS、DIM、ADS)”。通过该模板可以自动建表和建任务,快速建模提升数据开发人员效率

      • 针对第一个模板,可以在Excel中填写表信息、表结构信息、表来源、数据传输任务信息等,导入后系统可自动基于源表生成ODS表、自动创建数据传输任务;

      • 针对第二个模板,可以在Excel中填写表信息、表结构信息、字段加工逻辑、离线开发任务信息、调度信息、依赖信息等,导入后系统可自动创建表、生成ETL SQL加工代码、离线开发任务及其调度依赖信息等

离线开发&自助分析

版本:v7.14.6+v7.14.7

新增功能

1.【离线开发】批量操作新增“任务池”,支持对“任务池”全量任务批量执行操作

  • 功能介绍:
    • 批量操作列表页,支持批量添加任务至任务池。任务池的任务数上限默认为1000,如需调整上线请联系运维人员修改EasyOps配置。
    • 在任务池内,支持基于数据源引用添加任务。选择某一数据源后,支持添加引用该数据源的离线开发任务,具体包含: 离线同步节点、SQL节点、轮询节点引用该数据源。最多支持搜索1000个任务。
    • 在任务池内,支持基于任务血缘添加任务。首先,请选择源头任务,支持以任务池已添加的所有任务或手动指定的任务作为源头任务。随后,请选择任务模式,指计算任务血缘时是按照线上模式的任务依赖来计算,还是按照任务的开发模式的任务依赖来计算。最后,请选择血缘方向和血缘层级。配置完成后,系统会按照以上血缘配置来搜索任务。最多支持搜索1000个任务。
    • 考虑到批量删除、取消调度等批量操作,如下游任务未操作会导致上游任务也操作失败,故在任务池内支持检测上下游。通过检测上下游,可以识别出任务的直接上游 或 直接下游不在任务池内的任务。在查看某一任务的直接下游任务时,也支持将所有不在任务池内的本项目的直接下游任务添加至任务池。
    • 支持对“任务池”的全量任务批量执行操作,并支持前往批量操作的操作历史查看任务池批量操作的操作历史。

2.【离线开发】批量操作新增操作类型:发送通知、下载任务清单

  • 功能介绍:
    • 批量操作新增操作类型:发送通知、下载任务清单。

3.【自助分析】Query/Notebook支持代码恢复

  • 功能介绍:
    • Query/Notebook支持本地代码缓存机制,如修改未保存,再次进入该Query/Notebook时会提示已缓存了未保存的代码,支持选择使用服务器已保存的代码或本地缓存的代码。

4.【离线开发】任务运行设置中,完成通知新增选项:质量异常、质量检测失败

  • 功能介绍:
    • 如任务开发模式运行的节点配置了质量监控(含嵌套流节点被引用的任务配置了dqc),则完成通知新增2个选项:质量异常、质量检测失败。任务运行完成后,如果符合条件则会发送报警。
功能优化

1.【离线开发+自助分析】Doris适配2.1.7版本

2.【离线开发】任务停止中时,”停止“按钮禁用以避免重复停止

3.【自助分析】数据源类型为默认类型时,Hive引擎增加Hive3驱动

4.【离线开发】任务未修改时,“保存”按钮禁用

5.【离线开发】任务提交上线成功后,页面自动刷新展示最新的任务版本

任务运维中心

版本:v1.19.6

新增功能

1.任务血缘DAG图支持按层级展开

  • 功能介绍:
    • 当任务依赖十分复杂时,原先的DAG图无法直观清楚查看上下游依赖,此次新增功能支持按层级展开,用户可以选择自己关注的依赖链路逐级查看上下游依赖关系,提高血缘查看效率。
功能优化

1.任务血缘新增列表视图

  • 功能介绍:
    • 任务详情页-任务血缘标签页下,新增列表视图,用户可以切换流程视图和列表视图,查看实例上下游任务。

2.项目组运维大盘和周期实例大盘统计口径逻辑优化

  • 功能介绍:
    • 任务的统计口径:取消调度、暂停调度和调度生效的任务不再统计在内,从某时刻起任务被取消调度/暂停调度/调度失效,则下一次计算时该部分任务不会统计在内。
    • 实例的统计口径:实例生成后就会被统计在内,跟任务调度状态无关;被嵌套流节点引用而生成的实例不会统计在内。

实时计算

版本:v4.13.0

新增功能

1.【实时开发】流表新增数据源类型:Doris,引擎版本支持Flink1.18、Flink1.1.4

  • 功能介绍:
    • 流表新增数据源类型:Doris,引擎版本支持Flink1.18、Flink1.1.4,支持作为源表、维表、目标表。

数据服务

版本:v1.12.8

新增功能

1.响应示例支持编辑操作。

  • 功能介绍
    • 在API详情-响应示例页面,针对成功响应示例,数据来源支持选择系统填充或自定义的方式,系统填充的数据为该API最近一次测试成功后的返回数据,若选择了自定义,则支持对成功响应示例进行编辑;
    • 在API详情-响应示例页面,针对失败响应示例,支持编辑自定义内容。
  • 功能使用注意事项
    • 仅对API有编辑权限的用户,才支持在API详情页面编辑响应示例;
    • 编辑入口仅在API列表-API详情-响应示例页面,在API集市中的详情页面仅做展示,不支持编辑;
    • 为方便调用者使用,自定义响应示例时,响应示例的返回结构建议和真实返回的内容一致,仅修改返回参数变为伪数据以实现对隐私内容的保护。

数据资产地图

版本:v3.0.3

功能优化

1.表产出脚本增加IDE运行的SQL

  • 功能介绍

    • 之前表详情页产出脚本仅显示线上环境调度运行的SQL脚本,本次优化后用户如在开发环境更新代码并运行后,在地图的表详情页产出脚本处也能展示开发环境最新运行的SQL脚本,并且会显示产出脚本的运行环境和更新时间

2.目录名称更新后,同步更新其他页面展示的目录名称

  • 功能介绍

    • 之前用户修改资产目录名称后,在资产目录列表中仍显示修改前的目录名称,目录更新存在T+1延迟。本次优化后,目录名称更新后可在20分钟内将涉及到目录展示的地方均可更新为新的目录名称,优化用户体验

3.表详情数据探查功能适配的数据源类型扩展,并优化跳转链接

  • 功能介绍

    • 之前仅Hive表详情页支持探查报告,本次优化后MySQL、Oracle、SQLServer、StarRocks、Doris详情页也支持探查报告;

    • 用户若有创建数据探查的权限,则点击“创建探查任务”后可直接跳转到数据质量中心的形态探查模块发起探查任务,支持自动填充数据源类型、库、表信息

4.字段血缘支持展示来自离线同步和实时同步的任务

  • 功能介绍

    • 支持展示数据传输任务中Hive、StarRocks、Doris、Greenplum之间字段到字段的血缘
  • 详细操作步骤

    • 创建数据传输任务例如StarRocks写入HIve,任务运行后可查看Hive字段血缘中,来自上游StarRocks的字段

5.支持OpenAPI获取Hive全量元数据信息

  • 功能介绍

    • 平台提供相关OpenAPI接口用来获取hive表元数据信息,包括表中文名称、物理名称、表负责人、字段中文名称、字段物理名称、字段类型等,详细内容可查看OpenAPI文档

6.支持OpenAPI导入元数据表和列的自定义属性信息

  • 功能介绍

    • 在元数据管理中可以调用OpenAPI导入元数据表和列的自定义属性值,其中自定义属性可以在元数据注册模板中定义

数据质量中心

版本:3.15.1

新增功能

1.质量监控任务支持外置Hive数据源

  • 功能介绍:
    • 对于用户在项目中心(新)中登记的外部Hive且版本为3.1.x-CDP7.1.x的数据源,支持新建质量监控任务。具体而言,用户在创建监控任务时可以选择数据源类型为Hive(外置)的数据源。需注意,Hive(外置)数据源支持分区筛选、暂不支持异常数据存储功能。

2.提供接口支持批量新建比对任务

  • 功能介绍:
    • 支持通过接口对数据比对任务进行新建、运行、删除和查看运行结果操作。需注意,仅支持库表模式创建比对任务,不支持SQL模式。
功能优化

1.储存异常数据样本开关开启后,“运行质量监控任务时同步存储异常数据”调整为默认勾选且置灰。

2.创建数据比对任务时,若比对表有匹配的字段(字段名称相同时),则会自动勾选该字段。

3.监控任务已经设置独立调度or已经被离线开发节点引用时支持修改分区筛选和过滤条件。

4.跨字段级模板规则数据源类型优化

  • 功能介绍:
    • 新建跨字段级模板规则时,对于主键相同字段整体一致校验、主键相同时字段内容一致校验、数值字段逻辑关系校验、日期字段逻辑关系校验、字段存在一致性校验这些比对规则,支持的数据源同新建比对任务时可选数据源进行了统一,即仅支持Hive数据源的同源和跨源比对,以及doris、starrocks数据源的同源比对。

发布中心

版本:1.8.2

新增功能

1.【发布策略】发布策略支持Hive外部表路径映射

  • 功能介绍
    • 在发布策略中,支持配置发布方与接收方的Hive外部表路径前缀映射。当发布方Hive外部表的路径前缀匹配到此处配置的发布方路径前缀时,发布时会将路径前缀替换为接收方路径前缀。路径中的发布方集群会默认替换为接收方集群,无需配置映射。
    • Hive外部表路径如果匹配到多项发布方路径前缀,则优先按照匹配度最高的发布方路径前缀映射。
    • 示例:发布策略中,发布方路径前缀:/user/hive_db/project_dev/db_dev,接收方路径前缀:/user/hive_db/project_dev/db_dev。发布方某一Hive外表的location为:hdfs://easyops-cluster/user/hive_db/project_dev/db_dev/table_a,则发布至接收方时,该Hive表的location会被替换为:hdfs://easyops-cluster2/user/hive_db/project_prod/db_prod/table_a。