更新时间:2021-09

本文为您介绍大数据开发平台最新的更新动态,基于此您可以了解大数据开发平台增加了哪些新功能、更新了哪些新特性等,进一步提高您的开发效率。

以下为基于EasyData-V6.2.0版本的增量更新的核心内容:

1 平台整体


1.1 改造

1)项目中心-数据管理迁移至安全中心

点击数据管理,会新标签页打开前往安全中心,数据权限统一由安全中心管理。

2 流程协作与通知中心


3 指标系统


4 数据传输


4.1 功能新增

1)支持增加Phoenix数据源,可作为数据来源和数据去向

2)支持增加Vertica数据源,可作为数据来源和数据去向

3)新增HDFS数据源(暂只支持本集群HDFS)

  • 数据来源为HDFS:

当读取方式为结构化时,数据去向支持所有去向端数据源

当读取方式为非结构化时,数据去向支持FTP、HDFS

  • 数据去向为HDFS:

数据来源支持所有来源端数据源

4)支持日志展示任务运行行结果数据:传输行数、传输字节数、传输耗时、传输速度

5)支持复制任务

6)支持任务移交负责人。同时,创建离线同步任务支持选择任务负责人(默认为创建任务用户),任务列表增加负责人列。

7)数据来源为FTP、读取方式为非结构化时,支持写入HDFS

8)新增任务分类功能及界面视觉优化,任务分类功能支持按数据源类型、数据源名称进行任务分类

9)任务详情页增加修改记录

4.2 功能完善

1)离线同步任务创建离线开发任务(原名:创建猛犸任务)支持选择指定文件夹

2)创建离线同步任务-数据来源与去向选择的交互优化

3)创建离线同步任务-字段映射目标端增加描述列

4)数据来源为FTP或HDFS、读取方式为非结构化时,线上任务-运行结果中显示读取总数据量

5)数据传输Oracle2Hive自动建表时字段保留精度

6)实时数据传输将topic的参数暴露在消费者配置中,消费者配置的属性增加topic的提示

7)数据来源为FTP、读取方式为非结构化时,增加流量控制功能

8)新增写入ftp后的标记文件配置。

flagFileSeparator:标记文件内容分隔符,默认’|’。

flagFileItems:标记文件包含的内容,默认rows,bytes。支持rows(行数),bytes(数据量,kb为单位),writeTime(写入时间),md5(文件md5值),写入顺序同配置的顺序。

flagFileSuffix:标记文件后缀,默认ok。

4.3 BUG修复

1)修复正则匹配能匹配到表的情况下误提示匹配结果为表不存在问题

2)修复读取sftp服务器dbf文件的异常

4.4 其它

1)“数据源管理”模块迁移至新产品“控制台”,具体可查看“控制台”产品的说明

5 数据测试中心


6 模型设计中心


7 自助分析


8 离线开发


8.1 功能新增

1)引入AI 2.0节点,升级AI平台任务调用模式

老的AI节点用于完成AI平台的任务调度执行,此次引入AI 2.0节点来替代AI节点。在任务列表,系统预置了AI文件夹,如果用户的环境中部署了AI平台,并接收AI平台推送的任务,就会显示AI文件夹。AI 2.0节点可以引用AI文件夹下的任务,完成AI任务的执行。

2)支持“批量导出任务”和“导入批量任务包”功能

该功能适用于部署了多套数据开发平台,且不同平台间网络不通的客户。主要用来完成将一个平台的离线开发任务,批量下载下来,并通过存储介质拷贝到另一个平台的离线开发中并导入。

目前仅支持将离线开发的线上任务内容(节点及内容、节点间依赖)、资源,以及其引用的任务、数据质量、离线同步任务、资源组ID等信息导出,导入时在导入端平台进行检测。

暂不支持任务调度信息,以及实际的被引用任务、数据质量任务配置、离线同步任务配置、具体的资源组等一并导出,也不支持任务所引用的表的变更、表的数据等的导出。

3)新增“参数组”功能

入口在离线开发的左上角“公共资源”,进入公共资源后,切换到“参数组”页签,即可查看参数组。参数组按照项目组来组织和展示。

“参数组”主要提供维护项目组内参数的功能,获取对应功能权限后,即可创建“参数组”,并在其中添加参数名称和参数组。离线开发的任务中,可以引用该参数组。参数组内参数发生变更时,可以同时影响所有引用该参数组的任务。

参数组被引用后,可在列表中查看“引用详情”。

4)离线开发新增VerticaSQL、MySQL、OracleSQL、GPSQL等4类节点,支持直接连接对应数据源执行

上述四类节点可由运维人员按需开启,默认都不会显示。开启后,即可在离线开发任务中使用该类节点,选择对应的数据源后,即可连接该数据源执行sql。

这里有2个注意点:

a)数据源的选择权限,需要管理员在安全中心对用户授权; b)如果数据源开启了“源系统账号鉴权”(可查看“控制台v1.0.0”的用户手册了解),则执行人员的账号和源系统的映射账号需要已经配置在数据源中。

5)离线开发新建任务时支持设置引用资源组、引用参数组、默认外部数据源

6)支持开发模式运行时,选择是否执行质量监控、资源组引用选择线上资源包还是开发资源包。

7)增加任务和节点支持超时终止

配合自动重试设置,即可实现因任务运行卡住过久时,可以自动终止并重试

8.2 功能完善

1)完善任务发布功能

任务发布功能至客户部署了两套数据开发平台,其中一套作为测试平台,一套作为线上平台,且两套平台的网络可以通。

此次,优化了任务发布的能力,可以实现按照平台-项目-集群粒度配置信息,发送至另一个平台-项目-集群。

2)线上模式的任务,编辑调度时,配置任务依赖和节点依赖的弹框内容优化

增加了任务依赖节点配置的点选顺序引导,增加了节点类型和是否末级节点的信息

3)新建离线表,字段类型未Decimal时,支持配置精度

9 任务运维中心(新)


10 数据质量中心


11 数据服务


11.1 功能新增

1)已发布的API支持在线升级,支持在线修改影响取数逻辑的字段,比如入参、请求、数据源等内容;

2)支持对API的版本历史进行管理,可选择其中两个版本,进行版本对比功能,对于不一致的地方,页面可标红提示;

3)针对API某个版本支持回滚;

4)HBase数据源,支持灵活指定返回参数,即便返回参数并未定义,也可通过系统参数获取;

5)在向导或者SQL模式下,支持DB2数据源类型创建API

6)支持API多环境,可配置生成测试、预发和线上等环境,对应不同的网关,且支持不同环境下的API配置同步更新等;

7)支持行级权限,从入参角度,设置行级权限方案;

8)新建和注册API,返回类型支持XML;

11.2 功能完善

1)API集市中,支持API详情生成单独的URL,可复制分享;

2)参数类型优化,默认字符串;

3)交互优化,API列表筛选项支持更多筛选内容;

4)非发布状态下,API集合变更为可修改;

5)API复制功能优化

11.3 BUG修复

1)修复oracle向导模式下因为SQL拼接逻辑不带库名导致的无法找到对应表的问题;

2)删除资源组失败,前端报错与后端实际错误内容不符合。

11.4 其它

1)“数据源登记”迁移至新产品“控制台”,具体可查看“控制台”产品的说明。

12 数据地图


12.1 功能新增

1)支持Hive表字段级血缘

  • 支持查看Hive表字段的上下游字段、上游字段表负责人
  • 字段血缘变更支持发送通知,通知方式包括邮件、短信、POPO等
  • 字段列表的操作列增加“血缘”按钮,点击可跳转查看该字段的血缘
  • 血缘说明文案优化

2)支持MySQL、Vertica表的搜索、展示

  • 数据查询页面支持搜索MySQL表,MySQL表详情页可展示库、表、数据源名、字段名、类型、描述、使用说明等基本信息
  • 数据查询页面支持搜索Vertica表,Vertica表详情页可展示库、表、数据源名、字段名、类型、描述、使用说明等基本信息

12.2 功能完善

1)完善Hive表详情页,增加“自助分析”快捷入口,可自动复制Select语句并跳转到自助分析产品界面

2)补充表名后面负责人信息,可唤起POPO,提高沟通效率

3)完善标准化标签、标签字段合并,口径展示位置优化,维度标签可查看维度标识、维表信息、维表跳转等

4)将“质量监控”改为“数据质量分”,展示相应分数、提示文案、质量监控的跳转链接,点击质量监控后跳转到质量监控列表页,并带上库表名的筛选项

12.3 BUG修复

1)分区信息的“刷新”按钮失效问题修复

2)字段枚举值较多导致展示不全问题修复

3)表详情页读取热度、引用热度异常问题修复

4)表血缘报超过单次查询不能超过200条异常问题修复

5)表血缘负责人和表详情负责人不一致问题修复

13 数据资产中心


13.1 功能新增

1)支持推荐下线表和生命周期管理的闭环邮件通知功能

2)架构改版,靠拢成本、质量、规范、安全和价值的产品定位

3)批量修改表负责人

4)目录分析,存储详情支持csv或txt格式下载

13.2 功能完善

1)对于已经设置了生命周期的表/分区,支持修改生命周期;

2)生命周期分布,支持根据主题域和表分层筛选,可点击柱状图快速查看表列表;

3)推荐下线表指标完善,区分强推荐和弱推荐,弱推荐表示该表可能存在写操作,建议均二次确认后,再执行下线操作。

4)Hive表详情内容丰富,增加成本、存储、修改和创建等时间,且扫描周期可在”配置管理”中设置,展示内容随扫描周期同步更新。

5)推荐下线表功能增强,增加下线失败表清单列表,若确认下线失败后,支持邮件通知,也可在下线失败表清单中查看失败的表明细及失败原因。

6)改版项目配置管理页面,更新下线规则说明和通知设置。

7)确认下线、加入白名单和批量修改负责人等功能按钮,权限控制在只有当前项目管理员、负责人和表负责人才有权限。

14 安全中心


14.1 功能新增

1)支持【权限申请】新功能

安全中心支持个人、项目账号对公开库、表的权限申请

2)支持【我的权限】新功能

安全中心支持展示当前登录账号的权限列表

3)支持【权限配置】新功能

安全中心预置了库、表的安全接口人:库-项目负责人,表-表owner,同时支持自定义库的安全接口人

安全中心预置了默认审批链路:直接主管+资源安全接口人,同时支持自定义审批的中间环节

14.2 功能完善

1)完善【数据安全】功能

14.3 BUG修复

1)修复【增加项目账号授权】问题

15 控制台


控制台未来会作为数据开发及管理平台的控制中心,负责管理平台的项目、资源、人员、项目配置等等。当前为控制台的首个版本,完成了数据源管理模块,数据服务和数据传输中的“数据源”模块都将迁移到此处统一管理。

15.1 功能新增

1)支持对项目组内的数据源进行统一管理

2)支持登记数据源,可登记的数据源类型支持按平台级配置,显示不同的可登记数据源

3)支持MySQL、VeritcaSQL、OracleSQL、GPSQL等4种数据源,在登记的时候开启“源系统账号映射”功能

开启该数据源的“源系统账号映射”后,支持对该数据源配置当前平台账号和该数据源的系统账号的映射关系,实现在离线开发中运行任务操作数据源时,使用执行者的本平台账号所映射的源系统账号执行。如果未配置账号映射,或者配置的账号权限过少,则会阻断任务的运行。

4)支持离线开发引用MySQL、Veritca、Oracle、GPS等4类数据源,并在此处显示引用信息

在安全中心将数据源授权给某些角色后,这类角色可以在离线开发中,使用MySQL、VeritcaSQL、OracleSQL、GPSQL等节点,连接对应的4类数据源进行SQL操作。

5)个人中心新增“数据源账号映射”配置,支持对当前用户配置各项目组下的数据源的账号映射

该功能主要用于“数据源”开启“数据源账号鉴权”功能时,具体用户可以对该数据源配置源系统账号和本平台账号的映射关系。当前用户在离线开发使用此类数据源时,可以用绑定的账号去执行SQL。