数据传输解决异构数据源之间的数据交换问题,是数据进出数仓的桥梁。

连锁便利店的业务数据存储在MySQL数据库中,首先需要将业务库中的数据集成至大数据开发及管理平台中,以便于后续的进一步处理,通过数据传输功能完成数据同步任务。

点击左上角的Logo,打开产品导航栏,点击数据传输产品,进入产品页面。
数据传输:连通业务库,完成数据集成 - 图1

在数据源管理Tab下,点击 数据源登记,选择MySQL数据源类型,填写数据源的基本信息,包括数据源连接串、用户名和密码,登记完成之后,可以在数据源列表中对连通性进行测试,保证元数据中心服务可正常访问登记的数据源信息,正确获取数据库表内容。
数据传输:连通业务库,完成数据集成 - 图2
数据传输:连通业务库,完成数据集成 - 图3

数据源测试成功后(本案例中使用的MySQL数据源名称为”cookbook数据源”),点击离线同步任务,选择新建任务,选择单个任务创建模式。
数据传输:连通业务库,完成数据集成 - 图4

新建任务分为三步骤:

  1. 第一步需要填写同步任务的基本信息,包括任务名称和基本描述;
    数据传输:连通业务库,完成数据集成 - 图5

  2. 第二步中选择数据来源和数据去向,本案例中选择cookbook数据源下的库表,选择Hive类型的bdms库作为数据去向,若Hive库下没有合适的存储表,数据传输服务支持快速创建表,点击快速创建表后,平台基于来源表的字段内容自动生成DDL语言,只需更换table名称即可(在对应库下快速新建表,前提是对该库有创建表的权限,可在项目配置-权限管理-数据权限,查看对应库下,当前用户对应的角色是否有创建表的权限)。
    数据传输:连通业务库,完成数据集成 - 图6
    数据传输:连通业务库,完成数据集成 - 图7

  3. 第三步,平台会展示来源表和目标表的字段的映射关系,可以选择某几个字段不导入,或者调整字段之间的映射关系。确认好映射关系之后,点击确定,同步任务即创建完成。
    数据传输:连通业务库,完成数据集成 - 图8

同步任务创建成功之后,在任务列表中可点击运行,支持直接跳转到日志中查看任务运行情况,任务运行成功之后,点击提交上线,可将该同步任务提交至离线开发的线上模式下(离线开发分为开发模式和线上模式,只有将同步任务提交上线,在线上模式中才可以引用该同步任务,执行任务调度等)。
数据传输:连通业务库,完成数据集成 - 图9

提交上线之后的任务,可以在线上任务列表中查看,若离线同步任务已经被任务引用,可以点击查看详情,快速了解同步任务被引用的详细信息。
数据传输:连通业务库,完成数据集成 - 图10

数据传输—功能扩展介绍

任务管理下,平台支持基于已经创建的数据集成任务,快速构建离线开发任务,生成的任务默认存放在默认文件夹。首先选中已经创建成功的数据集成任务,点击创建离线开发任务,弹窗中填写待创建的任务流的名称,任务流中各个节点任务的名称也可以进行预置,如果前后缀均未填写,则默认以source_table的名称命名节点任务的名称;如果选了多个数据集成任务,可设置分组数量,即离线开发生成的任务中,连接线分支的数量。
数据传输:连通业务库,完成数据集成 - 图11

点击创建之后,在离线开发的默认文件夹下可查看快速创建的任务,画布中与虚拟节点之间的连接线数量即为设置的分组数量。该功能适用于批量快速基于已有的集成任务创建离线开发任务,简化数据集成任务运行链路,提高数据同步任务提交上线的效率。
数据传输:连通业务库,完成数据集成 - 图12