数据资产从资源消耗、访问频度、预估费用、文件数、数量等多种维度对数据资产进行度量和评估,帮助分析数据的投入产出,优化项目成本,其中的数据备份功能协助用户将重要但有可能不经常访问的数据备份至冷备集群,实现重要数据的归档。

备份流程


平台支持数据按照全量和增量进行归档备份,在已有冷备集群的前提下,平台默认将指定的在线集群的数据迁移到已有的冷备集群中(目前冷备集群的配置由后台预置完成)。备份方案的整理流程如下图所示:
数据备份 - 图1

全量备份

  1. 全量备份数据时,任务单次执行;

  2. 考虑到备份数据量过大,也为了更方便的定位备份数据具体是何时失败的问题,全量备份以补数据的方式进行;

  3. 需要选择备份目录的开始时间和结束时间(以文件修改时间作为备份依据),平台会依此生成备份计划,以天为维度进行单位分割,按照猛犸平台补数据的方式运行全量备份任务;

  4. 任务创建成功后,平台会对应在离线开发数据资产备份任务文件夹下创建同任务名称的开发任务,所以创建成功的任务编辑时,不允许修改任务名称和目录,以保证在离线开发不产生冗余的开发任务;

  5. 对任务点击启动后,后台生成备份实例,开启任务运行的一系列流程,为了满足冷备集群的备份权限,任务以项目keytab身份运行,管理员/负责人不需要关心keytab的设置,平台自动切换项目keytab执行任务;

  6. 改进后的数据备份方案支持带宽控制,备份任务启动前会统计所有运行中的任务消耗的带宽,如果冷备集群的带宽不够,则任务会进入休眠状态,直到带宽满足后继续运行,所以若备份任务列表中任务状态等待带宽,则是由于带宽问题导致的休眠状态;

  7. 若在备份过程中,备份目录与冷备集群存在目录同名冲突,提供三种策略供选择:添加时间后缀(目前是会将备份目录中同名的添加时间后缀,后面会更改为将冷备集群的同名目录添加时间后缀,保证备份目录与在线集群目录的一致性)、覆盖(覆盖将删除并替换目的地目录的同名文件)、跳过(跳过将不备份同名的目录);

  8. 备份完成后,对于在线集群的备份目录是否保留提供永久策略,默认不删除数据,用户可自行根据需求手动删除。

增量备份

  1. 增量备份任务时,任务定时调度

  2. 需要选择备份目录开始备份的时间(以文件修改时间为备份依据)以及备份的周期,平台会根据设置的时间和周期,按照猛犸平台任务调度的方式运行增量备份任务;

  3. 对增量备份任务点击启动后,默认启动时间即为任务的首次调度时间,根据备份时间和周期生成备份计划,以项目keytab执行任务;

  4. 其它步骤同全量备份的功能描述。

功能简介


在数据资产中心产品界面,点击左侧的数据备份菜单,进入数据备份页面,当前包括表备份目录备份。表备份页面展示当前项目下累计备份表数据量、冷备表占比以及表备份列表。当前只有项目下的负责人/管理员可操作表备份相关功能。
数据备份 - 图2

目录备份页面可进行新增备份操作。目前新增备份只能由当前项目下的负责人/管理员创建,非负责人/管理员角色,仅能在该页面查看备份任务。项目负责人/管理员点击新增备份,在弹窗新建备份任务。
数据备份 - 图3

表备份

表备份页面中,选择需要冷备的表,点击设置表备份,打开配置页面。
数据备份 - 图4

设置表备份弹框中,打开表备份开关,可根据分区修改时间的天数设置需要进行冷备数据的数据范围。
数据备份 - 图5

说明:
1. 当前只有分区表支持设置表备份。
2. 表备份时,根据分区修改时间为依据判断是否备份,且分区修改时间修大于三天之前数据支持备份。
3. 外部表的目录文件,需满足分区路径处于表路径下且表路径未被其他表引用才支持设置冷备。
4. 备份策略生效后,系统将自动触发表备份任务,满足条件的表数据将备份至冷备集群。

目录备份


目录备份页面中,点击新增备份,可开始配置备份任务。

全量备份
数据备份 - 图6

参数信息 说明
备份任务名称 任务名称,任务创建成功后,将生成同名的离线开发任务,存放在离线开发的”数据资产备份任务”文件夹下。
备份目录 当前在线集群下真实存储的待备份目录,目录层级进行限制至少是3级目录;支持同一个目录设置全量和增量备份,但增量备份时,不支持归档目录的子目录或父目录是已经设置增量备份任务的目录,可点击”?”查看hover提示。
备份内容 选择全量备份。
备份方式 选择全量备份则默认只能单次执行。
备份开始时间和结束时间 即待备份文件的开始和结束时间,以文件修改时间作为全量备份依据;结束时间不得早于当前时间。
存在同名目录 若目的地目录存在同名目录的处理策略,默认添加时间后缀。
备份保留策略 对于在线集群的备份目录,默认备份任务完成后,不删除数据。
自动重试 可对备份任务开启失败重试功能,若开启,需要填写重试间隔和重试次数。

增量备份
数据备份 - 图7

参数信息 说明
备份任务名称 任务名称,任务创建成功后,将生成同名的离线开发任务,存放在离线开发的”数据资产备份任务”文件夹下。
备份目录 当前在线集群下真实存储的待备份目录,目录层级进行限制至少是3级目录;支持同一个目录设置全量和增量备份,但增量备份时,不支持归档目录的子目录或父目录是已经设置增量备份任务的目录,可点击”?”查看hover提示。
备份内容 选择增量备份。
备份方式 选择增量备份则默认为定时调度。
备份起始时间 待增量备份文件的起始时间,以文件修改时间作为增量备份依据,为防止增量备份数据缺失,备份起始时间+执行间隔需小于当前时间。
备份执行间隔 即待备份文件的备份天数,也表示定时调度的周期时间,默认以天为单位,支持切换以小时为单位。
存在同名目录 若目的地目录存在同名目录的处理策略,默认添加时间后缀。
备份保留策略 对于在线集群的备份目录,默认备份任务完成后,不删除数据。
自动重试 可对备份任务开启失败重试功能,若开启,需要填写重试间隔和重试次数。

任务维护


在备份任务列表,对创建成功的任务进行启动,后台将基于任务内容,生成任务包,在离线开发平台中上传任务包并将任务提交上线,执行任务备份(执行过程用户无感知,只需点击启动功能即可)。
数据备份 - 图8

启动成功的任务,在离线开发数据资产备份任务文件夹下,对应任务状态变更为已调度且线上项目。
数据备份 - 图9

处于运行中的任务不允许编辑,未启动和已停止的任务可以点击编辑按钮执行操作。

由于任务创建成功,将同步在离线开发的数据资产备份任务文件夹下生成同名开发任务,故任务名称和目录不可更改。支持点击任务名称,弹窗查看任务详情内容。

任务运维


对于运行中和已停止状态的任务,可以点击操作栏的任务运维跳转至任务运维中心,查看备份任务的执行情况 (对于未启动的任务,因为未产生实例,所以任务运维功能置灰,不可点击)。

对于全量备份,任务单次执行,根据设置的备份开始时间和结束时间范围,将任务按照天拆分,若其中有某天的数据备份失败,可执行重跑等操作,也避免单次备份数据量过大造成任务失败。

对于增量备份,任务定时调度,根据设置的备份开始时间以及调度周期,生成调度计划。

任务删除


运行中的任务不允许删除(处于运行中的任务,前面的选中按钮不可选),未启动和已停止的任务可以选中,点击删除按钮执行操作。删除任务时,平台会同步删除对应的离线开发任务,删除成功后,离线开发的数据资产备份任务文件夹下将不再有该备份任务。