数据治理360从资源消耗、访问频度、预估费用、文件数、数量等多种维度对数据资产进行度量和评估,帮助分析数据的投入产出,优化项目成本,其中的数据备份功能协助用户将重要但有可能不经常访问的数据备份至冷备集群,实现重要数据的归档。

备份流程

平台支持数据按照全量和增量进行归档备份,在已有冷备集群的前提下,平台默认将指定的在线集群的数据迁移到已有的冷备集群中(目前冷备集群的配置由后台预置完成)。备份方案的整理流程如下图所示:
数据备份 - 图1

全量备份

  1. 全量备份数据时,任务单次执行;

  2. 考虑到备份数据量过大,也为了更方便的定位备份数据具体是何时失败的问题,全量备份以补数据的方式进行;

  3. 需要选择备份目录的开始时间和结束时间(以文件修改时间作为备份依据),平台会依此生成备份计划,以天为维度进行单位分割,按照猛犸平台补数据的方式运行全量备份任务;

  4. 任务创建成功后,平台会对应在离线开发数据治理360备份任务文件夹下创建同任务名称的开发任务,所以创建成功的任务编辑时,不允许修改任务名称和目录,以保证在离线开发不产生冗余的开发任务;

  5. 对任务点击启动后,后台生成备份实例,开启任务运行的一系列流程,为了满足冷备集群的备份权限,任务以项目keytab身份运行,管理员/负责人不需要关心keytab的设置,平台自动切换项目keytab执行任务;

  6. 改进后的数据备份方案支持带宽控制,备份任务启动前会统计所有运行中的任务消耗的带宽,如果冷备集群的带宽不够,则任务会进入休眠状态,直到带宽满足后继续运行,所以若备份任务列表中任务状态等待带宽,则是由于带宽问题导致的休眠状态;

  7. 若在备份过程中,备份目录与冷备集群存在目录同名冲突,提供三种策略供选择:添加时间后缀(目前是会将备份目录中同名的添加时间后缀,后面会更改为将冷备集群的同名目录添加时间后缀,保证备份目录与在线集群目录的一致性)、覆盖(覆盖将删除并替换目的地目录的同名文件)、跳过(跳过将不备份同名的目录);

  8. 备份完成后,对于在线集群的备份目录是否保留提供永久策略,默认不删除数据,用户可自行根据需求手动删除。

增量备份

  1. 增量备份任务时,任务定时调度

  2. 需要选择备份目录开始备份的时间(以文件修改时间为备份依据)以及备份的周期,平台会根据设置的时间和周期,按照猛犸平台任务调度的方式运行增量备份任务;

  3. 对增量备份任务点击启动后,默认启动时间即为任务的首次调度时间,根据备份时间和周期生成备份计划,以项目keytab执行任务;

  4. 其它步骤同全量备份的功能描述。

功能简介

在数据治理360产品界面,点击左侧的数据备份菜单,进入数据备份页面,当前包括表备份目录备份。表备份页面展示当前项目下累计备份表数据量、冷备表占比以及表备份列表。当前只有项目下的负责人/管理员或者在安全中心授权的用户可操作表备份相关功能。
数据备份 - 图2

目录备份页面可进行新增备份操作。目前新增备份只能由当前项目下的负责人/管理员或者在安全中心授权的用户创建。项目负责人/管理员或有权限的用户点击新增备份,在弹窗新建备份任务。
数据备份 - 图3

表备份

表备份页面中,选择需要冷备的表,点击设置表备份,打开配置页面。
数据备份 - 图4

当前产品给出增加累计预估备份表的费用,列表中针对每张表备份费用给出预估。在操作列中,如果当前备份任务有被配置调度,则可以前往任务运维中心查看。同时还提供备份空间的入口,点击按钮后可跳转至备份空间页面。

设置表备份弹框中,打开表备份开关,可根据分区修改时间的天数设置需要进行冷备数据的数据范围。
数据备份 - 图5

说明:
1. 当前只有分区表支持设置表备份。
2. 表备份时,根据分区修改时间为依据判断是否备份,且分区修改时间需大于三天之前的数据支持备份。
3. 外部表的目录文件,需满足分区路径处于表路径下且表路径未被其他表引用才支持设置冷备。
4. 备份策略生效后,系统将自动触发表备份任务,满足条件的表数据将备份至冷备集群。

目录备份

目录备份页签展示累计备份目录数据量和预估备份目录总费用的展示,同时在列表中展示备份目录、目的地目录、目录冷备存储量和预估冷备费用等字段内容。在操作栏除了启动、编辑按钮外,点击更多按钮展示任务运维和备份空间。
数据备份 - 图6

目录备份页面中,点击新增备份,可开始配置备份任务。

目录备份
1766a8207112c74d.png

参数信息 说明
备份任务名称 任务名称系统默认生成,因此此处不显示。
备份路径 当前在线集群下真实存储的待备份目录,目录层级进行限制至少是3级目录;支持同一个目录设置全量和增量备份,但增量备份时,不支持归档目录的子目录或父目录是已经设置增量备份任务的目录,可点击”?”查看hover提示。
备份内容 支持全量和增量。
备份方式 选择全量备份则默认只能单次执行;选择增量备份则支持调度备份。
备份范围 支持选择备份天数和备份数据的时间区间,结合备份模板,实现特定时间段的数据全量/增量备份。
备份模板 支持根据模板设置需要备份的数据,需同时包含年、月、日或年、月、日、小时变量,如果不输入,则按照“目录修改时间+天数/备份数据区间”进行备份。
存在同名目录 若目的地目录存在同名目录的处理策略,默认添加时间后缀。
备份保留策略 对于在线集群的备份目录,默认备份任务完成后,不删除数据。
自动重试 可对备份任务开启失败重试功能,若开启,需要填写重试间隔和重试次数。

基于设置的备份条件,系统支持检测需要备份的内容,确认后才会真正创建备份任务。
数据备份 - 图8

任务维护

在备份任务列表,对创建成功的任务进行启动,后台将基于任务内容,生成任务包,在离线开发平台中上传任务包并将任务提交上线,执行任务备份(执行过程用户无感知,只需点击启动功能即可)。
数据备份 - 图9

启动成功的任务,在离线开发数据治理360备份任务文件夹下,对应任务状态变更为已调度且线上项目。
数据备份 - 图10

处于运行中的任务不允许编辑,未启动和已停止的任务可以点击编辑按钮执行操作。

由于任务创建成功,将同步在离线开发的数据治理360备份任务文件夹下生成同名开发任务,故任务名称和目录不可更改。支持点击任务名称,弹窗查看任务详情内容。

任务运维

对于运行中和已停止状态的任务,可以点击操作栏的任务运维跳转至任务运维中心,查看备份任务的执行情况 (对于未启动的任务,因为未产生实例,所以任务运维功能置灰,不可点击)。

对于全量备份,任务单次执行,根据设置的备份开始时间和结束时间范围,将任务按照天拆分,若其中有某天的数据备份失败,可执行重跑等操作,也避免单次备份数据量过大造成任务失败。

对于增量备份,任务定时调度,根据设置的备份开始时间以及调度周期,生成调度计划。

任务删除

运行中的任务不允许删除(处于运行中的任务,前面的选中按钮不可选),未启动和已停止的任务可以选中,点击删除按钮执行操作。删除任务时,平台会同步删除对应的离线开发任务,删除成功后,离线开发的数据治理360备份任务文件夹下将不再有该备份任务。

备份空间

备份空间用来展示累计备份数据量、费用和备份数据空间占比信息,仅统计通过平台设置表和目录备份功能迁移的数据。
数据备份 - 图11

备份空间支持备份数据量和费用趋势图展示,在列表中展示备份目录名称、文件大小和修改时间等基本信息。

对于非根目录,点击返回上一级按钮支持快速返回上一级。
数据备份 - 图12

备份恢复

为了支持将备份空间的数据可以恢复,平台提供备份恢复的功能,可以通过选择备份空间中的目录数据,创建恢复任务,将目录数据恢复至指定目录或者源目录下。

最上方会展示通过创建恢复任务累计恢复的数据量和累计恢复的文件数。
数据备份 - 图13

点击新增恢复弹窗,可以选择备份空间中的数据,可以指定恢复目的地,或者恢复到源目录下,恢复任务单次执行,同样会生成对应的任务,支持在任务列表中点击快捷键前往任务运维中心查看恢复任务的运行状况。

数据备份 - 图14