此文档用于记录大数据开发与管理平台中,数据治理360所有对外开放的OpenAPI,阅读此手册,你将了解数据治理360开放的OpenAPI能力与调用方法。

一、公共参数

1.1 响应格式

名称 类型 描述
code Number 响应码
reqId String 请求ID
cost Number 耗时,单位:ms
msg String 响应消息
result Object 响应结果

1.2 异常响应码

响应码 说明
1000 HIVE表管理异常
2000 应用分析异常
3000 小文件分析异常

1.3 枚举列表

1.3.1 TableTypeEnum

HIVE表类型枚举

枚举值 类型 名称
MANAGED_TABLE String 内部表
EXTERNAL_TABLE String 外部表
VIRTUAL_VIEW String 视图表
1.3.2 LifeCycleTypeEnum

HIVE表设置生命周期类型

枚举值 类型 名称
forever String 永久
temporary String 临时
1.3.3 LifeCycleStatusEnum

HIVE 表生命周期状态枚举

枚举值 类型 名称
0 Number 未设置生命周期
1 Number 已设置生命周期
1.3.4 OfflineStatusEnum

HIVE表推荐下线状态枚举

枚举值 类型 名称
0 Number 正常
1 Number 推荐下线
2 Number 确认下线
1.3.5 OfflineActionStatusEnum

HIVE表物理下线状态枚举

枚举值 类型 名称
1 Number 确认下线
2 Number 删除中
3 Number 删除成功
4 Number 删除失败
1.3.6 TblOfflineLevelEnum

HIVE表推荐下线等级枚举

枚举值 类型 名称
0 Number 不推荐下线
1 Number 弱推荐下线
2 Number 强推荐下线
1.3.7 ScheduleTypeEnum

任务调度类型枚举

枚举值 类型 名称
SCHEDULE String 调度
RERUN String 重跑
LINKED_BACKFILL String 补数据
LINKED_BACKFILL_RERUN String 补数据重跑
pandora-cron String 调度 (DAS 平台)
pandora-rerun String 手动重跑 (DAS 平台)
pandora-fix String 补数据/回跑 (DAS 平台)
pandora-normal String 手动执行 (DAS 平台)
pandora-zp-cron String zeppelin调度 (DAS 平台)
pandora-zp-rerun String zeppelin手动重跑 (DAS 平台)
pandora-zp-fix String zeppelin补数据/回跑 (DAS 平台)
pandora-zp-normal String zeppelin手动执行 (DAS 平台)
1.3.8 ProjectTypeEnum

任务类型枚举

枚举值 类型 名称
flowGroup String 任务组任务
flow String 流任务
job String 节点任务
TASK String 节点任务(DAS 平台)
TASK_FLOW String 单节点流任务(DAS 平台)
TASK_NODE String 多节点流任务(DAS 平台)
1.3.9 JobTypeEnum

job类型枚举

枚举值 类型 名称
sqoop String 数据库传输
ndi String 数据同步
hiveSql String SQL(hive)
sparkSql String SQL(spark)
ai String AI
scriptCube String Cube
mr String MR
spark String Spark
script String Script
hadoopJavaKafkaImport String Kafka入库
hadoopJavaKafkaArchive String Kafka归档
decision String 选择节点
nestedFlow String 嵌套流
noop String 虚拟节点
dqc String 数据质量
mail String 邮件任务(DAS 平台)
transmit String 数据传输任务(DAS 平台)
zeppelin String Zeppelin任务(DAS 平台)
spark String spark任务(DAS 平台)
notebook String notebook任务(DAS 平台)
其他 String 主要是机器学习平台任务,跟数据无关暂未详细展开(DAS 平台)
1.3.10 JobStatusEnum

job状态枚举

枚举值 类型 名称
success String 成功
failed String 失败
terminated String 终止
WAITING String 等待执行(DAS 平台)
QUEUEING String 队列中(DAS 平台)
RUNNING String 执行中(DAS 平台)
SUCCESS String 成功(DAS 平台)
FAILED String 失败(DAS 平台)
RETRYING String 失败重试中(DAS 平台)
CANCELLED String 取消(DAS 平台)
1.3.11 ColdReserveStatusEnum

备份任务状态枚举

枚举值 类型 名称
1 Number 待备份
2 Number 备份中
3 Number 源目录不存在
4 Number 备份失败
5 Number 备份后检查失败
6 Number 重命名目录失败
7 Number 备份成功

1.4 响应实体列表

1.4.1 PageResult

分页查询结果

字段 类型 描述
pageSize Number 每页显示条数
pageNum Number 页数
totalCount Number 总条数
totalPage Number 总页数
list Array<Object> 当前页结果
1.4.2 UserSimple

用户信息

字段 类型 描述 是否必传
user Number 账号邮箱
fullName String 用户名
1.4.3 TblQualifiedName

表唯一限定符

字段 类型 描述
datasourceId Number 数据源ID,对于HIVE表可以不传递
datasourceType String 数据源类型,hive
db String 库名
table String 表名
1.4.4 TblLifeCycleConfig

表生命周期配置

字段 类型 描述 是否必传
datasourceId Number 数据源ID,对于HIVE数据源可以不传递
db String 库名
table String 表名
tblLifeCycle Number 表生命周期值(单位: 天)
openTblLifeCycle Boolean 是否开启表生命周期,TRUE:开启
parLifeCycle Number 分区生命周期值(单位: 天)
openParLifeCycle Boolean 是否分区生命周期类型,TRUE:开启
dataDelete
Boolean 生命周期到期是否删除数据文件(针对外部表)true:删除 false:不删除
reserveParNum Number 生命周期清理最少保留分区数量,默认0
1.4.5 TblOperateFailure

表下线失败

字段 类型 描述
errorMsg String 不可下线表原因
db String 库名
table String 表名
datasourceId Number 数据源ID,对于HIVE数据源可以不传递
1.4.6 TblAnalyzerSimple

表分析详情

字段 类型 描述
id Number 数据库自增ID
ptDate Number 分析日期
groupId Number 项目组ID
product String 表所属项目
clusterId String 表所属集群
db String 表所属库
table String 表名
tblType String 表类型,详见TableTypeEnum
lifecycleStatus Number 表生命周期状态,详见LifeCycleStatusEnum
offlineStatus Number 表推荐下线状态,详见OfflineStatusEnum
offlineActionStatus Number 表物理下线状态,详见OfflineActionStatusEnum
offlineLevel Number 表下线等级,详见TblOfflineLevelEnum
owner UserSimple 表负责人
storageSize Number 表存储量(MB)
fileNum Number 表文件数量
fileLastOpenTime Number 表文件最近打开时间
modifiedTime Number 表最近修改时间
tblLoc String 表存储路径
createdTime Number 表创建时间
1.4.7 TblOfflineResult

批量表下线结果

字段 类型 描述
offlineTblNum Number 本轮需要下线表数量
successTblNum Number 可下线表数量,后续异步下线
failureTblNum Number 检测不可下线表数量
failureTbls List<TblOperateFailure> 不可下线表原因
1.4.8 TblLifeCycleResult

批量表生命周期设置结果

字段 类型 描述
lifeCycleTblNum Number 本轮需要设置生命周期表数量
successTblNum Number 生命周期设置成功表数量
failureTblNum Number 生命周期设置失败表数量
failureTbls List<TblOperateFailure> 设置失败表原因
1.4.9 TblLittleFile

HIVE表小文件详情

字段 类型 描述
id Number 数据库自增ID
ptDate Number 分析日期
product String 表所属项目
clusterId String 表所属集群
catalogName String 表所属catalog<来源元数据中心>
db String 表所属库
table String 表名
owner UseSimple 表负责人
partitionTbl Boolean 是否分区表
parNum Number 分区数
fileNum Number 文件数
storageSize Number 存储大小(MB)
averageFileSize Number 平均文件大小(MB)
littleFileCount Number 表小文件数
modifiedTime Number 表最近修改时间
tblLoc String 表存储路径
createdTime Number 表创建时间
1.4.10 ReportDetail

有数报告详情

字段 类型 描述
id Number 数据库自增ID
ptDate Number 分析日期
product String 报告所属项目
clusterId String 报告所属集群
reportId String 报告ID(对应有数报告唯一ID)
reportName String 报告名称
reportDomain String 报告所属域
reportProject String 报告所在工程(对应有数项目)
createdTime Number 报告创建时间
updatedTime Number 报告更新时间
pv Number 日访问次数
uv Number 日访问人数
budget Number 报告预估成本
creator UserSimple 报告创建人
modifier UserSimple 报告最近修改人
associatedTbls List<TblQualifiedName> 报告直接关联表<HIVE、ORACLE、MySQL等>
1.4.11 FlowInstanceSimple
字段 类型 描述
id Number 数据库自增ID
ptDate Long 分析日期
product String 表所属项目
clusterId String 表所属集群
queue String 执行队列
projectType String 任务类型, 详见ProjectTypeEnum
flowOwner UserSimple 任务负责人
createdTime Long 任务创建时间
projectName String 任务真名,不可变对象
projectAliasName String 任务别名, 为平台页面上展示的任务名,可以多次重命名
flowName String 流名称
flowAliasName String 流别名, 为平台页面上展示的流名,可以多次重命名
scheduleType String 调度类型,详见ScheduleTypeEnum
schedulePeriod String 调度周期
execId String 实例ID
totalDuration Long 运行时长
execDuration Long yarn上执行时长
budget Double 预估费用
cpuCost Double 核*s
memoryCost Double GB*s
flowStartTime Long 流开始时间
flowEndTime Long 流结束时间
yarnAppNum Integer 关联 yarn application 数量
1.4.12 TblOwnerConfig

表负责人配置

字段 类型 描述
datasourceId Number 数据源ID,对于HIVE数据源可以不传递
db String 库名
table String 表名
owner UserSimple 表负责人
1.4.13 TblOwnerResult

批量表生命周期设置结果

字段 类型 描述
operateTblNum Number 本轮需要修改表负责人表数量
successTblNum Number 表负责人设置成功表数量
failureTblNum Number 表负责人设置失败表数量
failureTbls List<TblOperateFailure> 设置失败表原因
1.4.14 DirColdReserveDetail

目录备份详情

字段 类型 描述
id Number 自增id
product String 项目
name String 目录备份任务名
clusterId String 集群
createTime Long 创建时间
destPath String 目的地目录
resourcePath String 备份目录
status ColdReserveStatusEnum 状态
creator UserSimple 创建人
updateTime Long 更新时间
budget Double 费用(单位:元)
storageSize Double 数据量(单位:Mb)

1.5 查询实体列表

1.5.1 RecOfflineTblSearchParam
字段 类型 描述 是否必填 默认值
user String 用户(email)
clusterId String 集群ID
product String 项目名
owners List<String> 表负责人邮箱列表
dbs List<String> 库名列表
offlineStatuses List<Integer> 推荐下线状态, 详见OfflineStatusEnum
offlineLevels List<Integer> 推荐下线等级,详见TblOfflineLevelEnum
tblTypes List<String> 表类型,详见TableTypeEnum
table String 表名, 用于模糊匹配
pageNum Number 页码 25
pageSize Number 页大小 1
1.5.2 TblOfflineParam
字段 类型 描述 是否必填 默认值
user String 用户(email)
clusterId String 集群ID
product String 项目名
operands List<TblQualifiedName> 下线对象列表
1.5.3 LittleFileSearchParam
字段 类型 描述 是否必填 默认值
user String 用户(email)
clusterId String 集群ID
product String 项目名
resourceType String 资源类型,目前仅支持表 table
dbs List<String> 库名列表
owners List<String> 负责人列表
tblTypes List<String> 表类型列表,详见TableTypeEnum
table String 表名,用于模糊匹配
pageNum Number 页码
pageSize Number 页大小
1.5.4 TblLifeCycleUpdateParam
字段 类型 描述 是否必填
user String 用户(email)
clusterId String 集群ID
product String 项目名
operands List<TblLifeCycleConfig> 下线对象列表
1.5.5 ReportSearchParam
字段 类型 描述 是否必填 默认值
user String 用户(email)
clusterId String 集群ID
product String 项目名
projectNames List<String> 有数报告所属项目列表
reportNames List<String> 有数报告名列表
creators List<String> 报告创建人列表
sortField String 支持排序字段 appId
sortType String 排序类型,DESC / ASC ASC
pageNum Number 页码 1
pageSize Number 页大小 25
1.5.6 FlowInstanceSearchParam
字段 类型 描述 是否必填 默认值
user String 用户(email)
clusterId String 集群ID
product String 项目名
startTime Long 统计开始时间
endTime Long 统计结束时间
projectType String 任务类型, 详见ProjectTypeEnum
projectAliasName String 任务别名
queue String 队列名(全路径名etc,root.xxx.default)
scheduleType String 调度类型,详见ScheduleTypeEnum
flowOwners List<String> 任务负责人列表
sortField String 支持排序字段 D
sortType String 排序类型,DESC / ASC DESC
pageNum Number 页码 1
pageSize Number 页大小 25
1.5.7 FlowInstanceAddParam
字段 类型 描述 是否必填 默认值
clusterId String 集群id
queue String 队列 “”
product String 猛犸项目名 da_music
instanceId String 实例id
execId String 重试id
projectType String 任务类型,详见ProjectTypeEnum)
schedulePeriod String 调度周期 “”
projectName String 任务名
flowName String 流标识名称
jobName String job名称
jobType String job类型,详见JobTypeEnum
jobStatus String job状态,详见JobStatusEnum
scheduleExecTime Long 计划执行时间
jobStartTime Long 节点执行开始时间
jobEndTime Long 节点执行结束时间
flowOwner String 任务负责人
flowSubmitter String 任务提交人
flowReleaser String 调度设置人
scheduleType String 执行方式,详见ScheduleTypeEnum
createdTime Long 任务创建时间
1.5.8 TblOwnerUpdateParam
字段 类型 描述 是否必填
user String 用户(email)
clusterId String 集群ID
product String 项目名
operands List<TblOwnerConfig> 下线对象列表
1.5.9 DirColdReserveSearchParam
字段 类型 描述 是否必填
user String 用户(email)
clusterId String 集群ID
product String 项目名
coldReserveDirs List<String> 备份目录全路径集合
pageNum Number 页码 1
pageSize Number 页大小 25

二、OpenAPI列表

2.1 OpenAPI总览

模块名称支持版本状态请求方法请求路径
HIVE表管理
批量获取推荐下线表v2.1.4已上线POST /table/v1/recommend-offline-tbl/list
批量表下线v2.1.4已上线POST /table/v1/not-used-tbl/batch-offline
批量设置表的生命周期v2.1.4已上线POST /table/v1/lifecycle/batch-update
批量修改表负责人v3.0.3已上线POST /table/v1/owner/batch-update
应用分析批量获取有数报告详情v2.1.4已上线POST /app/v1/youdata-report/list
小文件发现批量获取表的小文件详情v2.1.4已上线POST /small-file/v1/table/list
计算分析获取任务(流)执行实例详情v2.1.5已上线POST /task/v1/flow-instance/list
外部任务实例信息插入v2.1.5已上线POST /task/v1/flow-instance/add
专题治理批量获取目录备份详情v3.0.5开发中POST /backup/v1/dir/cold-reserve-detail/list

2.2 HIVE表管理

2.2.1 分页搜索推荐下线表

POST /table/v1/recommend-offline-tbl/list

产品版本:v2.1.4

描述:按项目、集群、分页条件、筛选条件查询推荐下线表列表

URL参数/请求体

详见: RecOfflineTblSearchParam

请求示例:

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result PageResult<TblAnalyzerSimple> 表详情信息

响应示例:

2.2.2 批量下线推荐下线表

POST /table/v1/not-used-tbl/batch-offline

产品版本:v2.1.4

描述:批量下线推荐下线表, 具体下线为异步逻辑

URL参数/请求体

详见:TblOfflineParam

请求示例:

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result TblOfflineResult 下线结果信息

响应示例:

2.2.3 批量设置表的生命周期

POST /table/v1/lifecycle/batch-update

产品版本:v2.1.4

描述:批量设置表的生命周期值

URL参数/请求体

详见: TblLifeCycleUpdateParam

请求示例:

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result TblLifeCycleResult 批量生命周期设置结果

响应示例:

2.2.4 批量设置表负责人

POST /table/v1/owner/batch-update

产品版本:v3.0.3

描述:批量修改表负责人

URL参数/请求体

详见: TblOwnerUpdateParam

请求示例:

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result TblOwnerResult 批量修改表负责人结果

响应示例:

2.3 有数报表分析

2.3.1 批量获取报告详情

POST /app/v1/youdata-report/list

产品版本:v2.1.4

描述:按项目、集群、分页条件、筛选条件查询有数报告列表

URL参数/请求体

详见: ReportSearchParam

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result PageResult<ReportDetail> 表详情信息

2.4 小文件发现

2.4.1 批量获取表的小文件情况

POST /small-file/v1/table/list

产品版本:v2.1.4

描述:批量查询表的小文件详情

URL参数/请求体

详见:LittleFileSearchParam

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result PageResult<TblLittleFile> 表小文件信息

2.5 计算分析

2.5.1 获取任务(流)执行实例详情

POST /task/v1/flow-instance/list

产品版本:v2.1.5

描述:获取任务流执行实例详情

URL参数/请求体

详见:FlowInstanceSearchParam

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result PageResult<FlowInstanceSimple> FLow资源消耗等信息
2.5.2 外部任务实例信息插入

POST /task/v1/flow-instance/add

产品版本:v2.1.5

描述:插入das任务实例信息

URL参数/请求体

详见:FlowInstanceAddParam

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result Boolean 是否成功

2.6 专题治理

2.6.1 批量获取目录备份详情

POST /backup/v1/dir/cold-reserve-detail/list

产品版本:v3.0.5

描述:查询目录冷备详情

URL参数/请求体

详见:DirColdReserveSearchParam

响应体

名称 类型 描述 必传 默认值
code Number 状态码
msg String 错误信息
cost Number 接口消耗毫秒数
reqId String 请求ID
result PageResult<DirColdReserveResult> 目录备份详情