FAQ-数据治理360-存储分析-表存储数据不准确

问题描述/异常栈
数据治理360-存储分析内表存储数据不准确,与实际存储数据量不符,eg:
治理360显示表数据存储量:2.73T
FAQ-数据治理360-存储分析-表存储数据不准确 - 图1
但实际存储量:52.7T
FAQ-数据治理360-存储分析-表存储数据不准确 - 图2

发现版本
所有版本
解决方案
对表数据进行元数据修复:

MSCK REPAIR TABLE your_table_name;

问题原因
数据治理360是通过hive元数据信息去获取hdfs上对应存储大小的,当hive元数据信息不同步时,就会出现少同步分区数据的情况;
eg:hive表实际分区数量:近40个
FAQ-数据治理360-存储分析-表存储数据不准确 - 图3
但元数据信息里的分区:仅3个
FAQ-数据治理360-存储分析-表存储数据不准确 - 图4

作者:曹俊