小文件治理包括表级别的小文件合并以及目录级别小文件发现功能。
小文件治理 - 图1

小文件合并

在Hive表页签页面,支持表级别的小文件合并功能,仅当前项目管理员、负责人和表负责人,有权限对表进行小文件合并操作。
小文件治理 - 图2
点击“合并小文件”按钮,可进行功能的配置。当前仅支持对分区表进行小文件治理,按照分区进行文件合并,大小接近256MB。
小文件治理 - 图3
支持执行时间的设置,建议小文件治理时间段错开任务对表/分区的操作时段,否则有可能造成任务失败。对于开启了小文件合并操作的数据表,通过点击“数据趋势”按钮支持查看近7天的表数据趋势,包括表文件总数、存储空间、平均文件大小和可优化文件数(指小于64MB)。
小文件治理 - 图4
点击“任务运维”按钮,可在任务运维中心查看小文件合并任务运行状况。

此外,在在小文件发现页面展示文件总数、分区总数、累计存储空间和平均文件大小的趋势图等。
小文件治理 - 图5

小文件发现

在“目录”页签页面中,支持从目录视角,查看目录下小文件数量、平均文件大小等指标,包括查看文件总数、目录总数、累计存储空间和平均文件大小统计指标。在当前列表中,支持搜索文件或文件夹,点击文件夹,递归呈现当前项目-集群下所有的文件内容,便于查看文件存储空间和平均文件大小、可优化文件数等内容。可对分区数、目录数、存储空间、可优化文件数、最近修改时间的进行排序,由于数据量极大,仅支持在内存中实现排序,只支持1000条数据之内的排序,超过1000条后,页面上无法点击排序。
小文件治理 - 图6