6.2 主机告警
主机告警
1.主机磁盘容量告警
告警解释
系统会周期性的检测主机磁盘的使用情况,当主机磁盘某一分区使用率大于或等于阈值时,推送告警,主机磁盘某一分区使用率小于或等于阈值的85%时,告警恢复。
告警参数
参数名称 | 参数含义 |
---|---|
主机节点 | |
告警值 | 主机单个磁盘使用大小 |
告警阈值 |
影响范围
业务进程不可用
原因分析
组件日志过大,磁盘存储过大,磁盘配置不合理。
处理步骤
检查磁盘阈值设置是否合理
检查主机磁盘使用情况
通过df -h 排查磁盘使用情况
通过du -sh 相关命令排查子目录使用情况
清理排查目录存储类型,常规是组件日志,数据存储,yarn计算缓存目录
告警恢复
通过df -h 排查磁盘使用低于阈值
2.主机内存告警
告警解释
系统会周期性的检测主机内存使用情况,当主机内存使用率大于或等于阈值时,推送告警,主机内存使用率小于或等于阈值的90%时,告警恢复。
告警参数
参数名称 | 参数含义 |
---|---|
主机节点 | |
告警值 | 主机内存实际使用情况 |
告警阈值 |
影响范围
导致部分服务异常,或者有些任务执行缓慢或者失败
原因分析
部分服务使用内存过高
处理步骤
排查主机内存告警阈值
排查内存使用情况
通过远程工具登录主机执行free -h 查看内存使用情况;
执行 ps -eo user,pid,pcpu,pmem,args —sort=-pmem |head -n 10 查看内存使用超过top10;
排查占用内存过高的程序是否正常,异常可以采取清理方法,比如 :kill 掉异常程序,停止相关服务,如果每个组件使用内存正常,可以对该节点扩容内存;
3.主机cpu告警
告警解释
系统会周期性的检测主机cpu使用情况,当主机cpu使用率大于或等于阈值时,推送告警,主机cpu使用率小于或等于阈值的90%时,告警恢复。
告警参数
参数名创 | 参数含义 |
---|---|
主机节点 | |
告警值 | 主机cpu使用 |
告警阈值 |
影响范围
导致部分服务异常,或者有些任务执行缓慢或者失败
原因分析
部分服务使用cpu过高
处理步骤
排查主机cpu告警阈值
排查cpu内存使用情况
命令 ps -eo user,pid,pcpu,pmem,args —sort=-pcpu |head -n 10 查看top10的cpu使用情况;
排查top10的服务cpu使用是否异常,如果有异常可以先kill 掉相关服务,或者进一步通过相关工具,日志定位;
以上内容对您是否有帮助?