INFO-报警问题排查示例

适用模块

新版任务运维easy_taskops
easy_alert
实时模块

具体说明

报警发送失败,或通知未收到

使用示例

一、离线任务告警
1.1、获取任务alert_id,f12然后点开报警详情

INFO-报警问题排查示例 - 图1

1.2easyops上查看easy_alert安装节点

INFO-报警问题排查示例 - 图2

1.3、查找数据库登录信息

INFO-报警问题排查示例 - 图3 INFO-报警问题排查示例 - 图4

1.3、通过数据库查看单个通道id信息

INFO-报警问题排查示例 - 图5
INFO-报警问题排查示例 - 图6

1.4、根据上述id过滤

INFO-报警问题排查示例 - 图7

或者根据alertid查找详情

INFO-报警问题排查示例 - 图8

二、实时告警排查
1.1、通过easyalert数据库查看alert_id(时间换报警当天,数据量过大选择方案2
select alert_id,create_time,update_time  from  alert_trail  where update_time>'2022-12-14 00:00:00' AND  content like '%csc_verification_Imei_union_summary_to_starrocks_india%' order by update_time desc limit 5\G

INFO-报警问题排查示例 - 图9

1.2、实时告警日志RealtimeMonitor日志通过任务信息找到返回报警id

INFO-报警问题排查示例 - 图10

2、根据alert_id和告警通道在alert-info.log中查找相关日志,如下为电话告警记录

INFO-报警问题排查示例 - 图11

三、其他告警id获取
SELECT id, alert_id, title,create_time,update_time  from alert_trail where update_time >'2023-10-10 14:00:00' and title like '%补数据%' ;
SELECT id, alert_id, title,create_time,update_time  from alert_trail where update_time >'2023-10-10 14:00:00' and title like '%传输%实时同步%' ;
SELECT id, alert_id, title,create_time,update_time  from alert_trail where update_time >'2023-10-10 14:00:00' and title like '%实时任务%' ;
SELECT id, alert_id, title,create_time,update_time  from alert_trail where update_time >'2023-10-10 14:00:00' and title like '%数据质量%' ;
三、黑名单
[threadPoolExecutor-1] [INFO] [] AlertConsumer.lambda$null$2:198 - alertId=405779, alertTrailId=503733, email:admin.mammut@163.com, channel:voice, address:15988411111, ret:black user, please see the file in AlertHome/conf/account
easyalert 配置页advanced 配置组 template.account string 
如果客户环境版本低于 update12 easyalert v2.4.3.2,需额外添加 template.account.j2 配置项,高于或等于则不需添加该配置项
注:v2.4.3.2默认没有上面两个参数,但在底层配置文件已经指定了grp.mammut_test@corp.netease.comadmin.mammut@163.com是黑名单,template.account为空可以清空

INFO-报警问题排查示例 - 图12 INFO-报警问题排查示例 - 图13 INFO-报警问题排查示例 - 图14


作者:林帅