告警信息文档
告警信息相关修改
为了能够提前告知有数服务的运行异常,通常会给用户配置有数的告警系统。同时有些用户也会要求有数开启服务告警的规则。具体开启规则可以参考以下步骤:
监控告警的配置
对应目录:cd /youdata/installer
对应的文件:docker-stack.monitor.yaml
将alertmanager 服务#注释去掉,并配置对应的信息:
- SMTP_HOST: "smtp.163.com:25" --邮箱服务+端口
- SMTP_USER: "youdata@163.com" --推送的用户名
- SMTP_PASSWORD: "XXX" --邮箱服务的密码
- RECEIVER: "XXX" --接收人:多个人双引号里面逗号间隔(",")
- WEBHOOK: "http://host:port/api/hook" --如果提供的是webhook,可以配置webhook地址。
配置完成之后重启一下yaml文件:
dsd docker-stack.monitor.yaml monitor
邮件和webhook两者选其一。
webhook告警开发参考:
有数使用的监控报警方案是prometheus和alertmanager,报警webhook就是am的标准结构:
https://prometheus.io/docs/alerting/latest/configuration/#webhook_config
报警触发分2个阶段,均会调用接口:
- firing,报警触发,在报警指标超过阈值后(或一段时间后,依赖配置)会调用webhook接口
- resolved,报警解除,指标恢复正常
单机有数:redis告警的修改
对应目录:cd /youdata/installer
对应文件:prometheus.yml
修改里面的redis服务信息
原始:
修改为:
将redis2去掉。redis1改成redis。
修改完成之后重启服务:
docker service update --force monitor_prometheus
双机有数:万象告警信息修改
对应目录:cd /youdata/installer
对应的文件:docker-stack.monitor.yaml
修改DATA_SOURCE_NAME的参数。
默认:DATA_SOURCE_NAME: youdata:youdata@(mysql:3306)/
修改为:DATA_SOURCE_NAME: youdata:youdata@(万象的地址:万象的端口)/
万象的地址:一般是在yaml文件里面的DB环境变量里面:
使用cat docker-stack.ydswarm85.yaml | grep DB 命令查看万象的地址
参照样例:
修改之后重启一下监控服务:
dsd docker-stack.monitor.yaml monitor
告警测试
配置好告警规则之后,需要通过修改youdata.rules规则进行测试
对应的目录:cd /youdata/installer
对应的文件:youdata.rules
可以将内存告警不足的配置修改成99
expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes 100 on(instance) group_left(nodename) (node_uname_info) < 99
修改完成之后重启监控:
docker service update --force monitor_prometheus
groups:
- name: NodeStats
rules:
# Node memory is filling up (< 10% left)
- alert: 节点内存不足告警
expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes * 100 * on(instance) group_left(nodename) (node_uname_info) < 99
for: 2m
labels:
severity: warning
annotations:
summary: 节点内存不足告警 (实例 {{ $labels.nodename }})
description: "节点 {{ $labels.nodename }} 可用内存已小于10%, 请及时处理. \n 当前值为 {{ $value }}\n 相关标签: {{ $labels }}"
如果邮箱提示下图(msyql慢查询告警为例)就说明告警配置成功:
最后不要忘记将配置修改回去,重启监控服务,不然会重复告警。
以上内容对您是否有帮助?