报警配置入口


入口1:任务列表-操作栏-报警

任务异常报警 - 图1

入口2:任务详情-任务名栏右侧-报警

任务异常报警 - 图2

报警配置


任务异常报警 - 图3 任务异常报警 - 图4 用户可以根据需要对不同的任务设置不同的报警规则,系统提供了三种默认的报警规则 (任务失败,FailOver,数据滞留延迟),用户可以自行添加报警规则 (输入QPS,输入QPS,CheckPoint,用户自定义延迟,滞留数据量,业务指标,反压)

指标说明

数据滞留延迟 = 数据进入 Easystream 时间 - 数据进入 Kafka 时间戳

用户自定义延迟 = 数据进入 Easystream 的时间 - 用户自定义字段的时间

数据滞留量 = 数据堆积在 Kafka 中待处理的数据量

业务指标,用户将 Flink 任务计算的某些业务指标(如统计金额异常的订单数)通过 metric reporter 上报后,可以通过平台配置告警,业务指标如何开发详见 业务指标开发页面

报警接受方式,支持多种类型的报警方式,如短信,电话,邮件等,对于商业化客户也可以联系平台根据用户的需求进行自定义扩展,如企业微信。若用户的企业微信群、钉钉群等渠道已对接平台告警组件,则支持向群聊中发送告警信息并@指定用户。

个人报警接收人,可以添加多个报警接收人,也可以配置报警组,报警组需要在猛犸的平台配置,请登录猛犸平台的页面进行配置。勾选了个人报警接收渠道的任务需配置个人报警接收人。

群聊报警接收群,勾选了群聊报警接收渠道的任务需配置群聊报警接收群。

  • 报警接收群渠道:选择要接收告警的群聊渠道。
  • 报警接受群:选择该渠道要接收告警的群聊名称。
  • 报警接收人:选择告警消息要@的用户,默认选中该任务的创建人。

报警抑制,用户可以设置一个周期内任务触发报警规则后不报警,在解决线上问题的过程很有用。

关闭报警,用户可以选择将任务的报警关闭,关闭报警后用户将收不到任何关于这个任务的报警,这在任务开发,或者任务失败没时间处理的时候很有用。