kafka 监控模板

实例规格

集群流量 = 业务流量 + 集群内副本复制流量,该规格实际业务读流量处理峰值为 240 MB/s,业务写流量处理峰值为 80 MB/s。

实例级别

监控指标项周期持续周期操作符阈值单位级别沉默周期
实例消息生产量5 分钟1>=80Mbytes/s严重5 分钟
实例消息生产量5 分钟1>=80*0.8=64Mbytes/s警告5 分钟
实例消息消费量5 分钟1>=240Mbytes/s严重5 分钟
实例消息消费量5 分钟1>=240*0.8=192Mbytes/s警告5 分钟
实例磁盘使用率5 分钟1>=95%提醒5 分钟

关键业务线 Kafka 流量监控

以上线的关键业务,避免资损,细粒度监控

topic 级别

因为不同业务对应 topic 的量值都有不同区间,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同 topic 分别设置

监控指标项周期持续周期操作符阈值单位级别沉默周期
Topic 消息生产条数1 分钟5>=n 倍业务峰值,eg:8000个/s警告5 分钟
Topic 消息生产量1 分钟5>=n 倍业务峰值,eg:8000Mbytes/s警告5 分钟

consumer 级别

根据不同的 topic 的 消息数/s 以及消费端提交 offset 的间隔,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同 Consumer group 分别设置

监控指标项周期持续周期操作符阈值单位级别沉默周期
ConsumerGroup 未消费此 Topic 消息数1 分钟5>=正常 1.5 倍,eg:15000个/s警告5 分钟
ConsumerGroup 未消费此 Topic 消息数1 分钟5>=正常 2 倍,eg:20000个/s严重5 分钟