4-kafka监控模板
kafka 监控模板
实例规格
集群流量 = 业务流量 + 集群内副本复制流量,该规格实际业务读流量处理峰值为 240 MB/s,业务写流量处理峰值为 80 MB/s。
实例级别
| 监控指标项 | 周期 | 持续周期 | 操作符 | 阈值 | 单位 | 级别 | 沉默周期 |
|---|---|---|---|---|---|---|---|
| 实例消息生产量 | 5 分钟 | 1 | >= | 80 | Mbytes/s | 严重 | 5 分钟 |
| 实例消息生产量 | 5 分钟 | 1 | >= | 80*0.8=64 | Mbytes/s | 警告 | 5 分钟 |
| 实例消息消费量 | 5 分钟 | 1 | >= | 240 | Mbytes/s | 严重 | 5 分钟 |
| 实例消息消费量 | 5 分钟 | 1 | >= | 240*0.8=192 | Mbytes/s | 警告 | 5 分钟 |
| 实例磁盘使用率 | 5 分钟 | 1 | >= | 95 | % | 提醒 | 5 分钟 |
关键业务线 Kafka 流量监控
以上线的关键业务,避免资损,细粒度监控
topic 级别
因为不同业务对应 topic 的量值都有不同区间,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同 topic 分别设置
| 监控指标项 | 周期 | 持续周期 | 操作符 | 阈值 | 单位 | 级别 | 沉默周期 |
|---|---|---|---|---|---|---|---|
| Topic 消息生产条数 | 1 分钟 | 5 | >= | n 倍业务峰值,eg:8000 | 个/s | 警告 | 5 分钟 |
| Topic 消息生产量 | 1 分钟 | 5 | >= | n 倍业务峰值,eg:8000 | Mbytes/s | 警告 | 5 分钟 |
consumer 级别
根据不同的 topic 的 消息数/s 以及消费端提交 offset 的间隔,待业务稳定,与业务相关人员了解流量峰值,发布上线之后配置关键业务监控,不同 Consumer group 分别设置
| 监控指标项 | 周期 | 持续周期 | 操作符 | 阈值 | 单位 | 级别 | 沉默周期 |
|---|---|---|---|---|---|---|---|
| ConsumerGroup 未消费此 Topic 消息数 | 1 分钟 | 5 | >= | 正常 1.5 倍,eg:15000 | 个/s | 警告 | 5 分钟 |
| ConsumerGroup 未消费此 Topic 消息数 | 1 分钟 | 5 | >= | 正常 2 倍,eg:20000 | 个/s | 严重 | 5 分钟 |
