基础报警

指标 描述 最多报几次警告 级别 报警算法
cpu.idle cpu持续5分钟使用率超过90% 1 3 all(#5)<=10
df.bytes.used.percent/fstype=ext4 磁盘持续3分钟容量使用超过90% 1 3 all(#3)>=90
load.1min 系统负载连续5分钟超过3,请注意 1 3 all(#120)>=10
mem.memused.percent 内存持续5分钟使用率超过90% 1 3 all(#3)>=80
mem.swapused.percent swap开始使用,请注意。 1 3 all(#3)>0

redis

指标 描述 最多报几次警告 级别 报警算法
net.port.listen/port=6379 1 3 all(#3)==0 net.port.listen/port=26379 1 3 all(#3)==0
redis_connected_clients 1 3 all(#3)>=500

zookeeper

指标 描述 最多报几次警告 级别 报警算法
net.port.listen/port=2181 1 3 all(#3)==0
zookeeper_ruok zk当前状态异常,请注意。 1 3 all(#1)!=1
zookeeper_stat_connections zk当前连接数超过500,请注意。 1 3 all(#1)>=500

mysql

指标 描述 最多报几次警告 级别 报警算法
net.port.listen/port=3306 mysql端口异常 1 3 all(#3)==0

rabbitmq

指标 描述 最多报几次警告 级别 报警算法
net.port.listen/port=5672 1 3 all(#3)==0
net.port.listen/port=15672 1 3 all(#3)==0
rabbitmq.messages_total 1 3 all(#3)>=5000

cdh

指标 描述 最多报几次警告 级别 报警算法
net.port.listen/port=7180 cdh端口异常 1 3 all(#3)==0
net.port.listen/port=7182 cdh端口异常 1 3 all(#3)==0

业务日志监控

指标 描述 最多报几次警告 级别 报警算法
log 日志异常,请注意。 100 3 all(#1)!=0
Copyright © opschina.org 2017 with zzlyzq@gmail.com all right reserved,powered by Gitbook该文件修订时间: 2017-07-11 11:32:48

results matching ""

    No results matching ""