知用网
第二套高阶模板 · 更大气的阅读体验

网络运维监控手册:一线工程师天天翻的那本小红书

发布时间:2026-03-22 05:31:40 阅读:49 次

上周帮兄弟单位查一个半夜掉线的问题,翻了三套监控系统、两个日志平台,最后发现是交换机SNMP trap被防火墙策略误拦了——这种事儿,干过五年的人都懂:监控不是装完就完事,得有本靠谱的手册垫在键盘底下。

别把Zabbix当万能胶水

Zabbix部署完默认告警规则,基本等于给服务器贴了张‘我很好’的便利贴。真实环境里,你得自己加这些:

net.if.in[ifHCInOctets.1] > 950000000  # 千兆口持续超950Mbps才告警,避免秒级毛刺刷屏
system.cpu.util[,idle] < 10  # 连续3次采样CPU空闲<10%再触发

注意:单位别写错,Zabbix里流量是字节(bytes),不是比特(bits);CPU idle值越低越忙,新手常反着配。

抓包不是只用Wireshark点点点

某次DNS解析慢,同事在客户机上抓包看到大量TCP重传,以为是链路问题。我直接去DNS服务器上抓:

tcpdump -i eth0 -w dns-debug.pcap port 53 and host 192.168.10.22

回放发现——全是UDP包,根本没建TCP连接。原来客户端超时后自动降级到TCP,而服务器iptables默认DROP了TCP 53端口。手册里得记一笔:查DNS延迟,优先抓服务端53端口UDP流,再看是否触发TCP降级

监控数据要能‘说话’,不能光亮红灯

见过太多告警:‘磁盘使用率>90%’。可谁管它是不是/var/log下某个服务疯狂打日志?手册里建议加一条联动检查:

# 每5分钟执行一次
if [ $(df /var | awk 'NR==2 {print $5}' | sed 's/%//') -gt 90 ]; then
  find /var/log -name "*.log" -mtime -1 -size +50M | head -5
fi

输出结果直接塞进告警消息体里,运维一看就知道删哪个日志、清哪块空间。

别忘了人肉巡检的‘土办法’

某台老核心交换机不支持SNMPv3,Zabbix连不上。我们就在它的console口接了个树莓派,每小时跑一次:

echo 'show interfaces status' | telnet 10.1.1.1 | grep 'notconnect' | wc -l

结果大于0就发邮件。设备老旧不可怕,可怕的是监控盲区里长出故障。手册最后一页,永远留一行手写备注:‘这里没API,但有串口,串口连树莓派,脚本跑起来’