网络运维监控手册：一线工程师天天翻的那本小红书

发布时间：2026-03-22 05:31:40 阅读：275 次

上周帮兄弟单位查一个半夜掉线的问题，翻了三套监控系统、两个日志平台，最后发现是交换机SNMP trap被防火墙策略误拦了——这种事儿，干过五年的人都懂：监控不是装完就完事，得有本靠谱的手册垫在键盘底下。

别把Zabbix当万能胶水

Zabbix部署完默认告警规则，基本等于给服务器贴了张‘我很好’的便利贴。真实环境里，你得自己加这些：

net.if.in[ifHCInOctets.1] > 950000000  # 千兆口持续超950Mbps才告警，避免秒级毛刺刷屏
system.cpu.util[,idle] < 10  # 连续3次采样CPU空闲＜10%再触发

注意：单位别写错，Zabbix里流量是字节（bytes），不是比特（bits）；CPU idle值越低越忙，新手常反着配。

某次DNS解析慢，同事在客户机上抓包看到大量TCP重传，以为是链路问题。我直接去DNS服务器上抓：

tcpdump -i eth0 -w dns-debug.pcap port 53 and host 192.168.10.22

回放发现——全是UDP包，根本没建TCP连接。原来客户端超时后自动降级到TCP，而服务器iptables默认DROP了TCP 53端口。手册里得记一笔：查DNS延迟，优先抓服务端53端口UDP流，再看是否触发TCP降级。

见过太多告警：‘磁盘使用率＞90%’。可谁管它是不是/var/log下某个服务疯狂打日志？手册里建议加一条联动检查：

# 每5分钟执行一次
if [ $(df /var | awk 'NR==2 {print $5}' | sed 's/%//') -gt 90 ]; then
  find /var/log -name "*.log" -mtime -1 -size +50M | head -5
fi

输出结果直接塞进告警消息体里，运维一看就知道删哪个日志、清哪块空间。

某台老核心交换机不支持SNMPv3，Zabbix连不上。我们就在它的console口接了个树莓派，每小时跑一次：

echo 'show interfaces status' | telnet 10.1.1.1 | grep 'notconnect' | wc -l

结果大于0就发邮件。设备老旧不可怕，可怕的是监控盲区里长出故障。手册最后一页，永远留一行手写备注：‘这里没API，但有串口，串口连树莓派，脚本跑起来’。