日常妙招屋
白蓝主题五 · 清爽阅读
首页  > 网络监控

网络一卡就抓瞎?教你 setup 一套能实时喊你‘网崩了’的监控告警

上周三下午,公司视频会议正开到一半,屏幕突然卡成PPT,语音断断续续像收音机调频失败——IT小哥还没摸到路由器,钉钉群里已经炸出十几条‘谁断网了?!’。其实,问题早5分钟就发生了:核心交换机CPU飙到98%,DHCP池快耗尽,但没人知道。

故障不是突然来的,是悄悄憋大的

很多人的‘网络监控’还停留在手动ping一下、浏览器打不开才去翻路由器后台。这就像等冰箱结霜了才发现压缩机坏了。真正有用的监控,得在丢包率刚超过3%、延迟突然跳到200ms、某台AP连续掉线3次时,立刻弹窗、发微信、甚至打电话喊你——这才是‘实时告警’该干的事。

不用买专业设备,手机+旧电脑就能搭起来

家里或小办公室完全没必要上Zabbix或SolarWinds。推荐用NetData(开源免费)+ Gotify(轻量消息推送),整个过程不到20分钟:

curl -sSL https://raw.githubusercontent.com/netdata/netdata/master/packaging/installer/install.sh | bash
sudo apt install gotify-cli # Ubuntu/Debian
gotify register http://localhost:8080 <your-token>

装好后,访问 http://你的树莓派IP:19999,所有设备流量、CPU、内存、端口状态全可视化。再配个规则:当主路由ping延迟>150ms持续30秒,自动推消息到手机——再也不用守着屏幕刷F5。

真实场景怎么设告警阈值?

别照搬网上‘丢包率>5%就告警’这种教条。我家光猫平时延迟40ms,暴雨天会飘到80ms,但不影响刷视频;可一旦ping www.baidu.com超时,说明外网真断了——所以我的规则是:连续3次ping不通百度,且本地DNS(192.168.1.1)仍通,则微信弹窗+语音播报‘外网断了,快看光猫红灯!’。告警要贴着你的实际网络脾气来调。

打印机老连不上?加个脚本每分钟检查它的TCP 9100端口,不通就发消息:‘二楼打印机挂了,纸没卡,是网没通’。比同事群里吼十句管用。

提醒一句:告警不是越多越好

曾见过有人把‘每台手机Wi-Fi信号强度<-70dBm’都设成告警,结果半夜三点手机狂震——孩子踢被子导致卧室AP信号波动… 告警只盯关键链路:光猫→主路由→核心交换机→出口防火墙。其他细枝末节,让它安静待在图表里查就行。

网崩不可怕,可怕的是崩了你还蒙在鼓里。把告警当成网络里的‘哨兵’,它不干活,但一有风吹草动,立马拍你肩膀:喂,该去看看了。