上周公司内网突然断了半小时,IT小张翻着日志查到是防火墙策略被误删,可翻遍系统日志和交接记录,愣是没找到谁动的手。最后靠抓包回溯+翻微信群聊天记录才勉强复盘——这哪是排障,这是破案。
不是所有日志都叫“事件记录”
很多人把“ping通了”“服务起来了”当成事件记录,其实差得远。真正的网络事件记录,得说清五件事:什么时候、在哪台设备、谁(或哪个系统)操作的、做了什么动作、结果是否异常。比如:
2024-06-12 14:23:05 | 核心交换机 SW-CORE-01 | 运维账号 admin_zhang | 执行命令:no ip access-group OUTBOUND in interface GigabitEthernet1/0/23 | 接口外发流量突增300%,监控告警触发这种记录,光靠设备自动生成的日志根本不够。设备只记“谁登录了”,不记“为什么删这条ACL”;它记下命令执行成功,但不会写“删完忘了测试邮件服务器连通性”。
写的人,得在现场,也得懂业务
行政部换打印机IP,网络组配好DHCP保留地址就走人;结果财务那边报销系统连不上新打印机,折腾两小时才发现子网掩码填错了。没人当场记录“改了哪项配置、预期影响范围、已验证哪些终端”,后续一出问题,全靠猜。
真正该写的人,不是离得最近的,而是最清楚“改这个会影响谁”的那个。可能是IT运维,也可能是部门助理——只要他刚帮销售部调完VPN权限,就得在工单里补一句:“已同步告知销售组,移动端需重启APP生效”。
小公司别找借口,三行也能管用
没有SIEM系统?没关系。共享表格里加三列就行:时间|操作点|一句话后果。昨天市场部同事自己在无线控制器上关了访客SSID,顺手在表格里写了:“16:02 关闭Guest-WiFi,因展会结束,前台已贴告示”。今天前台来电问WiFi怎么没了,扫一眼表格,秒回。
别等“建流程”,先让每次改配置、拔网线、换模块的人都多打10个字。网络稳定不是靠设备多贵,是靠谁动了什么、心里有数。