本文目录导读:

充分利用业务负载最轻的时间窗口,完成那些平时无法进行或可能影响业务的深度检查与维护。
具体巡检策略可分为被动检查(看日志、指标)和主动测试(模拟流量、触发机制)两大类,以下是详细步骤和建议:
巡检前的准备(低峰期专属)
- 确认窗口:明确低峰期的具体时段(例如凌晨2:00-5:00),并确认无紧急变更或业务活动。
- 整理基线:拿出上一周期(上周、上个月)同期的性能数据(CPU、内存、延迟等)作为对比基准。
- 准备工具:准备好终端、跳板机、抓包工具(Wireshark/tcpdump)、链路测试工具(MTR、iperf)等。
- 通知报备:若涉及核心设备重启或策略变更,需提前在IT工单系统或沟通群中报备,以防突发问题。
核心巡检动作(分设备/区域)
硬件健康检查(物理层)
- 温度与风扇:查看设备温度是否接近阈值(如超过70℃),低峰期环境温度可能下降,检查风扇转速是否异常、是否有异响(声音侦测或机柜巡检)。
- 电源冗余:确认每台设备的电源模块均为“双路供电”且状态正常,无单电源故障,低峰期可尝试测试性断电(拔下一个电源模块)以验证冗余,注意30秒内恢复。
- 光模块/光衰:使用
show interface transceiver或光功率计,检查所有互联链路的光功率是否在接收灵敏度范围内(如-15dBm至-25dBm),低峰期光衰更容易排查,因为此时无流量干扰。 - 线缆物理状态:检查光纤有无过度弯折、网线水晶头松动、机柜内线缆凌乱(易误碰)。
设备性能与资源(二层/三层)
- CPU与内存:登录各交换机/路由器,命令行查看
show process cpu/show memory,低峰期CPU使用率若超过50%,说明存在异常进程(如ARP泛洪、路由震荡)。 - 路由表与FIB表:对比核心路由器的路由表条目数,确认与网络设计一致,检查是否有非预期路由(如误收到的不稳定BGP路由)。
- STP(生成树)状态:检查所有SVI(交换虚拟接口)和Trunk端口的生成树状态,确保没有端口处于Blocking(堵塞)或未知状态,低峰期可安全进行
show spanning-tree blocking。 - VLAN与端口状态:确认所有接入端口Mac地址表正确;检查是否存在大量CRC(循环冗余校验)错误或Runts(短帧)的Defect端口(错误包增加)。
协议与安全状态(控制层)
- OSPF/BGP邻居:
show ip ospf neighbor或show bgp summary,确认邻居状态均为Full,低峰期邻居震荡影响小,可针对性复位。 - ARP表完整性:检查核心设备ARP表是否稳定,有无大量Incomplete(未完成解析)条目(可能是ARP攻击或配置错误)。
- ACL(访问控制列表)与QoS(服务质量):
- 检查QoS队列是否丢包,队列深度是否正常。
- 确认ACL匹配计数是否异常(如某条恶意规则触发了大量日志)。
延迟与抖动(传输层)
- 端到端延迟测试:使用
MTR或iperf3(文件大小建议10MB/100MB),从关键业务服务器到数据中心核心进行双向测试,低峰期延迟应在基线±5ms内。 - 丢包率:用
ping -c 1000 -s 1400(大包)长时间ping,记录丢包率,0.01%以上需关注。
特殊专项检查(低峰期价值最大)
- Firmware(固件)更新:对核心交换机的固件版本是否符合安全公告(如CVE漏洞),进行计划性升级,低峰期是最佳窗口。
- NTP(网络时间协议)同步:确认所有网络设备时间与标准时间误差<10ms,否则日志准确性受影响。
- 日志审计与备份:
- 检查所有设备日志(Syslog),搜索“Error”、“Critical”、“Down”等关键词。
- 备份配置文件到安全服务器(如TFTP/SCP),建议使用脚本自动保存并比对差异。
巡检后的动作(闭环管理)
- 记录异常:若发现轻微异常(如光衰-26dB,但未丢包),先记录在案,切勿低峰期立即操作(避免人为故障)。
- 生成报告:形成《低峰期巡检报告》,包含:
- 正常项(用绿色标注)
- 警告项(黄色,如CPU>60%)
- 故障项(红色,如设备重启/链路断)
- 触发告警:检查当时告警系统是否产生过误报或漏报(例如低峰期链路波动但未触发),调整阈值。
- 变更计划:对需要修改配置的问题,正式列入下个变更窗口计划。
避坑指南(低峰期易犯错误)
- ❌ 不要进行大规模重启:即使低峰期,重启核心设备也可能因配置未保存而丢失网络。
- ❌ 避免长链路测试使用UDP流:UDP可能拥塞控制,建议用TCP(iperf -t)。
- ✅ 善用自动化脚本:例如使用
netmiko/Ansible批量登录设备抓取状态,避免人工逐台敲命令遗漏。 - ⚠️ 检查供电环境:低峰期凌晨可能空调温度设置过低,导致设备结露,需留意机柜湿度。
最后建议:低峰期巡检不要只盯着命令行。到机柜后方听听风扇、摸摸线缆温度,往往物理层问题比逻辑层更致命,对通过巡检发现的新品牌/型号设备(如光模块兼容问题),也应在低峰期完成验证。