如今企业网络日益复杂,网络故障的排查也越来越复杂。很多时候,企业网管会被网络出现的故障搞得一头雾水,而无从下手查找问题的根源。网络管理者的实践经验固然重要,但一套可以把底层信息全面呈现并能进行智能分析的网管软件更为重要。本文是通过某单位网络环路出现故障的实际案例,介绍如何通过智能网管软件发现问题、分析问题、解决问题。
某个星期天,工程师王某接到某单位信息中心李主任的电话。听起来李主任非常焦急,反映他单位的网络出现问题,局域网内部PC互ping丢包严重,PC ping网关的丢包率超过60%,ping本网段或跨网段都出现类似的丢包,已经严重影响到了企业的生产业务,情况非常紧急。
王工立刻赶到了现场,快速安装上泛普BTNM的试用版。打开泛普BTNM后,发现有多个接入交换机的CPU负载告警,CPU负载竟然达到了60%以上了,打开物理拓扑图发现CPU高负载的设备都是以红色图标展现在眼前。根据经验判断,出现这样的问题,通常有两种可能:ARP病毒和网络环路。
1、排查ARP病毒
王工使用泛普数据流分析探针对数据包进行分析统计,ARP报文正常(非常低),同时数据流分析探针默认的网络扫描告警、帧流量异常告警和IP协议端口数使用异常告警这三项重要的监控项并没有发生告警。因此,王工快速排除了ARP病毒的发作的可能性。
2、排查太网环路问题
局域网环路发生故障通常具备以下两个特点:
特点一,接入层交换机的CPU负载比较高。这是因为局域网出现环路后,广播报文会被环路上进行扩散,导致CPU性能比较低的接入层交换机的负载较高。
特点二,交换机的接口会在短时间内收/发大量的广播报文,通过交换机的接口统计信息确认环路发生的具体端口。
通过泛普BTNM网管系统的CPU负载告警和物理拓扑中的红颜色的设备(CPU高负载)情况与上述两个特点很匹配,因此,王工断定是局域网环路故障。
故障解决
王工对物理拓扑图中20多个红颜色(CPU负载较高)的设备进行右键关联菜单中的的设备端口状态分析,经过不到10分钟的时间,发现其中一台华三的S3126的交换机中的Ethernet1/0/1和Ethernet1/0/2这个两个端口的广播包比率大,每秒端口流量大,同时广播包增长快速。
在泛普BTNM物理拓扑图中打开此设备的真实面板图,点中Ethernet1/0/2端口,右键将此端口关闭后,发现网络突然就好了。
事后发现,导致故障的原因是网络管理人员在跳线时将同一根网线插在了同一台交换机的两个端口导致的。
以往,用户通常采用在交换机上执行命令(例如,display interface Ethernet x/x/x)来查看接口统计信息,这种方式非常耗时而且要求网络维护人员有一定的技术水平。使用智能分析网络管理系统(如泛普BTNM网管系统)通过图形化的方式快速定位问题所在,不但极大节约了网管人员的工作效率,而且将发现问题、分析问题、定位问题和解决问题的管理思路,完全融入到了IT运维管理中,为毫无头绪的网管人员提供了解决故障的方向与思路。
【推荐阅读】
◆网管软件专区
◆一起Web服务器访问失败故障分析实例

◆奇怪的排障:企业网络管理要突破惯有思维
◆如何解决无线网络跟有线网络不兼容问题
◆IT运维管理专区
本文来自互联网,仅供参考