交换机
园区网交换机
数据中心与云计算交换机
中小网络精简型交换机
工业交换机
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
小锐A系列
统一运维
身份管理
服务产品
运营商
政府
金融
互联网
电力能源
制造业
高教/职教
医疗卫生
交通
地产酒店文旅·连锁服务
公共安全
1.故障现象:
NBR2000内网ping内网延时很大,甚至ping不通,路由器web管理界面打不开,外网也无法连上。
内网用户打开网页很卡,打游戏正常,外网口drop包一直增加,流量大时增加更快
2.排查步骤:
1、了解环境:NBR2000双出口,电信和网通各100M,下连交换机2724G,网关都在路由器上,内网用户500人左右;
2、内网telnet也无法登录,让客户找配置线,配置线连上后也看不到任何信息。
3、23:00后流量稍微小些能从外网进去,看到CPU高达98%以上,怀疑流量过大导致CPU高,对内网进行固定限速,此时流量没超过总带宽的50%,但CPU还是高
4、查看日志,并没有攻击或其他异常日志,查看接口流量,外网口流量正常,
5、内网口output流量接近100M,output方向drop严重,且在不断增加,仔细查看接口被识别成100M,而外网口是双100M的带宽,内网口的流量会超过100M,故导致内网口drop。
6、用配置线连交换机2724G查看:交换机总是提示地址冲突,冲突来自端口1,看配置发现此交换机和下连的交换机配置了相同的管理地址,修改后冲突日志消失(但这并不会导致现在的故障),查看交换机与路由器连接的接口为100M(2724G为全千兆交换机),换了个端口后能正常识别成1000M端口。
7、问题还是没解决,第二天之前的现象还是存在,路由器web管理界面进不去,telnet不上,流量稍小些偶尔能从外网登录。
8、能从外网登录时查看内网口信息如下:接口已正常识别为1000M,接口的input和output流量都在400M以上,但两个外网口的Input和output流量加分别不超过100M,但日志还是没有什么信息,不能判断攻击源。
9、在路由器里sho ip flow ip all 查看是否有哪台主机有异常流量,并没有发现不正常流量,客户做的固定限速正常生效。
10、查看交换机的信息sho int cou rate:连接路由器的接口G0/22的流量高达500M以上,观察发现G0/1,G0/2, G0/3,G0/4,G0/8,G0/21,G0/22,G0/23,G0/24,AG1的流量都过大,经确认G0/1,G0/2, G0/3,G0/4是聚合口,下连另一台2724G做为用户的汇聚交换机,G0/8,G0/20,G0/21,G0/23,G0/24分别连接无盘服务器。聚合口的流量大是正常的,服务器的流量大也是正常的,但上连口的流量大是不正常的。怀疑内网有攻击(虽然日志里没有异常信息),但客户表示学校不能轻易拔线测试。
11、Sho ip flow ip all时看到有两个网段的数据流:192.168.0.0和192.168.1.0网段的,怀疑会不会是服务器(服务器是192.168.0.0的地址)和客户机(192.168.1.0的地址)不在同一个网段,导致客户机访问服务器都要通过路由器转发,但查看配置后发现内网口地址为192.168.1.254/255.255.254.0,也就是其实客户机和服务器是同一个网段的,共用一个网关,若是同网段,客户访问服务器只需要交换机转发即可,不经过路由器。
12、与客户确认下面客户机的子网掩码都是255.255.254.0么,客户反应客户机的没错,但服务器的子网掩码配置的是255.255.255.0。让客户把子网掩码修改成255.255.255.0后G0/22的流量降到100M左右,路由器的内网口input和output流量也正常,cpu也降下来,内网上网正常,路由web管理界面也能正常访问,但外网口drop的问题没有解决,流量大时平均每秒5个以上的drop。日志里还是没有任何信息。
13、路由器ping外网的两个网关均没有延时,两个光电转换器重启过,也无效。客户表示能正常上网就行,此问题暂不解决,故无法配合更换光转换器。感觉不会这么巧两个光电转换器都有问题。
14、将此问题提交研发。
15、研发第一次回复如下:
“我看到内网口g0/0的output drop增长很快,几乎每秒增长个几十个,经过排查,把接口上的hold-queue的配置做了调整,现在基本上不出现丢包了;”
16 、登录路由器后看到问题还是没解决,drop还是有,再次给研发发邮件,把收集的信息附上
研发回复如下:
“我把wan口防攻击配置security anti-wan-attack level high暂时关闭后观察了有半个多小时,这段时间内g0/1的input drop统计一直没有增长。看来应该是有小部分攻击报文被检测和丢弃了吧。”
17、再次登录路由器情况确实如此。与销售商联系,告知可与运营商反馈情况。学校老师有点情绪,销售商表示此问题不影响上网就暂时不排查,过些时候再说。
18、 问题告一段落。
3.故障原因:
1.问题解决后客户问了这样一个问题:我的网络用了一年多了,为什么最近才出现这些问题。
解释:客户自己提供过这样的信息,最近客户机由原来的300台增加到480台,增加客户机之前交换机端口识别成100M,能够满足300台用户的流量,路由器也能处理得过来这些数据的转发,但增加了客户机之后,数据流过大了,100M的速率已不能满足,故丢包严重,客户机访问服务器的数据也增加,路由器任务更重了,导致CPU高。
2.客户机去访问服务器时,源IP192.168.1.0/23去访问192.168.0.254/24,属于同网段地址,故交换机直接转发,服务器回应时,源192.168.0.254/24,目的192.168.1.0/23,属于不同网段,会先发给网关,即192.168.1.254/23,路由器再转发,故路由器要处理大量转发报文。导致cpu高。