产品
产品中心
< 返回主菜单
产品

交换机

交换机所有产品
< 返回产品
交换机
查看交换机首页 >

无线

无线所有产品
< 返回产品
无线
查看无线首页 >

云桌面

云桌面产品方案中心
< 返回产品
云桌面
查看云桌面首页 >

安全

安全所有产品
< 返回产品
安全
查看安全首页 >
产品中心首页 >
行业
行业中心
< 返回主菜单
行业
行业中心首页 >

【NBR适用9.X平台】NBR2000cpu高

发布时间:2013-11-24
点击量:3008

1.故障现象:

NBR2000内网ping内网延时很大,甚至ping不通,路由器web管理界面打不开,外网也无法连上。

内网用户打开网页很卡,打游戏正常,外网口drop包一直增加,流量大时增加更快

2.排查步骤:

1、了解环境:NBR2000双出口,电信和网通各100M,下连交换机2724G,网关都在路由器上,内网用户500人左右;

2、内网telnet也无法登录,让客户找配置线,配置线连上后也看不到任何信息。

3、23:00后流量稍微小些能从外网进去,看到CPU高达98%以上,怀疑流量过大导致CPU高,对内网进行固定限速,此时流量没超过总带宽的50%,但CPU还是高

4、查看日志,并没有攻击或其他异常日志,查看接口流量,外网口流量正常,

5、内网口output流量接近100M,output方向drop严重,且在不断增加,仔细查看接口被识别成100M,而外网口是双100M的带宽,内网口的流量会超过100M,故导致内网口drop。

6、用配置线连交换机2724G查看:交换机总是提示地址冲突,冲突来自端口1,看配置发现此交换机和下连的交换机配置了相同的管理地址,修改后冲突日志消失(但这并不会导致现在的故障),查看交换机与路由器连接的接口为100M(2724G为全千兆交换机),换了个端口后能正常识别成1000M端口。

7、问题还是没解决,第二天之前的现象还是存在,路由器web管理界面进不去,telnet不上,流量稍小些偶尔能从外网登录。

8、能从外网登录时查看内网口信息如下:接口已正常识别为1000M,接口的input和output流量都在400M以上,但两个外网口的Input和output流量加分别不超过100M,但日志还是没有什么信息,不能判断攻击源。

9、在路由器里sho ip flow ip all 查看是否有哪台主机有异常流量,并没有发现不正常流量,客户做的固定限速正常生效。

10、查看交换机的信息sho int cou rate:连接路由器的接口G0/22的流量高达500M以上,观察发现G0/1,G0/2, G0/3,G0/4,G0/8,G0/21,G0/22,G0/23,G0/24,AG1的流量都过大,经确认G0/1,G0/2, G0/3,G0/4是聚合口,下连另一台2724G做为用户的汇聚交换机,G0/8,G0/20,G0/21,G0/23,G0/24分别连接无盘服务器。聚合口的流量大是正常的,服务器的流量大也是正常的,但上连口的流量大是不正常的。怀疑内网有攻击(虽然日志里没有异常信息),但客户表示学校不能轻易拔线测试。

11、Sho ip flow ip all时看到有两个网段的数据流:192.168.0.0和192.168.1.0网段的,怀疑会不会是服务器(服务器是192.168.0.0的地址)和客户机(192.168.1.0的地址)不在同一个网段,导致客户机访问服务器都要通过路由器转发,但查看配置后发现内网口地址为192.168.1.254/255.255.254.0,也就是其实客户机和服务器是同一个网段的,共用一个网关,若是同网段,客户访问服务器只需要交换机转发即可,不经过路由器。

12、与客户确认下面客户机的子网掩码都是255.255.254.0么,客户反应客户机的没错,但服务器的子网掩码配置的是255.255.255.0。让客户把子网掩码修改成255.255.255.0后G0/22的流量降到100M左右,路由器的内网口input和output流量也正常,cpu也降下来,内网上网正常,路由web管理界面也能正常访问,但外网口drop的问题没有解决,流量大时平均每秒5个以上的drop。日志里还是没有任何信息。

13、路由器ping外网的两个网关均没有延时,两个光电转换器重启过,也无效。客户表示能正常上网就行,此问题暂不解决,故无法配合更换光转换器。感觉不会这么巧两个光电转换器都有问题。

14、将此问题提交研发。

15、研发第一次回复如下:

“我看到内网口g0/0的output drop增长很快,几乎每秒增长个几十个,经过排查,把接口上的hold-queue的配置做了调整,现在基本上不出现丢包了;”

16 、登录路由器后看到问题还是没解决,drop还是有,再次给研发发邮件,把收集的信息附上

研发回复如下:

“我把wan口防攻击配置security anti-wan-attack level high暂时关闭后观察了有半个多小时,这段时间内g0/1的input drop统计一直没有增长。看来应该是有小部分攻击报文被检测和丢弃了吧。”

17、再次登录路由器情况确实如此。与销售商联系,告知可与运营商反馈情况。学校老师有点情绪,销售商表示此问题不影响上网就暂时不排查,过些时候再说。

18、       问题告一段落。

3.故障原因:

 

1.问题解决后客户问了这样一个问题:我的网络用了一年多了,为什么最近才出现这些问题。

解释:客户自己提供过这样的信息,最近客户机由原来的300台增加到480台,增加客户机之前交换机端口识别成100M,能够满足300台用户的流量,路由器也能处理得过来这些数据的转发,但增加了客户机之后,数据流过大了,100M的速率已不能满足,故丢包严重,客户机访问服务器的数据也增加,路由器任务更重了,导致CPU高。

2.客户机去访问服务器时,源IP192.168.1.0/23去访问192.168.0.254/24,属于同网段地址,故交换机直接转发,服务器回应时,源192.168.0.254/24,目的192.168.1.0/23,属于不同网段,会先发给网关,即192.168.1.254/23,路由器再转发,故路由器要处理大量转发报文。导致cpu高。

 

相关产品

返回顶部

请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式