交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
行业精选无线系列
无线管理与应用
1、故障现象
内网用户访问外网的业务时断时续,或者在某个时间点业务中断且无法自动恢复。
2、故障可能原因
(1)用户内网数据转发异常
(2)出口设备异常重启
(3)出口线路异常中断
(4)出口设备末配置防攻击策略,导致设备受到攻击,数据转发异常
(5)出口设备性能不足
3、故障处理流程
4、故障处理步骤
步骤1:检查内网数据转发情况
如果用户内网出现异常(如广播风暴、二层/三层环路等),会导致内网用户访问外网中断。在对出口设备进行排查前需先确保内网网络正常。
在用户反馈内网访外网中断的时间,通过在内网用户pc上ping网关、核心设备地址,出口设备内网口地址、出口设备外网口地址、及公网地址看是能够ping通,或是否存在大量的丢包,大延时等现象。
1)内网用户ping网关、核心设备地址。如果测试不丢包、延时小,则说明内网网络正常。如果出现不通,大量丢包、大延时等现象,则需排查内网设备是否工作正常,或是否内网存在广播风暴、环路等问题。
2)如果内网用户ping内网设备正常,ping出口设备地址和公网地址存在不通,或大量的丢包、大延时,则说明出口设备对于数据的转发处理可能存在问题,请继续如下“步骤2:检查出口设备是否异常重启”步骤排查。
步骤2:检查出口设备是否异常重启
检查出口设备的开机时间和运行时间,以判断设备是否有发生过异常重启。通过show version命令可以查看相关信息:
Ruijie#show version
System description : Ruijie Router (RSR20-04) by Ruijie Networks Co., Ltd.
System start time : 2012-11-23 1:54:49 //设备开机的时间点为2012年11月23日1点54分49秒
System uptime : 4:5:21:37 //设备开机后运行了4天5个小时21分钟37秒
......
如果判断设备末发生过异常重启,则直接跳到“步骤2:检查出口设备是否性能不足”步骤排查。
如果判断设备发生过异常重启,请做如下操作:
1)与用户确认是否人为将设备下电,或者设备所在的机房/机柜是否发生过异常断电情况。
2)通过以下操作确认设备是否发生过由于软件异常导致的重启(以下操作不会对在网业务造成影响)
Ruijie#debug support
Ruijie(support)#show exception
Exception address is 0x110000!
No Exception Information! //如果设备末因软件异常而重启过,则此处提示“No Exception Information”,反之则会打印出死机的堆栈信息。如果发现死机堆栈信息,请联系4008-111000协助处理。
步骤3:检查出口线路是否异常中断
(1)查看设备log,确认在业务中断时间是否有接口up/down信息
接口的up/down信息如下:
*Dec 6 15:42:57: %LINK-5-UPDOWN: Interface FastEthernet 0/0, changed state to down.
*Dec 6 15:42:57: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet 0/0, changed state to down.
*Dec 6 15:43:30: %LINK-5-UPDOWN: Interface FastEthernet 0/0, changed state to up.
*Dec 6 15:42:30: %LINEPROTO-5-UPDOWN: Line protocol on Interface FastEthernet 0/0, changed state to up.
如果发现在业务中断的时间点,log中有相应外网或内网接口的up/down信息,则可以确认业务中断是由于接口down引起的。
如果业务中断是由于外网或内网接口up/down引起的,请进行如下步骤排查:
· 如果外网口使用了光电转换器,或连接了交换机,需排除光电转换器或交换机故障因素,如有条件可采用设备替换法进行排查。如果排除设备因素,需与运营商确认专线链路是否正常。
· 如果外网口与运营商间不存在其它设备,需与运营商确认专线链路是否存在问题。
(2)确认内网访问外网中断时,在出口设备上是否能够ping通外网网关地址和公网地址
· 如果内网访问外网中断时,出口设备上能够ping通外网网关地址和公网地址,则说明出口线路正常,需继续以下“步骤4:检查出口设备是否配置了防攻击策略”步骤排查。
· 如果内网访问外网中断时,出口设备上无法ping通外网网关地址和公网地址,则说明出口线路异常,需与运营商确认专线链路是否正常。
·步骤4:检查出口设备是否配置了防攻击策略
·网络出口设备易遭受到来自内网和外网的网络攻击,如果设备末做基本的防攻击策略,则可能会经常出现如CPU高,CLI响应缓慢,内网访问外网资源速率很慢等现象。
·这些情况的产生一方面是由于控制平面和转发平面的处理能力的差异,另一方面是由于缺乏对控制层面的保护。通常我们可以通过如下手段来加强设备对控制层的保护:
·(1)配置本地CPU防攻击
·(2)配置防攻击ACL
·(3)配置黑洞路由
·(4)配置反向路径检查
·各功能的详细配置请进入各子步骤查看。
·(1)配置本地CPU防攻击
·1)配置启用防攻击功能
·Ruijie# config
·Ruijie(config)# control-plane protocol //进入control-plane 配置模式,并进入 protocol 子接口
·Ruijie(config-cp)# acpp bw-rate 500 bw-burst-rate 600 //配置ACPP,protocol上的流量限速为 500pps,允许的突发峰值为 600pps
·Ruijie(config)# control-plane data //进入control-plane 配置模式,并进入 data 子接口
·Ruijie(config-cp)# acpp bw-rate 500 bw-burst-rate 600 //配置ACPP,data 上的流量限速为 500pps,允许的突发峰值为 600pps
·Ruijie(config-cp)# glean-car 10 //配置Glean-CAR,对每个源允许每秒 10 个匹配到 glean 邻接的报文
·Ruijie(config)# control-plane manage //进入control-plane 配置模式,并进入 manage子接口
·Ruijie(config-cp)# acpp bw-rate 500 bw-burst-rate 600 //配置ACPP,manage 上的流量限速为 500pps,允许的突发峰值为 600pps
·Ruijie(config-cp)# arp-car 10 //配置ARP-CAR,对每个源允许每秒 10 个ARP 报文
·Ruijie(config-cp)# port-filter //启用Port-Filter 子功能
·Ruijie(config-cp)# management-interface gi0/0 allow telnet snmp //配置MPP规则,指定 gi0/0 口为带内管理接口,并只允许接收 telnet,snmp 的协议报文
·2)查看CPU防攻击
·通过show ef-rnfp all命令查看所有已配置的设备防攻击信息及统计。
·(2)配置防攻击ACL
·现在的网络中存在大量的攻击:外网的TCP 半开连接攻击,碎片攻击,还有一些迅雷、P2P 的流量虽然内网已经断开了连接,但是外网还是会发大量的数据包过来,占用大量的带宽和浪费路由器的资源。所以在路由器做出口的时候必须要加上防攻击的ACL。放通需要放通的流量,再拒绝所有外网始发到内网、设备的数据。
·-----------------------------------------------------------------------------------------------------------
·*/注意,以下相应ACL的配置,需根据不同场景下的实际业务进行相应修改,否则可能导致客户业务异常,或业务中断!!!/*
·1)配置针对外网口的 ACL
·配置阻止所有外网主动访问内网和路由器的流量,放通从外网访问内网服务器的流量.
·ip access-list extended 101
·10 permit tcp any any eq telnet //放通从外网来的 telnet 数据
·20 permit icmp any any //放通 ping数据
·30 permit ip any host 60.12.27.181 eq 80 //如果内网有WEB服务器,需放通相应流量
·40 permit tcp any host 61.153.10.249 eq ftp //如果内网有FTP服务器,需放通相应流量
·50 permit tcp any host 61.153.18.28 eq 8080 //如果内网有https服务器,需放通相应流量
·60 deny ip any any // 在外网口拒绝所有的流量
·2)配置 针对内网口的 ACL
·ip access-list extended 100
·10 permit tcp any host 192.168.199.1 eq telnet //放通从内网到本机的 telnet
·20 permit icmp any host 192.168.199.1 //放通从内网到本机的 ping
·30 deny ip any host 192.168.199.1 //deny 其它所有内网到本机的数据
·40 permit ip any any //放通所有从内网到外网去的数据。注意,该条目必须配置,否则会导致内网所有访问外网的流量中断!!
·3)在相应接口下应用ACL
·interface GigabiteEthernet 0/0
·ip access-group 100 in //在内网口配置
·interface GigabiteEthernet 0/0
·ip access-group 101 in //在外网口配置
·(3)配置黑洞路由
·为了防止外网的扫描,内网的变换源地址攻击,造成路由循环,会浪费路由器的大量资源,可以通过配置相应的黑洞路由将该部分流量直接丢弃。具体配置方式如下:
·如果NAT地址池的地址为
·ip nat pool natpool prefix-length 24
·address 202.56.32.1 202.56.32.127
·则NAT地址池为202.56.32.1-202.56.32.127,黑洞路由配置如下:
·ip route 202.56.32.0 255.255.255.128 null0
·(4)其它相关安全功能配置
·1)关闭mss协议的nat转换功能
·Ruijie(config)#no ip nat translation mss
·2)开启TCP半连接防护功能
·Ruijie(config)#ip session track-state-strictly
·3)在接口下配置 no ip directed-broadcast、no ip mask-reply
·Ruijie(config)#no ip mask-reply
·Ruijie(config)#no ip directed-broadcast
·4)在内网接口配置反向路径检查功能
·Ruijie(config)#interface gigabitEthernet 0/1 //进入内网接口
·Ruijie(config-if)#ip verify unicast source reachable-via rx //配置反向路径检查功能
·步骤5:检查出口设备是否性能不足
·在用户反馈内网访问外网中断的时间点登陆至设备上搜集如下信息:
·(1)在查看路由器的CPU使用情况
·通过show cpu命令查看设备的cpu使用率。
·Ruijie#show cpu
·=======================================
· CPU Using Rate Information
·CPU utilization in five seconds: 0% //最近5秒平均cpu使用率
·CPU utilization in one minute : 0% //最近1分钟平均cpu使用率
·CPU utilization in five minutes: 0% //最近5分钟平均cpu使用率
· NO 5Sec 1Min 5Min Process
· 0 0% 0% 0% LISR INT
· 1 0% 0% 0% HISR INT
·......
·(2)查看路由器的内存使用情况
·通过show memory命令来查看设备的内存使用率。
·Ruijie#show memory
·System Memory Statistic:
· Free pages: 70818
· watermarks : min 2165, lower 4330, low 6495, high 7895
· System Total Memory : 512MB, Current Free Memory : 286340KB //总内存大小与空闲内存大小
· Used Rate : 45% //内存使用率
·一般情况下,cpu的使用率都会在10%以内;内存的使用率在80%以内(RSR10由于本身内存较小,因此在加载业务的情况下内存使用率有可能达到80%~90%,但只要内存使用率比较稳定,末再持续增长就是正常的,不影响设备运行)。
·(3)查看路由器的流表使用情况
·通过show ip fpm statistics命令查看路由器的流表使用情况:
·Ruijie# show ip fpm statistics
·The capacity of the flow table:2080000 //设备支持的流表数量
·Number of active flows:168351 //目前已经使用的流表数
·Number of the defragment contexts:20 //代表需要组装的分片数据包的个数
·Number of the buffers hold by FPM:20 //分片数据包占用的缓存
·Event count (%256):156 //流事件通告次数,可以不关注
·分别确认业务正常和业务异常时,设备的已使用流表数。如果业务异常时设备已使用的流表数远远大于业务正常时设备已使用的流表数,则需确认用户最近是否业务量有较大增长,否则可能是由于内网某些PC中毒向外发起大量连接请求,占用了过多流表,从而导致某些业务无法访问,或速率很慢。
·(4)如经以上步骤排查,确认业务异常时设备CPU、内存、流表信息正常,请直接跳到“步骤4:检查出口专线是否异常中断”步骤排查。
·如经以上步骤排查,依然出现CPU高、内存高、流表占用高等情况,请直接跳到“步骤6:收集信息后,请联系4008111000协助处理”步骤排查。
·步骤6:收集信息后,请联系4008111000协助处理
·如经以上步骤排查,故障依然无法解决,请搜集以下故障信息,联系4008-111000协助处理:
·(1)基本信息收集
·show ver
·show slot
·show run
·show log
·show ip interface brief
·show ip route
·show ef-rnfp all
·debug support
· show exception
· exit
·确定出口线路有几条,及各线路的带宽大小
·高峰期上下行流量大小
·业务中断的时间点,是否有规律
·高峰时段内网用户数量
·用户的详细网络拓扑和网络规划
·(2)业务中断时,登陆至设备上,搜集如下信息:
·show cpu //每隔10秒搜集1次,共搜集3次
·show memory //每隔10秒搜集1次,共搜集3次
·show interface //每隔10秒搜集1次,共搜集3次
·show ip fpm statistics //每隔10秒搜集1次,共搜集3次
·show ip fpm counters //每隔10秒搜集1次,共搜集3次
·