产品
产品中心
< 返回主菜单
产品

交换机

交换机所有产品
< 返回产品
交换机
查看交换机首页 >

无线

无线所有产品
< 返回产品
无线
查看无线首页 >

云桌面

云桌面产品方案中心
< 返回产品
云桌面
查看云桌面首页 >

安全

安全所有产品
< 返回产品
安全
查看安全首页 >
产品中心首页 >
行业
行业中心
< 返回主菜单
行业
行业中心首页 >

【路由器】路由器系统类异常,即内存利用率增高,导致无法进入特权模式或者内存使用持续递增

发布时间:2013-11-24
点击量:7816

1、故障现象

  1. 无法进入特权模式:设备console口敲入字符无反应,且日志输出内存不足的异常log。

Ruijie>en

not enough memory! cli execute fail!

或 *Sep  6 08:54:14: %SCHED-0-NOSTACK: Could not allocate 40960 bytes for stack from memory.

 

   2) 设备工作正常,但Show memory 查看发现内存利用率达到80%-90%甚至更高,且内存使用持续递增。(剩余内存持续减少,内存利用率不断升高)

Ruijie#show memory

System Memory Statistic:

  Free pages: 2898

    watermarks : min 433, lower 866, low 1299, high 1732

  System Total Memory : 128MB, Current Free Memory : 14580KB

  Used Rate : 89%

使用命令show  memory连续查询设备内存利用率,确定设备内存利用率是否异常。由于RSR路由器为了保证关键业务正常,系统开机会预先保留内存资源(比如RSR50,开机50%;RSR10开机70%),所以正常业务情况下,基本不会耗费过多的内存资源。如果内存利用率偏高,设备内存利用率持续在70%以上(RSR10持续超过85%以上),说明某些线程消耗内存比较大,则可能设备内存存在泄漏,需要定期收集内存利用率信息对比内存。

观察内存使用是否在递增,通过网管软件如果获取到设备早期和当前的内存利用率存在较大幅度的递增通常也说明内存可能存在泄漏,需要按照下述步骤进行处理。

2、故障可能原因

  1. 通常由于软件故障,某功能占用的内存无法释放,会导致内存发生快速的或非常缓慢的泄漏。对于设备长期工作正常,近期新部署了某功能后,内存快速泄露的故障,通常跟新增功能存在异常相关。
  2. 由于功能变化,例如单播路由条目增加、组播表项增加均会导致内存一定程度增加,但此类增加通常比较平稳,内存利用率不会大幅增长,(例如1K路由约占用2M内存)属于正常现象,并非故障,需要工程师予以区分。

3.故障处理流程

4.故障处理步骤

4.1 查看设备内存是否耗尽

步骤1: 登陆到设备,获取内存信息(如下2种方法任选一种即可)

  • Console口连接设备,键盘输入后, SecCRT或超级终端上是否存在回显,如有回显,登陆设备并执行show memory (2次)
  • Telent或SSH远程连接并登陆到设备,执行Show memory (2次) 

步骤2: 查看详细内存占用情况

  • 如果步骤1中 console口输出如下结果之一,则证明内存已经被泄露完毕,系统无法正常申请内存,通常此时设备已经不能正常工作,业务中断。

1. not enough memory! cli execute fail!

2.*Sep  6 08:54:14: %SCHED-0-NOSTACK: Could not allocate 40960 bytes for stack from memory.

      遇到上述情况时,直接进入步骤4.2紧急收集信息并恢复业务。

  • 如果步骤1中执行show menory,可以正常输出结果,则说明还有一定内存,可维持系统正常运行。

示例:

Ruijie#show memory

System Memory Statistic:

  Free pages: 2898

    watermarks : min 433, lower 866, low 1299, high 1732

  System Total Memory : 128MB, Current Free Memory : 14580KB

  Used Rate : 89%

      遇到上述内存利用率较高(例如达到70%以上),但设备仍然可以正常工作,或内存利用率低于70%,但担心设备存在异常的,则跳过步骤4.2直接转入步骤4.3进行信息收集。

  4.2 紧急收集信息及业务恢复

特别提示:

1. 紧急收集信息仅在设备无法进行正常管理(包括Console、telnet、SSH),且业务中断,客户急需重启设备恢复业务时使用。

2. 如设备可正常工作,可按照4.3步骤中的方法进行信息收集。

3. 紧急信息收集时间通常在2-3分钟即可,信息收集完毕后可重启设备快速恢复客户业务。

4. 重启之前务必和客户达成一致的操作时间,以便方便客户做好重启前的通知等准备工作。

步骤1:Console口连接故障设备,输入@@@@@,@@@@s, @@@@@e等待设备输出完毕,执行3次。

         提示:如果信息收集过程中,确保Console线缆正常的前提下,Console口也没有输出,请联系4008111000协助处理。

                  信息收集内容务必确保能够自动记录在secCRT软件日志中。

步骤2:信息收集完毕后,可根据客户需求进行设备断电重启操作,设备重启时Console线缆应保持继续连接在设备,观察设备输出,并确保设备重启正常。

步骤3:等待设备正常重启成功后,继续如下收集信息以便提供给4008111000分析,设备工作正常时和故障时所紧急收集的信息对比,可帮助后台故障快速定位。

  1. 执行show memory 连续3次,间隔5S。
  2. 执行show memory protocols  连续3次,间隔5S。
  3. 收集基础信息。

show run

show version

show slot

show version slots

show memory

show log

show ip fpm stat      (show 3次)

show ip fpm count  (show 3 次)

show ip interface brief

show interface   (如果怀疑有攻击,可以show 3 次)

show vrrp brief

show ef-rnfp all

如果涉及动态路由协议,请收集:

show ip route

show ip route count

show ip ospf neighber

show ip ospf data

show ip rip peer

show ip rip data

show ip rip inter

show ip bgp neigh

show bgp all summary 。

4)进入debug support模式,方法如下

Ruijie#debug support

Ruijie(support)#

执行

Ruijie(support)#show memory    2次

Ruijie(support)#show pool       2次

Ruijie(support)#show skbuff  2次

        Ruijie(support)#exit    //退出support模式

 

            收集完上述信息后,将故障处理过程描述清楚及收集信息完毕后,请联系4008111000协助处理。

4.3 观察设备内存使用是否持续递增

由于功能变化,例如单播路由条目增加、组播表项增加等其他功能调整均会导致内存一定程度增加,但此类增加通常比较平稳,内存利用率不会大幅增长,(例如1K路由约占用2M内存,由于网络扩容改造,设备多学习到了1K条路由,会导致内存减少2M左右)属于正常现象,并非故障。

所以对于怀疑内存泄露的故障,需要观察内存使用是否持续递增。 

步骤1: 通过执行show memory,连续3次,每次间隔2S。 

步骤2:   观察步骤1结果中, Used Rate(内存利用率)是否支持递增, 观察Current Free Memory(空闲内存)KB是否不断减少。

示例:

Ruijie#show memory

System Memory Statistic:

  Free pages: 2898

    watermarks : min 433, lower 866, low 1299, high 1732

  System Total Memory : 128MB, Current Free Memory : 14580KB

  Used Rate : 89%

  • 如果Free Memory 持续快速减少(每次show 减少2kb左右),则每间隔5-10分钟继续收集show memory信息进行对比。
  • 如果Free Memory 变化不明显,建议间隔几个小时或1天,再行查看。仍然变化不明显的,可间隔1个星期或1个月再行收集show memory信息进行对比。 

步骤3:

  •    通过以上观察,对于内存长期无明显变化的,可以判定为属于正常现象,非故障。 
  •    通过以上观察,确认Free Memory 持续减少的(快速或缓慢),再行收集一次如下信息,并请联系4008111000协助处理。
  1. 执行show memory 连续3次,间隔5S。
  2. 执行show memory protocols  连续3次,间隔5S。
  3. 收集基础信息。

show run

show version

show slot

show version slots

show memory

show log

show ip fpm stat      (show 3次)

show ip fpm count  (show 3 次)

show ip interface brief

show interface   (如果怀疑有攻击,可以show 3 次)

show vrrp brief

show ef-rnfp all

如果涉及动态路由协议,请收集:

show ip route

show ip route count

show ip ospf neighber

show ip ospf data

show ip rip peer

show ip rip data

show ip rip inter

show ip bgp           neigh

show bgp all summary 。

4)进入debug support模式,方法如下

Ruijie#debug support

Ruijie(support)#

执行

Ruijie(support)#show memory    2次

Ruijie(support)#show pool       2次

Ruijie(support)#show skbuff  2次

        Ruijie(support)#exit    //退出support模式

 提示:如果内存利用率已经达到90%以上且持续递增,如果客户担心设备内存耗尽导致业务中断,可和客户商定在对客户业务影响最小的时间进行设备重启,重启完毕后再按照步骤3中的信息收集一次,并联系4008111000协助处理。

          

 

 

    

 

 

 

 

相关产品

返回顶部

请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式