交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
行业精选无线系列
无线管理与应用
1、故障现象
Ruijie>en
not enough memory! cli execute fail!
或 *Sep 6 08:54:14: %SCHED-0-NOSTACK: Could not allocate 40960 bytes for stack from memory.
2) 设备工作正常,但Show memory 查看发现内存利用率达到80%-90%甚至更高,且内存使用持续递增。(剩余内存持续减少,内存利用率不断升高)
Ruijie#show memory
System Memory Statistic:
Free pages: 2898
watermarks : min 433, lower 866, low 1299, high 1732
System Total Memory : 128MB, Current Free Memory : 14580KB
Used Rate : 89%
使用命令show memory连续查询设备内存利用率,确定设备内存利用率是否异常。由于RSR路由器为了保证关键业务正常,系统开机会预先保留内存资源(比如RSR50,开机50%;RSR10开机70%),所以正常业务情况下,基本不会耗费过多的内存资源。如果内存利用率偏高,设备内存利用率持续在70%以上(RSR10持续超过85%以上),说明某些线程消耗内存比较大,则可能设备内存存在泄漏,需要定期收集内存利用率信息对比内存。
观察内存使用是否在递增,通过网管软件如果获取到设备早期和当前的内存利用率存在较大幅度的递增通常也说明内存可能存在泄漏,需要按照下述步骤进行处理。
2、故障可能原因
3.故障处理流程
4.故障处理步骤
4.1 查看设备内存是否耗尽
步骤1: 登陆到设备,获取内存信息(如下2种方法任选一种即可)
步骤2: 查看详细内存占用情况
1. not enough memory! cli execute fail!
2.*Sep 6 08:54:14: %SCHED-0-NOSTACK: Could not allocate 40960 bytes for stack from memory.
遇到上述情况时,直接进入步骤4.2紧急收集信息并恢复业务。
示例:
Ruijie#show memory
System Memory Statistic:
Free pages: 2898
watermarks : min 433, lower 866, low 1299, high 1732
System Total Memory : 128MB, Current Free Memory : 14580KB
Used Rate : 89%
遇到上述内存利用率较高(例如达到70%以上),但设备仍然可以正常工作,或内存利用率低于70%,但担心设备存在异常的,则跳过步骤4.2直接转入步骤4.3进行信息收集。
4.2 紧急收集信息及业务恢复
特别提示:
1. 紧急收集信息仅在设备无法进行正常管理(包括Console、telnet、SSH),且业务中断,客户急需重启设备恢复业务时使用。
2. 如设备可正常工作,可按照4.3步骤中的方法进行信息收集。
3. 紧急信息收集时间通常在2-3分钟即可,信息收集完毕后可重启设备快速恢复客户业务。
4. 重启之前务必和客户达成一致的操作时间,以便方便客户做好重启前的通知等准备工作。
步骤1:Console口连接故障设备,输入@@@@@,@@@@s, @@@@@e等待设备输出完毕,执行3次。
提示:如果信息收集过程中,确保Console线缆正常的前提下,Console口也没有输出,请联系4008111000协助处理。
信息收集内容务必确保能够自动记录在secCRT软件日志中。
步骤2:信息收集完毕后,可根据客户需求进行设备断电重启操作,设备重启时Console线缆应保持继续连接在设备,观察设备输出,并确保设备重启正常。
步骤3:等待设备正常重启成功后,继续如下收集信息以便提供给4008111000分析,设备工作正常时和故障时所紧急收集的信息对比,可帮助后台故障快速定位。
show run
show version
show slot
show version slots
show memory
show log
show ip fpm stat (show 3次)
show ip fpm count (show 3 次)
show ip interface brief
show interface (如果怀疑有攻击,可以show 3 次)
show vrrp brief
show ef-rnfp all
如果涉及动态路由协议,请收集:
show ip route
show ip route count
show ip ospf neighber
show ip ospf data
show ip rip peer
show ip rip data
show ip rip inter
show ip bgp neigh
show bgp all summary 。
4)进入debug support模式,方法如下
Ruijie#debug support
Ruijie(support)#
执行
Ruijie(support)#show memory 2次
Ruijie(support)#show pool 2次
Ruijie(support)#show skbuff 2次
Ruijie(support)#exit //退出support模式
收集完上述信息后,将故障处理过程描述清楚及收集信息完毕后,请联系4008111000协助处理。
4.3 观察设备内存使用是否持续递增
由于功能变化,例如单播路由条目增加、组播表项增加等其他功能调整均会导致内存一定程度增加,但此类增加通常比较平稳,内存利用率不会大幅增长,(例如1K路由约占用2M内存,由于网络扩容改造,设备多学习到了1K条路由,会导致内存减少2M左右)属于正常现象,并非故障。
所以对于怀疑内存泄露的故障,需要观察内存使用是否持续递增。
步骤1: 通过执行show memory,连续3次,每次间隔2S。
步骤2: 观察步骤1结果中, Used Rate(内存利用率)是否支持递增, 观察Current Free Memory(空闲内存)KB是否不断减少。
示例:
Ruijie#show memory
System Memory Statistic:
Free pages: 2898
watermarks : min 433, lower 866, low 1299, high 1732
System Total Memory : 128MB, Current Free Memory : 14580KB
Used Rate : 89%
步骤3:
show run
show version
show slot
show version slots
show memory
show log
show ip fpm stat (show 3次)
show ip fpm count (show 3 次)
show ip interface brief
show interface (如果怀疑有攻击,可以show 3 次)
show vrrp brief
show ef-rnfp all
如果涉及动态路由协议,请收集:
show ip route
show ip route count
show ip ospf neighber
show ip ospf data
show ip rip peer
show ip rip data
show ip rip inter
show ip bgp neigh
show bgp all summary 。
4)进入debug support模式,方法如下
Ruijie#debug support
Ruijie(support)#
执行
Ruijie(support)#show memory 2次
Ruijie(support)#show pool 2次
Ruijie(support)#show skbuff 2次
Ruijie(support)#exit //退出support模式
提示:如果内存利用率已经达到90%以上且持续递增,如果客户担心设备内存耗尽导致业务中断,可和客户商定在对客户业务影响最小的时间进行设备重启,重启完毕后再按照步骤3中的信息收集一次,并联系4008111000协助处理。