网安融合 专业防护更简单,RG-WALL1600-CF系列防火墙线上发布会
预约直播
产品
< 返回主菜单
产品中心
产品

交换机

交换机所有产品
< 返回产品
交换机主页
交换机

无线

无线所有产品
< 返回产品
无线主页
无线

云桌面

云桌面产品方案中心
< 返回产品
云桌面主页
云桌面

安全

安全所有产品
< 返回产品
安全主页
安全

【路由器】路由器系统类异常,即死机/重启类异常,造成重启后业务恢复正常或者法重启成功,期间不断打印堆栈信息

发布时间:2013-11-24
点击量:4361

1、故障现象

  1. 设备在运行过程中莫名重启,重启后业务恢复正常。
  2. 设备在运行过程中或执行某些操作后自动重启,无法重启成功,期间不断打印堆栈信息。
  3. 设备运行中打印类似的堆栈信息,软件功能可能异常,也可能正常运行。

2、故障可能原因

出现异常重启或打印堆栈信息,必然是软件故障或硬件故障,根据不同的现象进行对应操作。

3.故障处理流程

 

4.故障处理步骤

4.1 异常重启,重启后业务恢复正常故障处理

设备运行过程中异常重启。重启这个动作本身是软件的一种保护和自动恢复动作,在软件运行异常后,自动重启一般可以将软件重置,以达到恢复软件正常状态的目的。

自动重启后,设备一般可以恢复正常状态,在重启后收集到的设备状态信息已经不能有效说明当时为什么重启。唯一可以有效说明死机原因的只有show exception信息,但不是任何异常重启都会记录exception信息。(exception信息记录在flash中,重启后该信息仍然保存)

exception信息是一串的堆栈信息,研发可以根据这串堆栈,通过内部代码追溯出导致重启的功能模块和可能的原因,是定位故障的关键。

步骤1: 登陆到设备,收集exception信息

进入debug support模式,方法如下

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit    //退出debug support模式

堆栈信息实例:

Ruijie#deb su

Ruijie(support)#sho ex

Exception address is 0x110000!

======================================================================

Exception Head Information

Entry Number: 8

MAX Entry Number: 31

First Number: 0

Last Number: 7

======================================================================

Time: 2008-1-6 17:44:19         size: 1626

Exception Message:

System(CPU 0) Exception Occured:

  ExType: XTLB Miss Exception

  Current Thread: nsmd

  SP       : 0000000009AECC50

  SP Start : 0000000009AD5180   SP End   : 0000000009AEDFF0

CP0 Error Report Registers:

  Cause    : 20800008           EPC      : 000000000067A8E4

  Status   : 1000BC83           ErrEPC   : FFFFFFFFFFC00000

  ErrCtrl  : 00000000           BadVAddr : FFFFFFFFFFC0000C

  CacheErr : 34000D40           RA(r31)  : 000000000067A7F4

General Purpose Registers (GPRs):

  0 (r00)  : 0000000000000000   s0(r16)  : 0000000009AECC98

  AT(r01)  : 000000001000BC80   s1(r17)  : 0000000000000001

  v0(r02)  : 0000000000000002   s2(r18)  : 0000000007CEA6A0

  v1(r03)  : 0000000000000040   s3(r19)  : FFFFFFFFFFC00000

  a0(r04)  : 0000000009AECC50   s4(r20)  : 0000000007CEA260

  a1(r05)  : 0000000000000000   s5(r21)  : 0000000009AECD70

  a2(r06)  : 0000000000000080   s6(r22)  : 0000000009907000

  a3(r07)  : 0000000000000040   s7(r23)  : 0000000000000054

  a4(r08)  : FFFFFFFFFFFFFF80   t8(r24)  : 00000000009629C8

  a5(r09)  : 0000000000000000   t9(r25)  : 0000000000000002

  a6(r10)  : 0000000020010000   k0(r26)  : 0000000000000000

  a7(r11)  : 0000000000000001   k1(r27)  : 0000000000000001

  t0(r12)  : 0000000000000001   gp(r28)  : 0000000000BC1550

  t1(r13)  : 00000000009629CE   sp(r29)  : 0000000009AECC50

  t2(r14)  : 0000000009AECB97   fp(r30)  : 0000000000000000

  t3(r15)  : 0000000006C5E7EF   ra(r31)  : 000000000067A7F4

 

MIPS Stack Trace:

0x67a7a8 -> 0x668eb0 -> 0x66cce0 -> 0x66cf18 -> 0x637470 -> 0x638a68 -> 0x6734d0 -> 0x6a8678 -> 0x406600 -> <end>

System HALT!

没有堆栈信息实例:

Ruijie(support)#show exception

Exception address is 0x40000!

No Exception Information!       

 

步骤2 收集基础信息,尽快联系4008111000处理。

Show version               //查看版本

Show version slot         //查看线卡安装状态

Show run                      //查看设备配置

Show cpu                      //查看设备CPU状态

Show memory               //查看设备内存状态

Show interface              //查看接口情况

Show ip int brief             //查看接口状态概况

Show ip fpm sta              //查看流表状态

Show ip route                  //查看路由表

Show clock                       //查看设备当前时间

Show log                          //查看设备日志

more flash:/log.txt            //查看记录在flash里的日志

 

步骤3:持续观察设备运行情况       

自动重启后,设备虽然恢复了正常,但还是有再次触发死机重启的可能,需要做好观察保障工作。

对于核心位置的设备和敏感客户建议的操作:

1)准备一台主机,通过console线连接设备;CRT程序打开“记录会话”功能记录日志。观察设备的日志打印,以便在设备再次异常重启时能够收集到重启前后的情况;

2)每天收集2-3次步骤2的基础信息,至少保证每天收集1次。收集的信息及时同步给4008111000。

根据客户条件尽可能满足以上操作。

其中重点观察 CPU、内存值的变化,以及日志信息是否有异常信息打印。

4.2 异常反复重启故障处理

设备反复重启,或在启动过程中就打印堆栈信息然后又重启,这可能是软件故障,也可能是硬件故障。

步骤1: 登陆到设备,收集重启过程的日志信息

步骤2:尝试恢复网络

1)尝试下电,重新上电。

下电重新上电,可以使得整机复位。

2)尝试拔插主控引擎(对于箱式设备)

拔插主控引擎用于排除由于主控引擎安装不到位引起的故障。

3)尝试重新升级一个软件版本

尝试将软件版本升级到最新版本,排除软件版本损坏。

4)尝试更换硬件

对于箱式设备,有备用引擎的,可以将备用引擎和主用引擎对调

对于盒式设备,进行整机替换

步骤3:

如果是通过硬件更换解决的故障,走硬件返修流程。

如果非通过硬件更换解决的,可以在处理完成后收集以下基本信息,致电4008111000寻求技术支持。

进入debug support模式,方法如下:

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit    //退出debug support模式

Show version               //查看版本

Show version slot         //查看线卡安装状态

Show run                      //查看设备配置

Show cpu                      //查看设备CPU状态

Show memory               //查看设备内存状态

Show interface              //查看接口情况

Show ip int brief             //查看接口状态概况

Show ip fpm sta              //查看流表状态

Show ip route                  //查看路由表

Show clock                       //查看设备当前时间

Show log                          //查看设备日志

more flash:/log.txt            //查看记录在flash里的日志

4.3 运行过程中打印堆栈信息故障处理

 

设备在运行过程中打印类似堆栈信息:

010BE798$ -> 00000000$ -> 0109CB90$ -> 010999E4$ -> 010BBA8C$ -> 0109139C$ -> 010914A8$ -> 01074A18$ -> 01074E04$ -> 0101D724$ -> 0102B9E0$<end>

这表明某功能模块软件出现了问题。此时设备运行可能出现了异常,比如网络中断,路由协商问题等;也可能设备还在运行中,没有表项出异常;这于出问题的软件功能模块相关,只是问题还未暴露而已。但不管如何,看到类似堆栈信息时就必须进行处理。

步骤1: 收集底层信息

请使用@@@@@,@@@@s,@@@@e命令收集信息3次

(以上命令属于高风险命令,打印信息量比较大,短时间内CPU可能飙高,极端情况会断网,属于高压线明确禁止操作。由于设备已经出现软件异常,很有必要进行底层信息收集。此时应该告知收集这些命令的风险再做收集。)

步骤2:   基础信息收集

进入debug support模式,方法如下:

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit    //退出debug support模式

Show version               //查看版本

Show version slot         //查看线卡安装状态

Show run                      //查看设备配置

Show cpu                      //查看设备CPU状态

Show memory               //查看设备内存状态

Show interface              //查看接口情况

Show ip int brief             //查看接口状态概况

Show ip fpm sta              //查看流表状态

Show ip route                  //查看路由表

Show clock                       //查看设备当前时间

Show log                          //查看设备日志

more flash:/log.txt            //查看记录在flash里的日志

 

步骤3:   尝试恢复网络

如果已经影响到网络运行,在收集完信息收,可以重启整机尝试恢复。一般,通过重启能够暂时解决问题;

如果只是打印堆栈信息,还未对网络造成影响,可以暂时不重启设备,保留现场;

即刻联系4008111000进行处理。

 

步骤4:持续观察设备运行情况       

自动重启后,设备虽然恢复了正常,但还是有再次触发死机重启的可能,需要做好观察保障工作。

对于核心位置的设备和敏感客户建议的操作:

1)准备一台主机,通过console线连接设备;CRT程序打开“记录会话”功能记录日志。观察设备的日志打印,以便在设备再次异常重启时能够收集到重启前后的情况;

2)每天收集2-3次步骤2的基础信息,至少保证每天收集1次。收集的信息及时同步给4008111000。

根据客户条件尽可能满足以上操作。

其中重点观察 CPU、内存值的变化,以及日志信息是否有异常信息打印。

 

 

 

 

 

    

      

 

 

 

 

 

 

 

 

 

相关产品

返回顶部

收起
请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式
是否找到您想要的内容?
您遇到了什么问题?
找不到想要的信息
筛选功能不好用
加载速度太慢
页面体验差
提交
您是否找到了与产品相关的文档
筛选功能是否帮助您更快找到所需的文档?
有帮助
一般
没有帮助
没用过
请问您遇到了什么问题?
需要填写的内容太多
有些信息不懂怎么填
页面有问题/错误
其他
确定
这些客户案例是否对您有帮助?
非常有帮助
比较有帮助
没有帮助
请您对这个客户案例进行评价
兴趣度
相关性
可信度
确定
感谢您的反馈!
感谢您的反馈!