产品
产品中心
< 返回主菜单
产品

交换机

交换机所有产品
< 返回产品
交换机
查看交换机首页 >

无线

无线所有产品
< 返回产品
无线
查看无线首页 >

云桌面

云桌面产品方案中心
< 返回产品
云桌面
查看云桌面首页 >

安全

安全所有产品
< 返回产品
安全
查看安全首页 >
产品中心首页 >
行业
行业中心
< 返回主菜单
行业
行业中心首页 >

【路由器】路由器系统类异常,即死机/重启类异常,造成重启后业务恢复正常或者法重启成功,期间不断打印堆栈信息

发布时间:2013-11-24
点击量:4171

1、故障现象

  1. 设备在运行过程中莫名重启,重启后业务恢复正常。
  2. 设备在运行过程中或执行某些操作后自动重启,无法重启成功,期间不断打印堆栈信息。
  3. 设备运行中打印类似的堆栈信息,软件功能可能异常,也可能正常运行。

2、故障可能原因

出现异常重启或打印堆栈信息,必然是软件故障或硬件故障,根据不同的现象进行对应操作。

3.故障处理流程

 

4.故障处理步骤

4.1 异常重启,重启后业务恢复正常故障处理

设备运行过程中异常重启。重启这个动作本身是软件的一种保护和自动恢复动作,在软件运行异常后,自动重启一般可以将软件重置,以达到恢复软件正常状态的目的。

自动重启后,设备一般可以恢复正常状态,在重启后收集到的设备状态信息已经不能有效说明当时为什么重启。唯一可以有效说明死机原因的只有show exception信息,但不是任何异常重启都会记录exception信息。(exception信息记录在flash中,重启后该信息仍然保存)

exception信息是一串的堆栈信息,研发可以根据这串堆栈,通过内部代码追溯出导致重启的功能模块和可能的原因,是定位故障的关键。

步骤1: 登陆到设备,收集exception信息

进入debug support模式,方法如下

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit    //退出debug support模式

堆栈信息实例:

Ruijie#deb su

Ruijie(support)#sho ex

Exception address is 0x110000!

======================================================================

Exception Head Information

Entry Number: 8

MAX Entry Number: 31

First Number: 0

Last Number: 7

======================================================================

Time: 2008-1-6 17:44:19         size: 1626

Exception Message:

System(CPU 0) Exception Occured:

  ExType: XTLB Miss Exception

  Current Thread: nsmd

  SP       : 0000000009AECC50

  SP Start : 0000000009AD5180   SP End   : 0000000009AEDFF0

CP0 Error Report Registers:

  Cause    : 20800008           EPC      : 000000000067A8E4

  Status   : 1000BC83           ErrEPC   : FFFFFFFFFFC00000

  ErrCtrl  : 00000000           BadVAddr : FFFFFFFFFFC0000C

  CacheErr : 34000D40           RA(r31)  : 000000000067A7F4

General Purpose Registers (GPRs):

  0 (r00)  : 0000000000000000   s0(r16)  : 0000000009AECC98

  AT(r01)  : 000000001000BC80   s1(r17)  : 0000000000000001

  v0(r02)  : 0000000000000002   s2(r18)  : 0000000007CEA6A0

  v1(r03)  : 0000000000000040   s3(r19)  : FFFFFFFFFFC00000

  a0(r04)  : 0000000009AECC50   s4(r20)  : 0000000007CEA260

  a1(r05)  : 0000000000000000   s5(r21)  : 0000000009AECD70

  a2(r06)  : 0000000000000080   s6(r22)  : 0000000009907000

  a3(r07)  : 0000000000000040   s7(r23)  : 0000000000000054

  a4(r08)  : FFFFFFFFFFFFFF80   t8(r24)  : 00000000009629C8

  a5(r09)  : 0000000000000000   t9(r25)  : 0000000000000002

  a6(r10)  : 0000000020010000   k0(r26)  : 0000000000000000

  a7(r11)  : 0000000000000001   k1(r27)  : 0000000000000001

  t0(r12)  : 0000000000000001   gp(r28)  : 0000000000BC1550

  t1(r13)  : 00000000009629CE   sp(r29)  : 0000000009AECC50

  t2(r14)  : 0000000009AECB97   fp(r30)  : 0000000000000000

  t3(r15)  : 0000000006C5E7EF   ra(r31)  : 000000000067A7F4

 

MIPS Stack Trace:

0x67a7a8 -> 0x668eb0 -> 0x66cce0 -> 0x66cf18 -> 0x637470 -> 0x638a68 -> 0x6734d0 -> 0x6a8678 -> 0x406600 -> <end>

System HALT!

没有堆栈信息实例:

Ruijie(support)#show exception

Exception address is 0x40000!

No Exception Information!       

 

步骤2 收集基础信息,尽快联系4008111000处理。

Show version               //查看版本

Show version slot         //查看线卡安装状态

Show run                      //查看设备配置

Show cpu                      //查看设备CPU状态

Show memory               //查看设备内存状态

Show interface              //查看接口情况

Show ip int brief             //查看接口状态概况

Show ip fpm sta              //查看流表状态

Show ip route                  //查看路由表

Show clock                       //查看设备当前时间

Show log                          //查看设备日志

more flash:/log.txt            //查看记录在flash里的日志

 

步骤3:持续观察设备运行情况       

自动重启后,设备虽然恢复了正常,但还是有再次触发死机重启的可能,需要做好观察保障工作。

对于核心位置的设备和敏感客户建议的操作:

1)准备一台主机,通过console线连接设备;CRT程序打开“记录会话”功能记录日志。观察设备的日志打印,以便在设备再次异常重启时能够收集到重启前后的情况;

2)每天收集2-3次步骤2的基础信息,至少保证每天收集1次。收集的信息及时同步给4008111000。

根据客户条件尽可能满足以上操作。

其中重点观察 CPU、内存值的变化,以及日志信息是否有异常信息打印。

4.2 异常反复重启故障处理

设备反复重启,或在启动过程中就打印堆栈信息然后又重启,这可能是软件故障,也可能是硬件故障。

步骤1: 登陆到设备,收集重启过程的日志信息

步骤2:尝试恢复网络

1)尝试下电,重新上电。

下电重新上电,可以使得整机复位。

2)尝试拔插主控引擎(对于箱式设备)

拔插主控引擎用于排除由于主控引擎安装不到位引起的故障。

3)尝试重新升级一个软件版本

尝试将软件版本升级到最新版本,排除软件版本损坏。

4)尝试更换硬件

对于箱式设备,有备用引擎的,可以将备用引擎和主用引擎对调

对于盒式设备,进行整机替换

步骤3:

如果是通过硬件更换解决的故障,走硬件返修流程。

如果非通过硬件更换解决的,可以在处理完成后收集以下基本信息,致电4008111000寻求技术支持。

进入debug support模式,方法如下:

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit    //退出debug support模式

Show version               //查看版本

Show version slot         //查看线卡安装状态

Show run                      //查看设备配置

Show cpu                      //查看设备CPU状态

Show memory               //查看设备内存状态

Show interface              //查看接口情况

Show ip int brief             //查看接口状态概况

Show ip fpm sta              //查看流表状态

Show ip route                  //查看路由表

Show clock                       //查看设备当前时间

Show log                          //查看设备日志

more flash:/log.txt            //查看记录在flash里的日志

4.3 运行过程中打印堆栈信息故障处理

 

设备在运行过程中打印类似堆栈信息:

010BE798$ -> 00000000$ -> 0109CB90$ -> 010999E4$ -> 010BBA8C$ -> 0109139C$ -> 010914A8$ -> 01074A18$ -> 01074E04$ -> 0101D724$ -> 0102B9E0$<end>

这表明某功能模块软件出现了问题。此时设备运行可能出现了异常,比如网络中断,路由协商问题等;也可能设备还在运行中,没有表项出异常;这于出问题的软件功能模块相关,只是问题还未暴露而已。但不管如何,看到类似堆栈信息时就必须进行处理。

步骤1: 收集底层信息

请使用@@@@@,@@@@s,@@@@e命令收集信息3次

(以上命令属于高风险命令,打印信息量比较大,短时间内CPU可能飙高,极端情况会断网,属于高压线明确禁止操作。由于设备已经出现软件异常,很有必要进行底层信息收集。此时应该告知收集这些命令的风险再做收集。)

步骤2:   基础信息收集

进入debug support模式,方法如下:

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit    //退出debug support模式

Show version               //查看版本

Show version slot         //查看线卡安装状态

Show run                      //查看设备配置

Show cpu                      //查看设备CPU状态

Show memory               //查看设备内存状态

Show interface              //查看接口情况

Show ip int brief             //查看接口状态概况

Show ip fpm sta              //查看流表状态

Show ip route                  //查看路由表

Show clock                       //查看设备当前时间

Show log                          //查看设备日志

more flash:/log.txt            //查看记录在flash里的日志

 

步骤3:   尝试恢复网络

如果已经影响到网络运行,在收集完信息收,可以重启整机尝试恢复。一般,通过重启能够暂时解决问题;

如果只是打印堆栈信息,还未对网络造成影响,可以暂时不重启设备,保留现场;

即刻联系4008111000进行处理。

 

步骤4:持续观察设备运行情况       

自动重启后,设备虽然恢复了正常,但还是有再次触发死机重启的可能,需要做好观察保障工作。

对于核心位置的设备和敏感客户建议的操作:

1)准备一台主机,通过console线连接设备;CRT程序打开“记录会话”功能记录日志。观察设备的日志打印,以便在设备再次异常重启时能够收集到重启前后的情况;

2)每天收集2-3次步骤2的基础信息,至少保证每天收集1次。收集的信息及时同步给4008111000。

根据客户条件尽可能满足以上操作。

其中重点观察 CPU、内存值的变化,以及日志信息是否有异常信息打印。

 

 

 

 

 

    

      

 

 

 

 

 

 

 

 

 

相关产品

返回顶部

请选择服务项目
关闭咨询页
售前咨询 售前咨询
售前咨询
售后服务 售后服务
售后服务
意见反馈 意见反馈
意见反馈
更多联系方式