【路由器】路由器系统类异常，即死机/重启类异常，造成重启后业务恢复正常或者法重启成功，期间不断打印堆栈信息

发布时间：2013-11-24

点击量：4361

1、故障现象

设备在运行过程中莫名重启，重启后业务恢复正常。
设备在运行过程中或执行某些操作后自动重启，无法重启成功，期间不断打印堆栈信息。
设备运行中打印类似的堆栈信息，软件功能可能异常，也可能正常运行。

2、故障可能原因

出现异常重启或打印堆栈信息，必然是软件故障或硬件故障，根据不同的现象进行对应操作。

3.故障处理流程

4.故障处理步骤

4.1 异常重启，重启后业务恢复正常故障处理

设备运行过程中异常重启。重启这个动作本身是软件的一种保护和自动恢复动作，在软件运行异常后，自动重启一般可以将软件重置，以达到恢复软件正常状态的目的。

自动重启后，设备一般可以恢复正常状态，在重启后收集到的设备状态信息已经不能有效说明当时为什么重启。唯一可以有效说明死机原因的只有show exception信息，但不是任何异常重启都会记录exception信息。（exception信息记录在flash中，重启后该信息仍然保存）

exception信息是一串的堆栈信息，研发可以根据这串堆栈，通过内部代码追溯出导致重启的功能模块和可能的原因，是定位故障的关键。

步骤1： 登陆到设备，收集exception信息

进入debug support模式，方法如下

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit //退出debug support模式

堆栈信息实例：

Ruijie#deb su

Ruijie(support)#sho ex

Exception address is 0x110000!

======================================================================

Exception Head Information

Entry Number: 8

MAX Entry Number: 31

First Number: 0

Last Number: 7

======================================================================

Time: 2008-1-6 17:44:19 size: 1626

Exception Message:

System(CPU 0) Exception Occured:

ExType: XTLB Miss Exception

Current Thread: nsmd

SP : 0000000009AECC50

SP Start : 0000000009AD5180 SP End : 0000000009AEDFF0

CP0 Error Report Registers:

Cause : 20800008 EPC : 000000000067A8E4

Status : 1000BC83 ErrEPC : FFFFFFFFFFC00000

ErrCtrl : 00000000 BadVAddr : FFFFFFFFFFC0000C

CacheErr : 34000D40 RA(r31) : 000000000067A7F4

General Purpose Registers (GPRs):

0 (r00) : 0000000000000000 s0(r16) : 0000000009AECC98

AT(r01) : 000000001000BC80 s1(r17) : 0000000000000001

v0(r02) : 0000000000000002 s2(r18) : 0000000007CEA6A0

v1(r03) : 0000000000000040 s3(r19) : FFFFFFFFFFC00000

a0(r04) : 0000000009AECC50 s4(r20) : 0000000007CEA260

a1(r05) : 0000000000000000 s5(r21) : 0000000009AECD70

a2(r06) : 0000000000000080 s6(r22) : 0000000009907000

a3(r07) : 0000000000000040 s7(r23) : 0000000000000054

a4(r08) : FFFFFFFFFFFFFF80 t8(r24) : 00000000009629C8

a5(r09) : 0000000000000000 t9(r25) : 0000000000000002

a6(r10) : 0000000020010000 k0(r26) : 0000000000000000

a7(r11) : 0000000000000001 k1(r27) : 0000000000000001

t0(r12) : 0000000000000001 gp(r28) : 0000000000BC1550

t1(r13) : 00000000009629CE sp(r29) : 0000000009AECC50

t2(r14) : 0000000009AECB97 fp(r30) : 0000000000000000

t3(r15) : 0000000006C5E7EF ra(r31) : 000000000067A7F4

MIPS Stack Trace:

0x67a7a8 -> 0x668eb0 -> 0x66cce0 -> 0x66cf18 -> 0x637470 -> 0x638a68 -> 0x6734d0 -> 0x6a8678 -> 0x406600 -> <end>

System HALT!

没有堆栈信息实例：

Ruijie(support)#show exception

Exception address is 0x40000!

No Exception Information!

步骤2：收集基础信息，尽快联系4008111000处理。

Show version //查看版本

Show version slot //查看线卡安装状态

Show run //查看设备配置

Show cpu //查看设备CPU状态

Show memory //查看设备内存状态

Show interface //查看接口情况

Show ip int brief //查看接口状态概况

Show ip fpm sta //查看流表状态

Show ip route //查看路由表

Show clock //查看设备当前时间

Show log //查看设备日志

more flash:/log.txt //查看记录在flash里的日志

步骤3：持续观察设备运行情况

自动重启后，设备虽然恢复了正常，但还是有再次触发死机重启的可能，需要做好观察保障工作。

对于核心位置的设备和敏感客户建议的操作：

1）准备一台主机，通过console线连接设备；CRT程序打开“记录会话”功能记录日志。观察设备的日志打印，以便在设备再次异常重启时能够收集到重启前后的情况；

2）每天收集2-3次步骤2的基础信息，至少保证每天收集1次。收集的信息及时同步给4008111000。

根据客户条件尽可能满足以上操作。

其中重点观察 CPU、内存值的变化，以及日志信息是否有异常信息打印。

4.2 异常反复重启故障处理

设备反复重启，或在启动过程中就打印堆栈信息然后又重启，这可能是软件故障，也可能是硬件故障。

步骤1： 登陆到设备，收集重启过程的日志信息

步骤2：尝试恢复网络

1）尝试下电，重新上电。

下电重新上电，可以使得整机复位。

2）尝试拔插主控引擎（对于箱式设备）

拔插主控引擎用于排除由于主控引擎安装不到位引起的故障。

3）尝试重新升级一个软件版本

尝试将软件版本升级到最新版本，排除软件版本损坏。

4）尝试更换硬件

对于箱式设备，有备用引擎的，可以将备用引擎和主用引擎对调

对于盒式设备，进行整机替换

步骤3：

如果是通过硬件更换解决的故障，走硬件返修流程。

如果非通过硬件更换解决的，可以在处理完成后收集以下基本信息，致电4008111000寻求技术支持。

进入debug support模式，方法如下：

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit //退出debug support模式

Show version //查看版本

Show version slot //查看线卡安装状态

Show run //查看设备配置

Show cpu //查看设备CPU状态

Show memory //查看设备内存状态

Show interface //查看接口情况

Show ip int brief //查看接口状态概况

Show ip fpm sta //查看流表状态

Show ip route //查看路由表

Show clock //查看设备当前时间

Show log //查看设备日志

more flash:/log.txt //查看记录在flash里的日志

4.3 运行过程中打印堆栈信息故障处理

设备在运行过程中打印类似堆栈信息：

010BE798$ -> 00000000$ -> 0109CB90$ -> 010999E4$ -> 010BBA8C$ -> 0109139C$ -> 010914A8$ -> 01074A18$ -> 01074E04$ -> 0101D724$ -> 0102B9E0$<end>

这表明某功能模块软件出现了问题。此时设备运行可能出现了异常，比如网络中断，路由协商问题等；也可能设备还在运行中，没有表项出异常；这于出问题的软件功能模块相关，只是问题还未暴露而已。但不管如何，看到类似堆栈信息时就必须进行处理。

步骤1：收集底层信息

请使用@@@@@，@@@@s，@@@@e命令收集信息3次

（以上命令属于高风险命令，打印信息量比较大，短时间内CPU可能飙高，极端情况会断网，属于高压线明确禁止操作。由于设备已经出现软件异常，很有必要进行底层信息收集。此时应该告知收集这些命令的风险再做收集。）

步骤2: 基础信息收集

进入debug support模式，方法如下：

Ruijie#debug support

Ruijie(support)#show exception

Ruijie(support)#exit //退出debug support模式

Show version //查看版本

Show version slot //查看线卡安装状态

Show run //查看设备配置

Show cpu //查看设备CPU状态

Show memory //查看设备内存状态

Show interface //查看接口情况

Show ip int brief //查看接口状态概况

Show ip fpm sta //查看流表状态

Show ip route //查看路由表

Show clock //查看设备当前时间

Show log //查看设备日志

more flash:/log.txt //查看记录在flash里的日志

步骤3： 尝试恢复网络

如果已经影响到网络运行，在收集完信息收，可以重启整机尝试恢复。一般，通过重启能够暂时解决问题；

如果只是打印堆栈信息，还未对网络造成影响，可以暂时不重启设备，保留现场；

即刻联系4008111000进行处理。

步骤4：持续观察设备运行情况

自动重启后，设备虽然恢复了正常，但还是有再次触发死机重启的可能，需要做好观察保障工作。

对于核心位置的设备和敏感客户建议的操作：

2）每天收集2-3次步骤2的基础信息，至少保证每天收集1次。收集的信息及时同步给4008111000。

根据客户条件尽可能满足以上操作。

其中重点观察 CPU、内存值的变化，以及日志信息是否有异常信息打印。

RG-MF2920系列，2口千兆电，千兆上行，一机双网

RG-S5310-E系列，24口千兆电，万兆上行，接入层

RG-S5310-E系列，24口千兆光，万兆上行，接入层

RG-S5310-E系列，48口千兆电，万兆上行，接入层

RG-S5310-E系列，48口千兆光，万兆上行，接入层

RG-S5310-E系列新一代千兆交换机

RG-S5310-E系列，PoE+，48口千兆电，万兆上行，接入层

RG-S7800C系列融合核心交换机

RG-S7800C-X系列新一代融合核心交换机

RG-N18006-X，6槽机箱，核心层，零背板

RG-S6120系列，24口万兆光，25G上行，汇聚层

RG-S6120系列，48口万兆光，100G上行，汇聚层

RG-S6120系列融合万兆交换机

RG-EG3250新一代多业务安全网关

RG-EG3230新一代多业务安全网关

RG-EG3220新一代多业务安全网关

RG-EG3210 V2新一代多业务安全网关

RG-EG3210新一代多业务安全网关

RG-AP820-L(V3)双射频Wi-Fi 6无线AP

RG-WS7005-A多业务无线AC

RG-AP850-AR(V2)四射频Wi-Fi 6无线AP

RG-AP180-L双射频Wi-Fi 6无线AP

RG-AP880(TR)三射频Wi-Fi 6无线AP

RG-WS7208-A多业务无线AC

RG-AP880-I双射频Wi-Fi 6无线AP

RG-WS7880高性能无线AC

RG-EG2100-P V2全能PoE网关

RG-N18000-X系列

RG-N18010-X，10槽机箱，核心层，零背板

RG-EG3000XE新一代高性能综合网关

RG-EG3000UE新一代高性能综合网关

RG-WS6816高性能无线AC

RG-WS6108高性能无线AC

RG-EG3000GE新一代高性能综合网关

RG-EG3000ME新一代高性能综合网关

RG-EG3000SE新一代高性能综合网关

RG-EG3000CE新一代高性能综合网关

RG-EG2000F

RG-S2900G-E V3系列千兆交换机

RG-S2952G-E V3，48口千兆电，千兆上行，接入层

您可能还关注的问题

【路由器】路由器系统类异常，即死机/重启类异常，造成重启后业务恢复正常或者法重启成功，期间不断打印堆栈信息

RG-MF2920系列，2口千兆电，千兆上行，一机双网

RG-S5310-E系列，24口千兆电，万兆上行，接入层

RG-S5310-E系列，24口千兆光，万兆上行，接入层

RG-S5310-E系列，48口千兆电，万兆上行，接入层

RG-S5310-E系列，48口千兆光，万兆上行，接入层

RG-S5310-E系列新一代千兆交换机

RG-S5310-E系列，PoE+，48口千兆电，万兆上行，接入层

RG-S7800C系列融合核心交换机

RG-S7800C-X系列新一代融合核心交换机

RG-N18006-X，6槽机箱，核心层，零背板

RG-S6120系列，24口万兆光，25G上行，汇聚层

RG-S6120系列，48口万兆光，100G上行，汇聚层

RG-S6120系列融合万兆交换机

RG-EG3250新一代多业务安全网关

RG-EG3230新一代多业务安全网关

RG-EG3220新一代多业务安全网关

RG-EG3210 V2新一代多业务安全网关

RG-EG3210新一代多业务安全网关

RG-AP820-L(V3)双射频Wi-Fi 6无线AP

RG-WS7005-A多业务无线AC

RG-AP850-AR(V2)四射频Wi-Fi 6无线AP

RG-AP180-L双射频Wi-Fi 6无线AP

RG-AP880(TR)三射频Wi-Fi 6无线AP

RG-WS7208-A多业务无线AC

RG-AP880-I双射频Wi-Fi 6无线AP

RG-WS7880高性能无线AC

RG-EG2100-P V2全能PoE网关

RG-N18000-X系列

RG-N18010-X，10槽机箱，核心层，零背板

RG-EG3000XE新一代高性能综合网关

RG-EG3000UE新一代高性能综合网关

RG-WS6816高性能无线AC

RG-WS6108高性能无线AC

RG-EG3000GE新一代高性能综合网关

RG-EG3000ME新一代高性能综合网关

RG-EG3000SE新一代高性能综合网关

RG-EG3000CE新一代高性能综合网关

RG-EG2000F

RG-S2900G-E V3系列千兆交换机

RG-S2952G-E V3，48口千兆电，千兆上行，接入层

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

•【DBS】DBS2000点击数据库审计查看页面报错

请选择服务项目