交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
行业精选无线系列
无线管理与应用
1、故障现象
2、故障可能原因
出现异常重启或打印堆栈信息,必然是软件故障或硬件故障,根据不同的现象进行对应操作。
3.故障处理流程
4.故障处理步骤
4.1 异常重启,重启后业务恢复正常故障处理
设备运行过程中异常重启。重启这个动作本身是软件的一种保护和自动恢复动作,在软件运行异常后,自动重启一般可以将软件重置,以达到恢复软件正常状态的目的。
自动重启后,设备一般可以恢复正常状态,在重启后收集到的设备状态信息已经不能有效说明当时为什么重启。唯一可以有效说明死机原因的只有show exception信息,但不是任何异常重启都会记录exception信息。(exception信息记录在flash中,重启后该信息仍然保存)
exception信息是一串的堆栈信息,研发可以根据这串堆栈,通过内部代码追溯出导致重启的功能模块和可能的原因,是定位故障的关键。
步骤1: 登陆到设备,收集exception信息
进入debug support模式,方法如下
Ruijie#debug support
Ruijie(support)#show exception
Ruijie(support)#exit //退出debug support模式
堆栈信息实例:
Ruijie#deb su
Ruijie(support)#sho ex
Exception address is 0x110000!
======================================================================
Exception Head Information
Entry Number: 8
MAX Entry Number: 31
First Number: 0
Last Number: 7
======================================================================
Time: 2008-1-6 17:44:19 size: 1626
Exception Message:
System(CPU 0) Exception Occured:
ExType: XTLB Miss Exception
Current Thread: nsmd
SP : 0000000009AECC50
SP Start : 0000000009AD5180 SP End : 0000000009AEDFF0
CP0 Error Report Registers:
Cause : 20800008 EPC : 000000000067A8E4
Status : 1000BC83 ErrEPC : FFFFFFFFFFC00000
ErrCtrl : 00000000 BadVAddr : FFFFFFFFFFC0000C
CacheErr : 34000D40 RA(r31) : 000000000067A7F4
General Purpose Registers (GPRs):
0 (r00) : 0000000000000000 s0(r16) : 0000000009AECC98
AT(r01) : 000000001000BC80 s1(r17) : 0000000000000001
v0(r02) : 0000000000000002 s2(r18) : 0000000007CEA6A0
v1(r03) : 0000000000000040 s3(r19) : FFFFFFFFFFC00000
a0(r04) : 0000000009AECC50 s4(r20) : 0000000007CEA260
a1(r05) : 0000000000000000 s5(r21) : 0000000009AECD70
a2(r06) : 0000000000000080 s6(r22) : 0000000009907000
a3(r07) : 0000000000000040 s7(r23) : 0000000000000054
a4(r08) : FFFFFFFFFFFFFF80 t8(r24) : 00000000009629C8
a5(r09) : 0000000000000000 t9(r25) : 0000000000000002
a6(r10) : 0000000020010000 k0(r26) : 0000000000000000
a7(r11) : 0000000000000001 k1(r27) : 0000000000000001
t0(r12) : 0000000000000001 gp(r28) : 0000000000BC1550
t1(r13) : 00000000009629CE sp(r29) : 0000000009AECC50
t2(r14) : 0000000009AECB97 fp(r30) : 0000000000000000
t3(r15) : 0000000006C5E7EF ra(r31) : 000000000067A7F4
MIPS Stack Trace:
0x67a7a8 -> 0x668eb0 -> 0x66cce0 -> 0x66cf18 -> 0x637470 -> 0x638a68 -> 0x6734d0 -> 0x6a8678 -> 0x406600 -> <end>
System HALT!
没有堆栈信息实例:
Ruijie(support)#show exception
Exception address is 0x40000!
No Exception Information!
步骤2: 收集基础信息,尽快联系4008111000处理。
Show version //查看版本
Show version slot //查看线卡安装状态
Show run //查看设备配置
Show cpu //查看设备CPU状态
Show memory //查看设备内存状态
Show interface //查看接口情况
Show ip int brief //查看接口状态概况
Show ip fpm sta //查看流表状态
Show ip route //查看路由表
Show clock //查看设备当前时间
Show log //查看设备日志
more flash:/log.txt //查看记录在flash里的日志
步骤3:持续观察设备运行情况
自动重启后,设备虽然恢复了正常,但还是有再次触发死机重启的可能,需要做好观察保障工作。
对于核心位置的设备和敏感客户建议的操作:
1)准备一台主机,通过console线连接设备;CRT程序打开“记录会话”功能记录日志。观察设备的日志打印,以便在设备再次异常重启时能够收集到重启前后的情况;
2)每天收集2-3次步骤2的基础信息,至少保证每天收集1次。收集的信息及时同步给4008111000。
根据客户条件尽可能满足以上操作。
其中重点观察 CPU、内存值的变化,以及日志信息是否有异常信息打印。
4.2 异常反复重启故障处理
设备反复重启,或在启动过程中就打印堆栈信息然后又重启,这可能是软件故障,也可能是硬件故障。
步骤1: 登陆到设备,收集重启过程的日志信息
步骤2:尝试恢复网络
1)尝试下电,重新上电。
下电重新上电,可以使得整机复位。
2)尝试拔插主控引擎(对于箱式设备)
拔插主控引擎用于排除由于主控引擎安装不到位引起的故障。
3)尝试重新升级一个软件版本
尝试将软件版本升级到最新版本,排除软件版本损坏。
4)尝试更换硬件
对于箱式设备,有备用引擎的,可以将备用引擎和主用引擎对调
对于盒式设备,进行整机替换
步骤3:
如果是通过硬件更换解决的故障,走硬件返修流程。
如果非通过硬件更换解决的,可以在处理完成后收集以下基本信息,致电4008111000寻求技术支持。
进入debug support模式,方法如下:
Ruijie#debug support
Ruijie(support)#show exception
Ruijie(support)#exit //退出debug support模式
Show version //查看版本
Show version slot //查看线卡安装状态
Show run //查看设备配置
Show cpu //查看设备CPU状态
Show memory //查看设备内存状态
Show interface //查看接口情况
Show ip int brief //查看接口状态概况
Show ip fpm sta //查看流表状态
Show ip route //查看路由表
Show clock //查看设备当前时间
Show log //查看设备日志
more flash:/log.txt //查看记录在flash里的日志
4.3 运行过程中打印堆栈信息故障处理
设备在运行过程中打印类似堆栈信息:
010BE798$ -> 00000000$ -> 0109CB90$ -> 010999E4$ -> 010BBA8C$ -> 0109139C$ -> 010914A8$ -> 01074A18$ -> 01074E04$ -> 0101D724$ -> 0102B9E0$<end>
这表明某功能模块软件出现了问题。此时设备运行可能出现了异常,比如网络中断,路由协商问题等;也可能设备还在运行中,没有表项出异常;这于出问题的软件功能模块相关,只是问题还未暴露而已。但不管如何,看到类似堆栈信息时就必须进行处理。
步骤1: 收集底层信息
请使用@@@@@,@@@@s,@@@@e命令收集信息3次
(以上命令属于高风险命令,打印信息量比较大,短时间内CPU可能飙高,极端情况会断网,属于高压线明确禁止操作。由于设备已经出现软件异常,很有必要进行底层信息收集。此时应该告知收集这些命令的风险再做收集。)
步骤2: 基础信息收集
进入debug support模式,方法如下:
Ruijie#debug support
Ruijie(support)#show exception
Ruijie(support)#exit //退出debug support模式
Show version //查看版本
Show version slot //查看线卡安装状态
Show run //查看设备配置
Show cpu //查看设备CPU状态
Show memory //查看设备内存状态
Show interface //查看接口情况
Show ip int brief //查看接口状态概况
Show ip fpm sta //查看流表状态
Show ip route //查看路由表
Show clock //查看设备当前时间
Show log //查看设备日志
more flash:/log.txt //查看记录在flash里的日志
步骤3: 尝试恢复网络
如果已经影响到网络运行,在收集完信息收,可以重启整机尝试恢复。一般,通过重启能够暂时解决问题;
如果只是打印堆栈信息,还未对网络造成影响,可以暂时不重启设备,保留现场;
即刻联系4008111000进行处理。
步骤4:持续观察设备运行情况
自动重启后,设备虽然恢复了正常,但还是有再次触发死机重启的可能,需要做好观察保障工作。
对于核心位置的设备和敏感客户建议的操作:
1)准备一台主机,通过console线连接设备;CRT程序打开“记录会话”功能记录日志。观察设备的日志打印,以便在设备再次异常重启时能够收集到重启前后的情况;
2)每天收集2-3次步骤2的基础信息,至少保证每天收集1次。收集的信息及时同步给4008111000。
根据客户条件尽可能满足以上操作。
其中重点观察 CPU、内存值的变化,以及日志信息是否有异常信息打印。