【SAM】SAM 3.8X版本部署RGAC后,发现集群功能异常,主备机状态异常

发布时间: 2013-11-24 点击量:833 打印 字体:

1、故障现象
SAM 3.8X版本部署RGAC后,发现集群功能异常,主备机状态异常。

2、故障可能原因
硬件连接问题
SAM服务器配置问题
   3)SAM系统配置问题
3、故障处理流程

4、故障处理步骤
 

步骤1 检查集群状态是否正常
本步骤主要目的是学会直观判断SAM集群状态是否运行正常,适用于SAM集群已正常运行后出现异常,具体操作如下:
    1. 打开SAM管理界面,打开系统管理中的集群监控界面,可以看到类似下图的集群状态展示:
 

 2. 观察集群监控中的状态是否正常,可参考以下图标进行判断:
 

3. 例:当备用服务器正在初始化时的状态如下所示:
 

    4. 如通过以上直观方式判断集群状态异常,或者该集群功能从未正常运行过,则进入下一排查步骤。

步骤2 检查硬件连接是否正常
本步骤主要目的是判断集群环境整体硬件连接是否正常,具体操作如下:
    1. 在故障排查前我们需要对集群环境网络拓扑有个整体认识,如下图所示:
 

  2. 了解了集群的网络拓扑之后,就可以开始进行相关的线路排查了。首先,先检查两台SAM服务器连接核心交换机的线路是否正常,可以通过查看服务器网卡与核心交换机相应端口状态灯是否正常来进行判断,如果链路异常,则更换网线尝试是否可以解决。
    3. 如对外线路正常,接下来需要排查两台SAM服务器之间的心跳线路是否正常,具体如下:
SAM集群之间的心跳线一般由一条串口线和至少一条网络心跳线组成,在排查的时候需要注意根据实际情况全面分析
COM口连接线检查:
两台服务器之间的的COM串口通过RS232串口线进行连接,检查串口线是否松动,串口线的要求如下:
      1)两端均为DB9母口
      2)线材带EMI抗干扰屏蔽层
      3)交叉线,线序为
            1、2、3、4、5、6、7、8、9
            1、3、2、6、5、4、8、7、9
网络心跳线:
两台服务器必须通过网络心跳线直接连接,即中间不经过任何交换机或路由器转发,检查网络心跳线对应的网卡灯与网卡状态是否正常。
由于网络心跳线需要承担数据同步时大流量数据传输,因此要求对应的服务器心跳网卡均为千兆网卡
网络心跳线要求必须为六类及以上线材的交叉线,最好是机制成品线,线序如下:
       橙白(1)、橙(2)、绿白(3)、蓝(4)、蓝白(5)、绿(6)、棕白(7)、棕(8)
       绿白(3)、绿(6)、橙白(1)、棕白(7)、棕(8)、橙(2)、蓝(4)、蓝白(5)
    4. 如对外线路正常,接下来需
步骤3 检查SAM服务器配置是否正确
步骤3主要目的是判断SAM服务器配置是否正常,包括串口、网卡、防火墙等参数,具体操作如下:
    1. 在SAM服务器所在操作系统中打开“计算机管理”并在“设备管理器中找到”端口(COM和LPT)“双击对应的串口(如COM1)打开串口属性配置页面:
 

 

2. 在串口属性配置页面的“端口设置”属性页填入下图所示参数,禁止变更相关参数,尤其是波特率,否则SAM可能无法通过串口发送心跳信息。集群中的两个SAM服务器均需要配置成与下图一致的参数。

2. 在串口属性配置页面的“端口设置”属性页填入下图所示参数,禁止变更相关参数,尤其是波特率,否则SAM可能无法通过串口发送心跳信息。集群中的两个SAM服务器均需要配置成与下图一致的参数。

  4. 进入操作系统注册表,检查RGAC驱动参数是否正常:
 

步骤4 检查SAM系统配置是否正确
本步骤主要目的是判断SAM系统配置是否正确,具体操作如下:
 

1. 检查时间服务器配置是否正确,由于SAM在很多业务上依赖时间一致性,因此该点必须配置,具体操作如下:
              1)打开服务管理器,进入“维护管理”菜单,时间同步服务器地址输入框中输入时间服务器的IP或域名
 

   2)点击“立即同步”按钮,测试是否能同步成功

3)服务管理器执行同步测试后,会在输入框下方显示测试结果:

  4)点击服务管理器任意一处空白,将会提示是否保存,点击“保存”按钮
 

 5)服务管理器将再次确认是否保存,点击“确定”按钮

 6)服务管理器将提示是否重启服务。因为还需要配置其他参数,所以这里选择“否”,至此,时间服务器配置成功。

2. 检查集群配置是否正确,两台服务器的配置顺序没有限制,可以任意选择一台开始配置,具体操作如下:
              1)打开服务管理器,进入“服务配置”菜单,点击“启用集群”复选框
 

2)服务管理器将显示集群详细配置界面,在其中输入集群配置参数,完成后点击“确定”按钮。配置时注意“心跳配置”内容的左边IP地址是本机心跳IP,右边为对端心跳IP,IP地址规范参考步骤3。
 

3)修改后回到服务管理器主界面,点击任意一处空白,将会提示是否保存,点击“保存”按钮:
 

 4)服务管理器将再次确认是否保存,点击“确定”按钮
 

5)不要立即启动SAM服务,选择“否”。至此,第1台服务器集群参数配置完毕

 6)第2台服务器的配置方法与第1台相同,配置的最后一步同样不要立即启动SAM服务。
              注意:
              A、下图左边的心跳配置项始终是本机参数。
              B、下图正在配置的是192.168.1.9这一台服务器,除心跳配置外,其他参数都和第一台服务器相同(包括“服务器IP地址”配置)。
 

两台服务器的参数都配置完后,启动两台服务器上的SAM服务。SAM服务启动后,两台服务之间会进行协商以确定主服务器,一般先启动的服务器会成为主服务器。
    3. 启动集群观察状态是否正常,集群启动完成后,在主服务器上可以看到类似下图的显示内容:
 

备用服务器上可以看到类似下图的显示内容:

步骤5 检查交换机配置
本步骤主要目的是确认交换机上是否启用ACL,如果启用ACL,需要保证该ACL没有禁止两台SAM服务器之间以及SAM服务器对外访问,否则会造成RGAC集群功能异常


步骤6 收集信息后,请联系4008111000协助处理
通过以上步骤,还未能排除故障,拨打4008111000寻求技术支持,收集如下故障信息,进行故障进一步处理。
1 SAM软件版本号
2 SAM服务器硬件信息
3         按照步骤1-5收集相应检查结果并汇总

00 分享 纠错
相关条目