交换机
园区网交换机
数据中心与云计算交换机
中小网络精简型交换机
工业交换机
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
小锐A系列
统一运维
身份管理
服务产品
运营商
政府
金融
互联网
电力能源
制造业
高教/职教
医疗卫生
交通
地产酒店文旅·连锁服务
公共安全
1、故障现象
部署ePortal服出现负载均衡功能失效,从机发生故障时,集群故障转移功能不生效。
2、故障可能原因
1) NLB集群配置不正确
2) 数据库复制配置不正确
3) 服务管理器集群配置不正确
3、故障处理流程
4、故障处理步骤
步骤1 排查NLB集群配置是否正确
ePortal搭建集群环境使用了微软NLB集群技术,需要至少2台服务器,但只需要在主机服务器上配置NLB,从机只需要修改注册表即可。
若无法确定NLB故障具体原因,建议删除群集后,重新按照以下步骤进行NLB配置。
首先规划ePortal集群环境,以widows2003操作系统为例(windows2008系统基本雷同),数据如下:
集群IP:192.168.33.220
主机IP:192.168.33.213
从机IP:192.168.33.214
NLB配置步骤如下:
1. 在主机服务器上,进入“开始菜单” -- “运行”,输入nlbmgr命令并运行,如下:
2. 新建一个集群,点击“集群” --“新建”,如下:
3. 配置群集参数IP、子网掩码,完整Internet名称,如图:
群集 IP:192.168.33.220,子网掩码: 255.255.255.0 ,完整 Internet 名称(F):cluster.ruijie.com;群集操作模式:单播 。
4. 配置附加集群IP地址,点击“下一步”,直接跳过,如下:
5. 配置端口规则,使用默认规则,点击“下一步”,直接跳过,如下:
注意:默认规则实现了NLB技术的负载均衡功能,若删除默认规则,则所有请求都会提交主机处理,导致NLB负载均衡失效。
6. 连接主机和接口,填入主机IP地址,如下:
注意1:
1) 系统 Administrator 用户的密码不能为空,若没有设置 Administrator 密码,会跳出“用户权限”的窗口提示输入密码,但输入密码后会出现“0x800706d5”错误代码。如果遇到这种情况,请先修改 Administrator 密码,再重新开始配置。
2) 上图中如出现群集 IP 为空的情况,是正常的,可以不管。
注意2:此处填写主机IP是集群主机的IP,但这里的“主机HOST”指的不是集群主机,而是集群加入的第一台服务器。
7. 配置主机参数,包括优先级和专用IP地址,默认状态已启动,如下:
注意:此处主机的优先级设置为1,则代表该主机作为是集群主机,输入的是集群主机IP地址。强烈建议不要修改优先级参数。
8. 完成集群配置后,可以看到当前集群只有一台主机,如下:
至此,完成了集群主机的配置,接下来需要继续在主机的NLB集群管理器内加入从机信息;但在此之前,需要在主机和从机上修改注册表,是的单播模式下,主机和从机可以互相访问。
9. 主机修改注册表(从机的操作步骤类似),进入“开始菜单” -- “运行”,输入regedit命令并运行,如下:
10. 找出注册表子项:HKEY_LOCAL_MACHINE\System\CurrentControlSet\Services\WLBS\Parameters\Interface\{GUID},{ GUID } 占位符代表特定 NLB 实例的 GUID。如下:
注意:若存在多张网卡会出现过个{GUID}项,注意查看注册表内容,通过NIC网卡名称和IP地址,可以识别集群主机的网卡GUID值。
11. 新建DWORD值,“数值名称”中输入“UnicastInterHostCommSupport”,“数值数据”输入 1,“基数”为十六进制,如下:
至此,主机(从机)修改注册表项配置完成了,接下来继续在主机集群管理器内添加从机的信息。
13. 在主机上重启NLB服务,点击“开始” -- “运行”, 输入“cmd”后运行,如下:
14. 输入“nlb reload”后运行,出现成功提示,说明NLB重启完成,如下:
15. 在主机运行网络负载平衡管理器,选中集群,点击“添加主机到集群”,如下:
16. 输入集群从机信息,主机栏输入从机的IP地址,点击“连接”按钮后,选择对应的接口,如下:
17. 继续下一步,输入集群从机的优先级为2,以及IP地址信息,如下:
18. 完成集群从机的配置后,查看NLB集群管理器界面,如下:(从机刚加入时,初始状态为未绑定)
19. 等待1分钟左右,NLB状态发生变化,主机和从机的状态均为已聚合,如下:
20. 至此,ePortal服务器上的NLB集群配置完成。
完成NLB集群配置检查后,若问题仍未解决,进入下一步骤的排查。
步骤2 排查数据库复制配置是否正确
ePortal搭建集群环境使用了SQL Server数据库复制技术,若复制过程出现异常或修改了主从机的服务器名称都可能导致数据库复制失效,建议重新配置数据库的发布和订阅。
若无法确定数据库复制故障具体原因,建议删除数据库复制后,重新按照以下步骤进行数据库的发布和订阅配置。
1. 首先,检查主机和从机的服务器环境,必须满足以下条件:
1) 在配置复制的过程中,必须确保发布和订阅服务器上的 ePortal 服务都没有启动;
2) 确保两台机器上的数据库服务器打开了 SQL Server 代理;
打开SQL Server数据库管理器,如下:
确认SQL Serve代理是否正常启动,
3) 在配置复制前,先将两台数据库的密码设置成一样,尽量避免在配置复制之后再修改密码。如果配置复制后修改了数据库密码,需要删除原来的数据库复制,重新配置新的数据库复制。
2. 其次,启用SQL Server的远程/网络事务,若已执行过该配置,可跳过该步骤。
(一)安装SQL Server的远程/网络事务步骤如下:
1) 单击“开始”,指向“控制面板”,然后单击“添加/删除程序”。
2) 单击“添加/删除Windows 组件”。
3) 选择“应用程序服务器”,然后单击“详细信息”。
4) 选择“启用网络DTC 访问”,然后单击“确定”。
5) 单击“下一步”。
6) 单击“完成”。
7) 停止分布式事务协调器服务(Distributed Transaction Coordinator),然后重新予以启动。
可以在“开始\运行”中敲入cmd命令并执行:
net stop msdtc
net start msdtc
如图:
8) 停止参与分布式事务的任何资源管理器服务(如Microsoft SQL Server 或Microsoft Message Queue Server),然后重新予以启动。
(二)打开DTC
1) 首先检查两台集群服务器的msdtc是否都已经打开了;若不是,则全都打开msdtc。
2) 按如下步骤做设置:
a.点击“开始”按钮,指向管理工具,选择“组件服务”。
b.展开“组件服务”树,然后展开“我的电脑”。
c.右键单击“我的电脑”,然后选择“属性”。
d.在MSDTC 选项卡中,点“安全配置”按钮,
e.确保选中了下列选项:“网络DTC访问”与“XA事务”;另外,“DTC 登录帐户”一定
要设置为“NT Authority\NetworkService”。
f. 事务管理通信器选择“不要求进行验证”(如图)
3) 单击“确定”。这样将会提示您“MS DTC 将会停止并重新启动。所有的依赖服务将
被停止。请按‘是’继续”。单击“是”继续。
4) 单击“确定”关闭“我的电脑”属性窗口。
(三)注意:必须要强调的是,请分别在NLB各个服务器进行上述设置,而不是只设置一台主机服务器。
3. 若之前已经做过SQL Server数据库复制,需要删除数据库复制,删除步骤如下:
1) 关闭所有复制监视器、查看同步状态的窗口。
2) 右键点击发布服务器上的“复制”,在弹出的菜单里点击“禁用发布与分发”:
3) 选择“是,禁用此服务器上的发布”,点击“完成”:
4) 删除订阅服务器上的订阅:
4. 配置数据库发布,请参照ePortal版本发布的《集群配置说明书》文档的“配置发布”章节(配置内容较多,不做赘述)。
5. 配置数据库订阅,请参照ePortal版本发布的《集群配置说明书》文档的“配置订阅”章节(配置内容较多,不做赘述)。
6. 数据库复制配置完成后,数据库需要一定时间做一些初始化工作,在这期间的数据更新操作不能立即同步;必须确认数据库复制初始化结束后,才能启动要 ePortal 服务。
通过以下步骤查看数据库复制的状态:
1) 右键点击订阅服务器的本地订阅,单击“查看同步状态”,如下:
2) 在弹出的“查看订阅的同步状态”窗口中,会实时显示订阅的同步状态;
3) 如果同步状态是“无复制的事务”或者“传递了 XXX 个事务,使用了 XXX 个命令”,则表示订阅服务器已经同步完成来自发布服务器的快照。
完成SQL Server数据库复制配置检查后,若问题仍未解决,进入下一步骤的排查。
步骤3 排查服务管理器集群配置是否正确
检查主机的服务管理器配置,确认集群配置信息是否正确,请按以下步骤进行排查:
1. ePortal1.40及之前版本,检查集群配置步骤如下:
1) 在集群各个节点上,点击桌面图标 ,打开的 RG-ePortal 服务管理器;
2) 在服务管理器上选择“配置”--“应用集群配置”菜单,如下:
3)在集群主机上,按下图的示例配置:
4)在集群的从机上,按下图的示例配置:
注意:集群主机和从机的集群地址是一样的,主机必须勾选主服务器的标记
2. ePortal1.41及之后版本,检查集群配置步骤如下:
1) 在集群各个节点上,点击桌面图标 ,打开的 RG-ePortal 服务管理器;
2) 在服务管理器上选择“服务配置”,在集群主机上,按下图的示例配置:
3) 在集群的主机上,按下图的示例配置:[勾选了设置为主服务器]
设置本地 IPV4 地址
设置集群 IPV4 地址
4) 在集群的主机上,按下图的示例配置:[未勾选了设置为主服务器]
设置本地 IPV4 地址
设置集群 IPV4 地址
步骤4 收集信息并联系4008111000协助处理
拨打4008111000寻求技术支持,收集如下故障信息,进行故障进一步处理。
1. ePortal软件版本号
登录ePortal系统,点击“关于系统”,弹出版本信息。如下图例:
2. NLB集群服务管理窗口
通过系统开始菜单,执行“nlbmgr”,进入NLB集群服务管理窗口,加载集群后,查看NLB状态,如下图示:
3. 数据库复制同步状态
通过系统开始菜单,打开SQL数据库管理器,如下图
发布订阅服务器截图
数据库同步状态截图: (本地订阅 -- 右键 -- 查看同步状态)
4 ePortal启动日志与运行日志文件
将ePortal安装目录下的log文件夹打包,参考路径如“D:\RG-ePortal\log”。