交换机
园区网交换机
数据中心与云计算交换机
行业精选交换系列
工业交换机
意图网络指挥官
无线
放装型无线接入点
墙面型无线接入点
智分无线接入点
室外无线接入点
场景化无线
无线控制器
行业精选无线系列
物联网
安全
大数据安全平台
下一代防火墙
安全网关
检测管理安全
安全服务
安全云
统一运维
身份管理
服务产品
运营商
政府
金融
互联网
电力能源
制造业
高教/职教
医疗卫生
交通
地产酒店文旅·连锁服务
公共安全
1.故障现象
当设备上线后,用户通过ACE Report或APM查看识别出什么应用时,发现大部分应用无法识别;基于应用的策略也无法生效的感觉;
2、故障可能原因
(1)桥部署错误;
(2)设备处于硬件bypass状态;
(3)license失效;
(4)SAM状态监测功能误开启;
(5)DPI未全部加载;
(6)客户端数据流存在特殊性;
3.故障处理流程
4.故障处理步骤
步骤1:检查ACE的桥部署是否正确
检查理由
ACE桥接口接反或者上下联设备负载均衡环境下且未采用桥组部署方案都会导致大部分应用无法识别,所以我们需要确认接口连接是否正确和是否需要配置桥组;
1、ACE设备的每组物理桥是由INT口和EXT口两个口组成;INT口连接内网设备,如核心交换机;EXT口连接外网设备,如出口路由器;
2、常见部署场景有两种:典型部署场景、桥组部署场景;典型部署场景就是采用设备本身的物理桥进行流控;桥组部署就是将各物理桥组成虚拟桥统一进行应用识别和流控;部署环境中上下联设备采用负载均衡的方式,来回数据流是在不同的物理桥上转发,这样会导致ACE无法进行准确的应用识别;此时就必须采用桥组部署;
注意:桥组不支持自定义组合端口,必须物理桥INT和EXT口一 一对应;比如:不支持一个INT口,对应多个EXT口;
检查步骤
1、检查部署桥的连接
部署桥确认
确认部署桥的物理连接正确,从设备外观上查看,从左到右,每两个口:INT1/EXT1,分别对应一个桥;
备注:部分设备面板上标识仍然从INT0/EXT0开始,但实际对应软件INT1/EXT1;
INT/EXT口连接
ACE的桥口:INT口连接内网,如核心交换机;EXT口连接外网,如出口路由器;ACE仅会对INT口的数据进行分析、流控;如果两个口接反了,就会导致系统的应用分析异常,流控策略失效;
2、场景介绍
典型场景
当部署环境中的数据流都由同一个桥进出,即ACE设备采用物理桥进行部署,该场景即为ACE的典型部署场景
单台ACE,单桥串行部署;
单台ACE,多桥串行部署;各桥独立进行流控策略配置
桥组场景
单台ACE,多物理桥组成桥组串行部署;桥组统一流控策略配置;
解决方法
1、正确连接ACE设备的桥接口:INT口连接内网,如核心交换机;EXT口连接外网,如出口路由器;
2、确认ACE的部署场景,如果为桥组场景就需要按以下配置步骤进行操作:
桥组配置:由于完成桥组配置后需要恢复出厂配置,所以我们可以先通过串口开启WEB管理功能,然后通过默认管理IP(192.168.1.1)登陆设备,先完成桥组配置。
1) Web登陆,网络配置>>桥组管理>>启动配置 标签;我们可以通过“添加”、“编辑”;如采用添加,新生成的桥ID是随机的;编辑的话可以保留原有的桥ID;
2)例如:需要将物理桥1和桥2组成个新的逻辑桥;同时希望桥ID为1;所以我们可以通过编辑的方式进行
3)此时可以查看到桥1和桥2已经组成桥组1;所以后续的策略配置、流控通道配置都要基于桥1进行配置
4)点击“应用配置”,同时点击“确定”,确定后,系统将恢复出厂配置(除桥组配置)和重启设备;
5)重启后,Web登陆,网络配置>>桥组管理>>运行配置 标签,确定刚才配置生效。
6)最后将两路上下联设备分别连接ACE的物理桥1和物理桥2的INT和EXT口;
步骤2:检查设备是否处于硬件bypass状态
检查理由
ACE设备处于硬件bypass状态时,设备是无法进行应用分析;
检查步骤
1、Bypass状态可以通过“show bypass”命令查看,如果STATUS一列为bypass,就说明该桥处于硬件bypass状态;
ruijie# show bypass status
BYPASS INFORMATION:
BRIDGE PORT TYPE UPTIME STATUS
------ ---- ---- ---------- ----------
1 0 EP 921130674ms bypass ---->代表该桥处于硬件bypass状态
2 0 OP 921130744ms bypass
3 1 OP 921130813ms bypass
4 2 OP 921130925ms bypass
备注:BRIDGE列为各桥序号,代表桥1、桥2、桥3和桥4;TYPE列为硬件bypass的类型,EP为电口内置硬件bypass;OP为光口外置硬件bypass;
2、如果部署的是光桥,需要确认ACE设备与OBS交换机的心跳线连接是否正常;正常(normal)状态时OBS的电源灯为亮的状态;Bypass状态时OBS的电源灭,所有的数据都不会经过ACE;
图1:ACE与OBS连接心跳线示意图
图2:OBS电源灯示意图
解决方法
1、通过“no bypass”将设备恢复normal状态;
ruijie# configure
ruijie(config)# no bypass
ruijie# show bypass status
BYPASS INFORMATION:
BRIDGE PORT TYPE UPTIME STATUS
------ ---- ---- ---------- ----------
1 0 EP 922144743ms normal ---->代表该桥处于正常转发状态
2 0 OP 922144747ms normal
3 1 OP 922144752ms normal
4 2 OP 922144757ms normal
ruijie#
2、当ACE设备与OBS交换机心跳线连接后,当OBS的电源灯仍然灭的状态,我们可以通过以下步骤解决:1)检查两者心跳线接口是否插紧,是否有松脱的情况;2)更换心跳线,确认是否心跳线损坏;3)更换ACE的OBS接口,确认是否为ACE的OBS口损坏;4)更换OBS交换机,确认OBS交换机是否损坏;
步骤3:检查license是否为可用状态
检查理由
设备的license失效、过期时将处于Softbypass状态,该状态下设备是无法进行应用识别;
检查步骤
1、WEB登陆 系统信息>>授权证书,点击该页面时无异常报错信息;确认firmware的授权天数显示为“永久有效”或者“非0的一个数字”;
说明:仅有测试license的授权天数为具体天数,正式license显示为永久有效。
2、show log查看是否有license失效的提示信息,例如:“Nov 15 01:03:08 matrix root: license hwid invalid, soft bypass!!”;
3、确认license导入后是否重启,如果未重启,需要重启使license生效。
解决方法
1、将随机光盘中的license文件导入,并重启设备;
2、测试license过期,可收集设备的型号、hwid、版本信息提交4008-111-000重新申请;
步骤4:检查SAM联动是否被误开启
检查理由
开启认证配置中的状态检测功能后,ACE就会监测SAM的保活报文;如保活识别,设备会进入softbypass状态,该状态下设备是无法进行应用识别;
在一般ACE单品流控的项目中,请勿开启SAM的状态监测;
检查步骤
web登陆 用户认证>>SAM认证配置>>认证配置 中的“状态监测”选项。确认该地方是否有被误勾选;
解决方法
将“状态监测”勾去掉,保存并重启设备;
步骤5:检查DPI是否全部加载
检查理由
未启用DPI的情况下,基于DPI的应用识别将全部失效
检查步骤
Web登陆:策略管理 > DPI,确认所有的应用都已经启用;
解决方法
在web上全部启用,勾选应用旁全选框,然后点击“保存”
图1:DPI操作说明
或在命令行下全部启用:
ruijie>
ruijie> enable
ruijie# configure
ruijie(config)# protocol all ---->启用全部应用项
ruijie(config)#
DPI选项都勾选,才是正确的;
步骤6:检查客户端数据流是否存在特殊性
检查理由
流量是否能被ACE正确识别,取决于:整个应用交互的数据流完整的通过ACE(例如:TCP的三次握手报文都经过ACE),同时应用数据流未进行特殊处理(例如:代理、VPN加密封装)。所以我们需要确认部署环境中的数据流是否存在以下几种特殊情况:
1、客户端PC部分流量未经过ACE设备;
2、客户端PC使用代理上网;
3、客户端PC使用VPN加密封装后上网;
4、客户端PC存在双网卡(无线网卡、3G卡);
5、客户端PC存在IPV4、IPV6双协议栈流量(客户发起的流量,部分走IPV4网络,部分走IPV6网络);
检查步骤
我们可以先找台测试PC进行正常业务操作,然后在ACE Report/APM自定义测试主机的应用报表进行观察,确认测试PC是否能正确识别出大部分的应用;如果不能,则需要与用户沟通下网络使用的场景,然后根据“解决方法”中介绍的5种场景进行方案优化;
图1:自定义应用报表示意图
同时也可以通过抓包的方法进一步确认客户端数据包的构成,镜像的操作方法如下:
在策略中心中添加一条该主机的流控策略,同时开启端口镜像功能,并选择镜像口ma;然后将PC与ma口连接,通过如wireshark抓包软件进行抓包,如能获取到该主机的抓包信息,则表明该主机的流量有穿过ACE;通过抓包信息了解客户端数据流构成;
解决方法
常见五种客户端PC特殊流量的优化方案:
1、客户端PC部分流量未经过ACE设备;优化方案:调整客户端PC流量的路由,保证客户端PC发起的所有流量都需要经过ACE;
2、客户端PC使用代理上网;优化方案:在代理的环境下,ACE无法识别代理后全部的应用,仅能将ACE部署在客户PC机与代理服务器直接,可实现每IP的带宽控制和会话数限制;
3、客户端PC使用VPN加密封装后上网;优化方案:在VPN的环境下,ACE无法做到全面的识别,仅能将ACE部署在客户PC机与VPN网关前面,可实现每IP的带宽控制和会话数限制;
4、客户端PC存在双网卡(无线网卡、3G卡); 优化方案:排除客户端双网卡,保证客户端发起的流量都经过ACE;
5、客户端PC存在IPV4、IPV6双协议栈流量(客户端PC发起的流量,部分走IPV4网络,部分走IPV6网络);优化方案:让客户端PC发起的流量仅走IPV4协议栈;
步骤7:收集信息后,请联系4008111000协助处理
如果经以上6个步骤排查后故障无法解决,请将根据步骤1到步骤6检查配置信息压缩打包,同时准备好ACE与APM/ACE Report的远程方式后联系4008-111000协助处理。
需要收集的信息:
用户认证>>SAM认证配置>>认证配置 (web配置界面截图)
策略管理>>DPI(web配置界面截图)
客户数据流确认情况说明
部署场景说明、桥口连接说明
show bypass
show hwid
show license
需要收集的信息解释:
show bypass:收集bypass信息
show hwid:收集HWID
show license:收集license信息