本文作者:格物资讯老韩

我看过不少互联网企业的内部调查问卷,WiFi体验毫无例外地成为员工对企业IT最大不满之所在。

WiFi肯定是背了一些锅。对很多终端用户来说,WiFi就是互联网,所以一旦有问题他们就喊“WiFi不好”。但IT运维人员显然不能这么草率地下结论,“WiFi不好”的背后有着太多可能性。

这里可以参考一下格物资讯维护的共享办公场景IT运维模型,可以看到常见故障几乎涉及到所有层面,WiFi只是其中一部分罢了。分享个小经验吧,如果你确定办公网一切正常却突然有很多人喊“WiFi不好”,最大的可能是企业邮箱或者企业微信/钉钉挂了。

所以在用WIS排障前你必须先确认一个问题,就是你要处理的故障真的是WiFi层面的故障。这么做的原因有两个,首先非WiFi层面的故障定位相对容易一些,建议优先排除;其次是WIS也不关注无线层面以外的东西,假如是互联网接入或DHCP出现问题,WIS是判断不出来的。

如果真确定是WiFi层面的问题,那也别慌,WIS在排障方面的赋能是颠覆性的。

对一切IT排障工作来说,最关键的环节是定位问题而不是解决问题。只要能找到问题,解决起来往往只是敲一些命令的事。但WiFi故障的定位恰恰是最难的,一来空间的不确定性导致WiFi故障现场很难被保留和复现,二来设备本地也无法保存历史记录,这直接就把排障工作升级到地狱难度。

WiFi报障来了,设备侧看不出异常,你只能苦逼兮兮地跑现场;

真跑过去了,嘿,用户说又没问题了;

你现场蹲俩钟头,问题就是不复现,下班了明天再说;

第二天一上班,这边又报障了~

这尴尬却常见的局面,让IT运维人员在处理WiFi故障时经常只能连蒙带猜,也给终端用户一种被忽悠的感觉。试想一下,如果问题总在反复,报障回复中又一直存在“也许”、“应该”、“大概”、“可能”这样的字眼,换谁最后都得急吧。
针对这个问题,WIS祭出了上帝视角。

前面提到WIS在云端收集、保存了AC/AP上报的所有数据,这不光能用来建模做全时网优,亦可用来排障。它就像监控系统里的硬盘录像机,忠实记录了从现在往前一端时间内无线网络的完整运行情况。你随时可以调取到任意时刻设备、终端及空口的状态信息,洞察故障的根本原因。

在排障的方法论上,用不用WIS都是一样的。你必须先获取尽量详细、准确的故障描述,比如是个别终端有问题、某个区域有问题还是全部都有问题?具体故障现象是什么?能否提供一两个故障比较明显(最好现在还处于问题中)的终端的MAC地址?再结合专业知识和经验,去做有针对性地检查。

传统情况下,这个过程中有着无数陷阱,最常见的莫过于报障者提供了不准确的信息,直接会把IT运维人员带到沟里。有了WIS就简单多了,即便你获得的信息是模棱两可的,也可以快速印证其有效性,定位到具体问题。

具体做法就是把“概况-体验”页面做为排障的入口。这里的数据并不是某个单一维度的数据,而是WIS用几乎获取到的所有维度的数据对无线网络建模后,每隔5分钟推算出的每个终端接近真实上网体验的综合评分。我认为这个评分是比较保守的,如果WIS给某时刻的某终端打了个“有点卡”的标签,那就一定是真的卡。

收到报障进入WIS的“体验”页面后,先看右侧终端体验图中是不是存在异常比例的“有点卡”和“上线难”。如果你看到的情况和上图(取自正常运行的无线办公网)类似,那就不应该存在整体故障或明显的局部故障。建议排障前再和现场确认一下,以免被带到沟里去。

要是还不放心,可以看下左侧关于无线网络几个重要指标的历史记录,再看看AC的带机量/流量/CPU/内存的历史数据。这些指标只要没有明显异常,无线网络整体故障和局部故障的可能性通常就可以排除了。

关于终端体验图的解读还有几点需要注意。首先,无线终端本身是可移动的,当WIS的采样周期来临时,假如正好赶上人带着手机进了电梯等WiFi覆盖边缘,体验评分也许就会很低。所以看到“有点卡”和“上线难”的终端也不用慌,关键是比例,只要比例很低,就可以认为无线网络工作正常。

其次,如果你在终端体验中看到一些“有点卡”和“上线难”,而问题终端又普遍集中在2.4G时(如下图),也不用紧张。由于众所周知的原因,2.4G空口的品质要比5G恶劣得多,并且有持续恶化的趋势。2.4G的问题,现在已经不是优化能解决的,还是要尽量摆事实拿证据,建议用户改用5G WiFi。

其实如果开局和网优都交给了WIS,无线网一般很少再因为射频方面的原因导致全局故障,反倒是认证引发的接入困难遇到得越来越多。如果你接到大面积WiFi接入困难的报障,而终端体验图看上去又没什么异常,可以再去“原因分析”中检查一下认证维度的数据,很可能会有所发现。

WIS采集了所有终端在802.1x认证过程中留下的关键信息,最终提炼成4项重要指标,对定位认证环节的问题有着立竿见影的效果。如果你负责的是大连锁或多分支场景的网络,如果你经常因为跨广域网认证的不可靠性背锅,这个功能可以拯救你。
如果报障明确发生在某个区域,在终端体验图上就看不出什么了,必须切换到AP视角。在这里,WIS把最近一段时间和特定AP有关的数据都关联在一起做了集中呈现。不得不说,当不同维度数据都叠加在一个图上的时候,你很容易就能发现问题,并且顺藤摸瓜挖出根本原因。这种排障体验,比连蒙带猜强了无数倍吧。

除了赤裸裸的数据,WIS还提供了一个事件维度的视角,按时间顺序呈现了一天内和AP有关的所有事件。这些数据经过了提炼与聚合处理,都是WIS认为AP不太正常的情况,比如异常上下线、体验预警、信道使用率高等等。这些数据是特别有用的,很多你要排查的局部故障的原因已经清清楚楚写这了。

值得一提的是,WIS还在采样时记录了AP连接的每台终端传输的数据量,回溯时以饼图的形式呈现在AP的事件维度页面。对于一些因为负载造成的体验异常来说,把同一时刻终端流量和AP的数据结合起来,就能轻松“看到”问题了。

当然,WIS收集的终端侧数据远不止这一个维度,我感觉应该比AP的还要丰富一些。也唯有如此,才有望应对个体排障时的无限可能吧。

WIS对终端数据的处理方式还是事件聚合和数据关联两条主线。在被称作“基础模式”的事件聚合页面中,你能看到任意一天的终端连接履历。对体验不佳的时间点对应的事件,WIS会做高亮处理。其实用多了慢慢就会发现,在这些高亮处理的信息背后,WIS往往已经把故障原因写得很清楚。

如果在“基础模式”下得不到有用的提示,就得去“专家模式”下捞原始数据自己分析了。在那里,你可以查看终端在任何时刻的无线连接状态,以及每一条和终端有关的日志。当然这些数据也是经过处理的,不管是图表中叠加的数据组合,还是用“人话”描述的终端行为,理解起来都很容易。

因为终端本身可能存在漫游行为,数据的表现方式也远比AP复杂,排障过程中千万不能乱。我的经验是在时间轴中选择报障时间,回溯终端那一刻的所有数据,看有无明显异常。如个体有异常,再点击时间轴下的AP图标进入AP视角,和当时处于同一AP同一射频下的其它终端进行对比,确认到底是个体的问题还是区域性的问题。

一般来说,大部分个体故障其实都不是独立事件,而是区域性的问题(最常见的莫过于突发负载或外部干扰造成的体验下降),只不过有所感知并报障的用户不多罢了。

篇幅原因,我在这里就不用具体案例做介绍了。如想了解更多的用WIS排障的经验,可以参考之前发布的《小米智能插座是怎样对WiFi发起慢性DDoS的》,里面详细记录了一次借助WIS定位问题、证明问题和解决问题的异地排障过程。

话说回来,如果真推定应该是终端的个体问题,而WIS却没能感知到异常,才是最棘手、最难处理的问题。遇到这种情况,你要先想清楚是不是有必要一查到底,因为排障的投入可能是巨大的,结果也可能是无法预测的。相信看过《被小米笔记本的WiFi坑了一道》这篇文章的朋友,都明白我没有危言耸听。

如果确定要查,那就准备抓包吧。

对WiFi排障而言,抓包分析是终极解决方案,却也有着很大的局限性。首先,与远程在设备上就能抓包的有线环境不同,WiFi环境下抓包需要专业的人和专业的设备到现场,这个条件就不是一般用户能拥有的。其次,人和设备到现场时能赶上故障出现,那自然是极好的;如果问题迟迟不复现,难道要在现场一直等下去? 

也许是看到受困于此的IT管理者太多、咒怨太盛,WIS在去年的大迭代中增加了一个抓包分析全家桶,很大程度上缓解了WiFi环境抓包的痛苦。

不再需要什么专业设备,也不用管具体位置在哪,你现在只需知道要抓包的区域还有哪些AP就够了。WIS可以调度任意AP的任意一个射频,以第三方的身份抓取信号覆盖范围内所有的通信报文,再自动回传到WIS平台。

分析报文也不一定必须下载到本地了,WIS提供了一个不亚于传统专业工具的线上分析器,常见操作和主要维度的统计都没问题。美中不足的是这个工具的界面目前基本还都是英文,不过相信对IT管理者来说不是什么问题。

分析器中还包括一个叫做“专家经验”的模块,里面除了给报文进行分类与聚合统计外,还按重要性对事件进行了级别划分。其实这才是最有用的功能,毕竟大多数IT管理者没有抓包分析的能力及经验,但如果拿到的是经过预处理的结果,应该还是能看出一些问题的。

这个功能出来没多久我就被迫用上了,当时有个报障号称“无规律的WiFi卡顿”,WIS上也看不出明显异常,观察了两天问题也没消失。最后被逼无奈做了抓包分析,发现网内有终端mDNS行为异常(估计与研发调试有关),搞得其它苹果设备高频次、大流量回包,降低了空口传输效率和上网体验。

这问题除了抓包分析外真没有太好的办法,也幸亏“专家经验”模块把重点信息筛了出来,问题才得以快速定位。最关键的,这是上海的报障,我在北京两天就有结论了。以前不敢想。

抓包分析功能的出现,补齐了WIS在排障环节的最后一块短板。坦率地讲,这个功能还谈不上好用,尤其自动抓包、过滤抓包等重要特性仍未上线。不过这毕竟只是个新增不到半年的功能,希望未来能继续完善吧。

总而言之,企业WiFi的满意度普遍偏低,往往并不是说IT管理者水平不行,而是在客观因素限制下定位问题的成本太高,乃至影响到了可操作性。而WIS给IT管理者带来了真正的运维赋能,让专业的人能更好地发挥专业能力,大幅降低了排障成本。以至于很多用过的人都认为,排障这件事,有WIS就能站着和用户沟通,没有就只能继续跪着了。

【相关阅读】

● 你离WiFi宗师,就差一个WIS的距离

● 【WIS使用指南】开局篇

● 【WIS使用指南】网优篇

● 【WIS使用指南】排障篇

● 【WIS使用指南】运维篇