1. 故障描述
在AC+Fit AP的组网架构下,客户端数据报文转发位置可以在AC或者AP上。
- 集中转发:客户端数据报文转发位置配置在AC上,客户端的数据流量由AP通过CAPWAP(Control and Provisioning of Wireless Access Points)隧道透传到AC,由AC转发数据报文。
- 本地转发:客户端数据报文转发位置配置在AP上,客户端的数据流量直接由AP进行转发。将转发位置配置在AP上可以缓解AC的数据转发压力。
本文中,“集中转发方式下无线上网卡慢”问题是指在同等条件下,采用本地转发方式无此问题、有线网络无此问题。具体表现在:无线终端打开网页慢、观看视频卡顿等,直接现象是集中转发方式下无线终端Ping网关有大迟延和丢包。
2. 常见原因
本类问题的常见原因包括:
- AC和网关间的有线链路异常。
- 有线口广播、组播报文占比过大。
- 有线口存在瞬时大流量冲击。
- AC的转发进程过于繁忙,导致无线丢包。
- AP空口质量不佳。
3. 故障分析
本类故障的定位思路一般为:
(1) 通过AC Ping网关操作,检查AC和网关间的有线链路是否异常。
(2) 摸索故障的规律性,观察故障发生是否和时间段强相关,是否和网络中流量模型相关。
(3) 查看AC有线口报文统计信息。
(4) 检查AC的转发进程是否长时间占用CPU。
(5) AP空口质量是否不佳
本类故障的诊断流程图如下所示。
4. 处理步骤
本类故障建议按照如下步骤排查:
(1) 查看AC和网关间的有线链路是否异常
集中式转发架构下,AC通常旁挂在交换机上,在AC执行ping网关操作确定故障范围,检查AP与网关间的有线链路是否正常。
¡ 如果无法ping通,请检查物理链路、VLAN配置、STP状态是否异常,IP地址是否过期。
¡ 如果时延过大或存在丢包的情况,请检查AC和网关间的链路是否出现环路。当有线网络中存在环路时,AC会收到大量的组播报文或组播报文,导致设备无法处理无线报文,从而影响无线用户的网速。
¡ 如果ping包不丢包,延时正常,说明问题出现在无线终端至AC间的链路段,执行步骤(2)。
(2) 观察故障和时间段的相关性
关注无线网络使用体验不佳是否和时间段强相关。例如:办公场景下,某一段办公时间无线上网卡慢,其它时间正常;高校宿舍场景下,非教学时间明显出现无线卡慢等。
¡ 如果无线使用体验不佳和时间段强相关,则大概率是网络中流量发生变化导致,需要重点梳理有线网络中的流量。
¡ 如果无线使用体验不佳和时间段不相关,则执行步骤(3)。
(3) 查看AC有线口接收或发送的非单播报文占比
如果AC有线口接收或者发送广播、组播报文数量明显大于单播报文数量,则说明网络中广播或组播报文过多,需要重新梳理有线网络流量,考虑是否接口放通VLAN过多或者存在广播风暴。具体确认步骤如下:
- 清空AC上联口的报文统计结果。
为方便查看,通过reset counter interface命令清空AC接口的报文统计结果并修改接口统计周期为5秒(缺省情况下,接口统计周期为300秒)。
<Sysname> reset counters interface gigabitethernet 1/0/1
<Sysname> system-view
[Sysname] interface gigabitethernet 1/0/1
[Sysname-GigabitEthernet1/0/1]flow-interval 5
- 查看接口的报文统计结果。
在任意视图下,每间隔几秒执行display interface命令,查看接口的报文统计结果。
# 查看以太网接口GigabitEthernet1/0/1的统计信息。
<Sysname> display interface GigabitEthernet 1/0/1
GigabitEthernet1/0/1
Current state: DOWN
Line protocol state: DOWN
IP packet frame type: Ethernet II, hardware address: fc60-9ba1-81e0
Description: GigabitEthernet1/0/1 Interface
显示信息略…
Last time when physical state changed to up:-
Last time when physical state changed to down:-
Last 5 seconds input: 511025 packets/sec 405002105 bytes/sec 8%
Last 5 seconds output: 685075 packets/sec 426870884 bytes/sec 8%
Input (total): 58328063 packets, 21043223173 bytes
27274961 unicasts, 14726456 broadcasts, 16326646 multicasts, 0 pauses
显示信息略…
Output (total): 25964106 packets, 6817109645 bytes
25756796 unicasts, 431 broadcasts, 206879 multicasts, 0 pauses
显示信息略…
该命令需要重点关注的显示信息如表5-2所示。
表5-2 display interface命令重点关注的显示信息
显示字段 | 描述 |
Last 5 seconds input: 511025 packets/sec 405002105 bytes/sec 8% Last 5 seconds output: 685075 packets/sec 426870884 bytes/sec 8% |
端口在最近一个统计周期(统计周期可以通过flow-interval命令设置)内接收和发送报文的平均速率,单位分别为数据包/秒和字节/秒,以及实际速率和接口带宽的百分比。 |
Input (total): 58328063 packets, 21043223173 bytes 27274961 unicasts, 14726456 broadcasts, 16326646 multicasts, 0 pauses |
端口接收报文的统计值,包括正常报文、异常报文和正常PAUSE帧的报文数、字节数 端口接收的单播报文(unicasts)、广播报文( broadcasts)、组播报文(multicasts)和PAUSE帧的数量 |
Output (total): 25964106 packets, 6817109645 bytes 25756796 unicasts, 431 broadcasts, 206879 multicasts, 0 pauses |
端口发送报文的统计值,包括正常报文、异常报文和正常PAUSE帧的报文数、字节数 端口发送的单播报文(unicasts)、广播报文( broadcasts)、组播报文(multicasts)和PAUSE帧的数量 |
– 通过“Input (total):”和“Output (total): ”显示字段,查看AC有线口入/出方向单播、广播、组播报文的比例,确认是否存在广播、组播报文占比过大的现象。如果广播或组播报文数量明显大于单播报文数量,则说明网络中广播或组播报文过多,需要重新梳理有线网络流量,考虑是否接口放通VLAN过多或者存在广播风暴。
– 在集中转发方式下,业务数据报文会在AC上进行CAPWAP封装和解封装。如果网络中AC对N个AP进行纳管,AC从上行网络中收到1份业务VLAN的广播报文后,会将该广播报文复制N份,并发送给N个AP。广播报文的复制和分发。一方面会极大消耗AC的CPU,造成AC繁忙;另一方面,当广播报文会以最低速率在空口中传输,极大占用空口资源,对无线网络造成冲击。
通过“Last 5 seconds input:”和“Last 5 seconds output:”显示字段,查看果AC上线口出方向报文是否明显多于入方向报文。如果是,则存在广播复制的情况,需要梳理网络流量,做好广播组播报文的隔离。
- (可选)通过FPL统计功能查看AC有线口的报文统计数据。
如果排查问题时没有复现故障,即故障现象发生在过去某一段时间。可以通过FPL统计功能查看AC有线口当月7天内的报文数量统计数据,统计间隔为1分钟。
在Probe视图下,执行fpl-diag命令,其中,“item”显示字段为“XGE1/0/3RxBroadcast”表示XGE1/0/3接口接收的广播报文;“Delta”显示字段表示报文每分钟的增长量。如果有线口发送(Tx)或接收(Rx)方向的广播报文或者组播报文量级较大且波动明显,则存在异常广播或组播报文,需要梳理有线网络。
FPL统计功能的支持情况与设备型号有关,请以实际情况为准。
# 显示本月3日9点0分起100分钟内的统计数据
<Sysname> system-view
[Sysname] probe
[Sysname-probe] fpl-diag slot 1 showlogall 3,9,0,100
idx item date rx delta
9530 XGE1/0/3RxBroadcast 09:11:36 06/03/2020 2502814 3824
9531 XGE1/0/3RxBroadcast 09:12:36 06/03/2020 2506986 4172
9532 XGE1/0/3RxBroadcast 09:13:36 06/03/2020 2511841 4855
9533 XGE1/0/3RxBroadcast 09:14:36 06/03/2020 3443 0
9534 XGE1/0/3RxBroadcast 09:15:36 06/03/2020 3105 0
如果AC接口报文统计信息未发现异常,则执行步骤(4)。
(4) 查看AC有线口是否存在尖峰流量
查看AC有线口是否存在在瞬时大流量报文进出:
¡ 如果存在,需要进一步检查网络中是否存在环路、广播风暴等。
¡ 如果不存在,则执行步骤(5)
具体操作步骤如下:
- 查看有线口是否存在端口接收队列溢出的情形。
在任意视图下,每间隔几秒执行display interface命令,查看接口的报文统计结果。重点关注“overruns”显示字段:如果overruns不为0,说明有线口存在瞬时大流量报文进出,由于端口的接收速率超过接收队列的处理能力,导致报文被丢弃。
<Sysname> display interface gigabitethernet 1/0/1
GigabitEthernet1/0/1
Current state: UP
Line protocol state: UP
IP packet frame type: Ethernet II, hardware address: a4fa-7679-b6f0
……
Input (total): 58328063 packets, 21043223173 bytes
27274961 unicasts, 14726456 broadcasts, 16326646 multicasts, 0 pauses
显示信息略…
Input: 31153 input errors, 0 runts, 0 giants, – throttles
0 CRC, – frame, 31153 overruns, 0 aborts
– ignored, – parity errors
显示信息略…
- 查看有线口是否存在瞬时非单播报文冲击。
广播流量不一定是持续并发,可能存在瞬时大流量冲击,仅通过接口的报文统计信息不一定能发现问题,此时可以通过每间隔几秒执行display counters rate命令的方式,查看接口的报文速率统计信息。
如果AC有线口接收或发送广播报文(或组播报文)的平均速率明显高于单播报文,则说明网络中存在瞬时异常广播组播流量的冲击。
# 显示接口的报文接收速率统计信息。
<Sysname> display counters rate inbound interface GigabitEthernet 1/0/1
Usage: Bandwidth utilization in percentage
Interface Usage (%) Total (pps) Broadcast (pps) Multicast (pps)
GE1/0/1 100 983276 669595 25518
Overflow: More than 14 digits.
–: Not supported
(5) 查看AC CPU转发进程
无论AC是否支持FPGA硬件转发,大多协议控制报文、部分数据报文会上送CPU处理。
- 定位长时间占用CPU的进程。
在AC上执行display process cpu命令查看所有进程的CPU使用率信息,定位长时间占用CPU的进程。当AC所有转发进程(kdrvfwd)的CPU使用率超过50%时,表明转发进程过于繁忙,则会出现无线丢包的情况。AC支持转发进程的数量与设备型号有关,例如:WX5500H系列存在16个转发进程,如果某个转发进程CPU使用率超过2.5%,则可能出现无线丢包;如果CPU占比超过3%就会出现明显丢包。
– 如果AC CPU转发进程存在异常,则执行步骤“b(可选)通过FPL统计功能查看转发进程丢弃的报文”。
– 如果AC CPU转发进程不存在异常,则执行步骤(6)。
# 显示设备的CUP利用率统计信息。
<Sysname> display process cpu
CPU utilization in 5 secs: 51.4%; 1 min: 52.1%; 5 mins: 52.3%
JID 5Sec 1Min 5Min Name
显示信息略…
308 3.2% 3.2% 3.2% [kdrvfwd16]
309 3.2% 3.2% 3.0% [kdrvfwd17]
310 3.2% 3.2% 3.2% [kdrvfwd18]
311 2.6% 3.2% 2.9% [kdrvfwd19]
312 3.2% 3.2% 3.2% [kdrvfwd20]
313 3.2% 3.2% 3.2% [kdrvfwd21]
314 3.2% 3.2% 3.2% [kdrvfwd22]
315 2.6% 3.2% 3.1% [kdrvfwd23]
316 3.2% 3.2% 3.2% [kdrvfwd24]
317 3.2% 3.2% 3.2% [kdrvfwd25]
318 3.2% 3.2% 3.2% [kdrvfwd26]
319 3.2% 3.2% 3.2% [kdrvfwd27]
320 3.2% 3.2% 3.2% [kdrvfwd28]
显示信息略…
- (可选)通过FPL统计功能查看转发进程丢弃的报文。
排查转发进程是否存在丢包最直接的办法是在Probe视图下,执行fpl-diag命令,查看AC当月7天内的报文数量统计数据,统计间隔为1分钟。其中,“item”显示字段为“PoeDropPkt”表示转发进程丢弃的报文。“Delta”显示字段表示每分钟丢弃的转发报文个数,如果Delta项数值波动明显,则说明转发进程存在丢包。
FPL统计功能的支持情况与设备型号有关,请以实际情况为准。
# 显示本月3日9点0分起100分钟内的统计数据
<Sysname> system-view
[Sysname] probe
[Sysname-probe] fpl-diag slot 1 showlogall 3,9,0,100
idx item date rx delta
9519 PoeDropPkt 09:00:36 06/03/2020 822506 10
9520 PoeDropPkt 09:01:36 06/03/2020 822521 15
9521 PoeDropPkt 09:02:36 06/03/2020 822540 19
9522 PoeDropPkt 09:03:36 06/03/2020 822596 56
9523 PoeDropPkt 09:04:36 06/03/2020 822608 12
9524 PoeDropPkt 09:05:36 06/03/2020 822638 30
9525 PoeDropPkt 09:06:36 06/03/2020 822665 27
9526 PoeDropPkt 09:07:36 06/03/2020 822690 25
9527 PoeDropPkt 09:08:36 06/03/2020 822707 17
9528 PoeDropPkt 09:09:36 06/03/2020 822722 15
9529 PoeDropPkt 09:10:36 06/03/2020 822739 17
9530 PoeDropPkt 09:11:36 06/03/2020 822755 16
9531 PoeDropPkt 09:12:36 06/03/2020 822781 26
- 定位AC转发进程长时间占用CPU的原因。
AC转发进程长时间占用CPU的原因如下:
首先,查看设备是否支持硬件转发。如果设备支持硬件转发,需要查看硬件转发功能是否开启,未开启硬件转发功能会导致无线业务报文上送CPU处理,进而加重的CPU工作负担。
# 开启WLAN硬件快速转发功能。
<Sysname> system-view
[Sysname] undo wlan fast-forwarding hardware disable
如果设备不支持硬件转发,则所有的无线业务报文需要上送CPU处理。当WLAN网络中存在大量的无线网络设备和无线客户端,AC就需要消耗大部分的CPU资源来处理无线业务报文,可能导致AC的转发性能达到瓶颈,此时可以将“集中转发”修改为“本地转发”。
其次,查看是否存在特殊的业务模型
如果无线网络中,大部分业务是大量的TCP流量(如视频业务),可以尝试修改CAPWAP隧道的MSS(Max Segment Size,TCP最大报文段长度)来避免大包报文分片转发,进而减轻分片报文上送CPU处理引起的转发进程繁忙。
# 配置CAPWAP隧道的TCP最大报文段长度为2000字节。
<Sysname> system-view
[Sysname]wlan tcp mss 2000
(6) 查看AP空口质量
WLAN网络中,由于空口共享传输介质,容易引发空口质量问。在集中转发架构下,出现无线上网卡慢问题需要重点关注空口干扰和空口广播、组播包占比。查看AP空口质量的步骤如下:
- 远程登录至AP。
开启上线AP的执行控制台(缺省为开启),通过Telnet方式登录至终端关联的AP上,AP的缺省登录密码为h3capadmin。
# 查找当前终端关联AP的名称
<Sysname> display wlan client
Total number of clients: 3
MAC address Username AP name R IP address VLAN
000f-e265-6400 N/A ap1 1 1.1.1.1 200
# 查找当前终端关联AP的IP地址
<Sysname> display wlan ap name ap1 verbose
AP name : ap1
AP ID : 1
AP group name : default-group
State : Run
Backup type : Master
Online time : 0 days 1 hours 25 minutes 12 seconds
System uptime : 0 days 2 hours 22 minutes 12 seconds
Model : WA6320
Region code : CN
Region code lock : Disable
Serial ID : 219801A28N819CE0002T
MAC address : 0AFB-423B-893C
IP address : 192.168.1.50
UDP control port number : 18313
UDP data port number : N/A
显示信息略…
# 开启上线AP的执行控制台,
<Sysname> system-view
[Sysname] probe
[Sysname-probe] wlan ap-execute ap1 exec-console enable
[Sysname-probe] quit
[Sysname] quit
<Sysname> telnet 192.168.1.50
Trying 192.168.1.50 …
Press CTRL+K to abort
Connected to 192.168.1.50 …
* Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.*
* Without the owner’s prior written consent, *
* no decompiling or reverse-engineering shall be allowed. *
******************************************************************************
Password:
<AP1>
- 查看空口干扰。
通过display ar5drv radio channelbusy命令查看信道利用率,判断射频繁忙情况。
– 如果CtlBusy高于60%时,则表示该射频繁忙,需要调整射频参数(信道、功率、频宽)。
# 查看AP1 Radio1的信道利用率
<AP1> system-view
[AP1] probe
[AP1-probe] display ar5drv 1 channelbusy
ChannelBusy information
Ctl Channel: 52 Channel Band: 80M
Record Interval(s): 9
IdleCheck Delay(s): 0 Measure Delay(s): 0
Date/Month/Year: 22/09/2022
Time(h/m/s): CtlBusy(%) TxBusy(%) RxBusy(%) ExtBusy(%)
01 03:15:42 68 37 28 –
02 03:15:33 67 36 29 –
03 03:15:24 63 35 26 –
04 03:15:15 78 40 33 –
05 03:15:06 81 43 36 –
显示信息略…
- 查看空口质量。
AP使用最低速率发送广播和组播报文,大量的广播或组播报文占用射频资源,会降低整体网络使用效率,因此需要对AP Radio接口发送的广播和组播报文进行控制。
通过display ar5drv radio statistics命令查看AP射频统计情况,判断空口质量。
<AP1> system-view
[AP1] probe
[AP1-probe] display ar5drv 1 statistics
[Radio Statistics]
TxFrameAllCnt : 388216
TxFrameAllBytes : 134143677
RxFrameAllCnt : 633177
RxFrameAllBytes : 84402310
[Tx Queue Statistics]
Queue Number : 0 1 2 3
———————————————————–
TxFrmCnt : 353398 24 132 1504
TxFrmBytes : 133247267 1274 21000 269470
TxUcastFrmCnt : 215625 24 132 1504
TxUcastFrmBytes : 87605120 1274 21000 269470
TxBcastFrmCnt : 137773 0 0 0
TxMcastFrmCnt : 0 0 0 0
TxMRetryCnt : 34 0 2 69
TxFragCnt : 0 0 0 0
TxDiscardFrm : 0 0 0 0
TxDiscardFrmBytes : 0 0 0 0
TxDataFrmCnt : 342037 6 131 328
TxDataFrmBytes : 130829678 300 20943 16400
TxUDataFrmCnt : 204264 6 131 328
TxHwRetryExc : 225 1 11 424
显示信息略…
ResetOnErr : 0
显示信息略…
BeaconBusyCnt : 2
BeaconErrCnt : 0
…
该命令需要重点关注的显示信息如表5-3所示。
表5-3 display ar5drv radio statistics命令重点关注的显示信息
显示字段 | 描述 |
TxFrmCnt |
空口统计到的发送报文总量 |
TxUcastFrmCnt |
空口统计到的发送单播报文数量 |
TxBcastFrmCnt |
空口统计到的发送广播报文数量 |
TxMcastFrmCnt |
空口统计到的发送组播报文数量 |
TxDiscardFrm |
队列丢弃的报文总数,包括发送失败和队列溢出的报文 |
BeaconBusyCnt |
AP发送Beacon报文的繁忙程度 |
BeaconErrCnt |
AP发送Beacon报文的错误统计 |
如果出现如下情况,则会明显影响无线网络的使用体验,产生Ping包大迟延和丢包现象。此时,需要在AP的以太网接口上配置二层隔离,梳理有线网络流量。
– 如果(TxBcastFrmCnt+TxMcastFrmCnt)/TxFrmCnt超过50%。
– 如果TxDiscardFra/TxUcastFrameCnt超过3%
– 如果BeaconBusyCnt和BeaconErrCnt出现增长。
(7) 拨打热线400-810-0504求助。
如果故障仍未排除,请收集如下信息,并拨打H3C客户服务热线400-810-0504寻求帮助。
¡ 上述步骤的执行结果。
¡ 设备的配置文件、日志信息、告警信息。
¡ Debug命令输出的调试信息
本站所有文章,如无特殊说明或标注,均为本站原创发布。
任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。