1. 故障描述

AC+Fit AP的组网架构下,客户端数据报文转发位置可以在AC或者AP上。

  • 集中转发:客户端数据报文转发位置配置在AC上,客户端的数据流量由AP通过CAPWAPControl and Provisioning of Wireless Access Points)隧道透传到AC,由AC转发数据报文。
  • 本地转发:客户端数据报文转发位置配置在AP上,客户端的数据流量直接由AP进行转发。将转发位置配置在AP上可以缓解AC的数据转发压力。

本文中,“集中转发方式下无线上网卡慢”问题是指在同等条件下,采用本地转发方式无此问题、有线网络无此问题。具体表现在:无线终端打开网页慢、观看视频卡顿等,直接现象是集中转发方式下无线终端Ping网关有大迟延和丢包。

2. 常见原因

本类问题的常见原因包括:

  • AC和网关间的有线链路异常。
  • 有线口广播、组播报文占比过大。
  • 有线口存在瞬时大流量冲击。
  • AC的转发进程过于繁忙,导致无线丢包。
  • AP空口质量不佳。

3. 故障分析

本类故障的定位思路一般为:

(1)     通过AC Ping网关操作,检查AC和网关间的有线链路是否异常。

(2)     摸索故障的规律性,观察故障发生是否和时间段强相关,是否和网络中流量模型相关。

(3)     查看AC有线口报文统计信息。

(4)     检查AC的转发进程是否长时间占用CPU

(5)     AP空口质量是否不佳

本类故障的诊断流程图如下所示。

4. 处理步骤

本类故障建议按照如下步骤排查:

(1)     查看AC和网关间的有线链路是否异常

集中式转发架构下,AC通常旁挂在交换机上,在AC执行ping网关操作确定故障范围,检查AP与网关间的有线链路是否正常。

¡     如果无法ping通,请检查物理链路、VLAN配置、STP状态是否异常,IP地址是否过期。

¡     如果时延过大或存在丢包的情况,请检查AC和网关间的链路是否出现环路。当有线网络中存在环路时,AC会收到大量的组播报文或组播报文,导致设备无法处理无线报文,从而影响无线用户的网速。

¡     如果ping包不丢包,延时正常,说明问题出现在无线终端至AC间的链路段,执行步骤(2)。

(2)     观察故障和时间段的相关性

关注无线网络使用体验不佳是否和时间段强相关。例如:办公场景下,某一段办公时间无线上网卡慢,其它时间正常;高校宿舍场景下,非教学时间明显出现无线卡慢等。

¡     如果无线使用体验不佳和时间段强相关,则大概率是网络中流量发生变化导致,需要重点梳理有线网络中的流量。

¡     如果无线使用体验不佳和时间段不相关,则执行步骤(3)。

(3)     查看AC有线口接收或发送的非单播报文占比

如果AC有线口接收或者发送广播、组播报文数量明显大于单播报文数量,则说明网络中广播或组播报文过多,需要重新梳理有线网络流量,考虑是否接口放通VLAN过多或者存在广播风暴。具体确认步骤如下:

  1. 清空AC上联口的报文统计结果。

为方便查看,通过reset counter interface命令清空AC接口的报文统计结果并修改接口统计周期为5秒(缺省情况下,接口统计周期为300秒)。

<Sysname> reset counters interface gigabitethernet 1/0/1

<Sysname> system-view

[Sysname] interface gigabitethernet 1/0/1

[Sysname-GigabitEthernet1/0/1]flow-interval 5

  1. 查看接口的报文统计结果。

在任意视图下,每间隔几秒执行display interface命令,查看接口的报文统计结果。

查看以太网接口GigabitEthernet1/0/1的统计信息。

<Sysname> display interface GigabitEthernet 1/0/1

GigabitEthernet1/0/1                                                           

Current state: DOWN                                                             

Line protocol state: DOWN                                                      

IP packet frame type: Ethernet II, hardware address: fc60-9ba1-81e0            

Description: GigabitEthernet1/0/1 Interface                                     

显示信息略…

Last time when physical state changed to up:-                                  

Last time when physical state changed to down:-                                

 Last 5 seconds input: 511025 packets/sec 405002105 bytes/sec 8%                

 Last 5 seconds output: 685075 packets/sec 426870884 bytes/sec 8%               

 Input (total):  58328063 packets, 21043223173 bytes                           

          27274961 unicasts, 14726456 broadcasts, 16326646 multicasts, 0 pauses

显示信息略…

 Output (total): 25964106 packets, 6817109645 bytes                            

          25756796 unicasts, 431 broadcasts, 206879 multicasts, 0 pauses        

显示信息略…

该命令需要重点关注的显示信息如表5-2所示。

表5-2 display interface命令重点关注的显示信息

显示字段 描述

Last 5 seconds input: 511025 packets/sec 405002105 bytes/sec 8%

Last 5 seconds output: 685075 packets/sec 426870884 bytes/sec 8%

端口在最近一个统计周期(统计周期可以通过flow-interval命令设置)内接收和发送报文的平均速率,单位分别为数据包/秒和字节/秒,以及实际速率和接口带宽的百分比。

Input (total):  58328063 packets, 21043223173 bytes

          27274961 unicasts, 14726456 broadcasts, 16326646 multicasts, 0 pauses

端口接收报文的统计值,包括正常报文、异常报文和正常PAUSE帧的报文数、字节数

端口接收的单播报文(unicasts)、广播报文( broadcasts)、组播报文(multicasts)和PAUSE帧的数量

Output (total): 25964106 packets, 6817109645 bytes

          25756796 unicasts, 431 broadcasts, 206879 multicasts, 0 pauses

端口发送报文的统计值,包括正常报文、异常报文和正常PAUSE帧的报文数、字节数

端口发送的单播报文(unicasts)、广播报文( broadcasts)、组播报文(multicasts)和PAUSE帧的数量

 

     通过“Input (total):”和“Output (total): ”显示字段,查看AC有线口入/出方向单播、广播、组播报文的比例,确认是否存在广播、组播报文占比过大的现象。如果广播或组播报文数量明显大于单播报文数量,则说明网络中广播或组播报文过多,需要重新梳理有线网络流量,考虑是否接口放通VLAN过多或者存在广播风暴。

     在集中转发方式下,业务数据报文会在AC上进行CAPWAP封装和解封装。如果网络中ACNAP进行纳管,AC从上行网络中收到1份业务VLAN的广播报文后,会将该广播报文复制N份,并发送给NAP。广播报文的复制和分发。一方面会极大消耗ACCPU,造成AC繁忙;另一方面,当广播报文会以最低速率在空口中传输,极大占用空口资源,对无线网络造成冲击。

通过“Last 5 seconds input:”和“Last 5 seconds output:”显示字段,查看果AC上线口出方向报文是否明显多于入方向报文。如果是,则存在广播复制的情况,需要梳理网络流量,做好广播组播报文的隔离。

  1. (可选)通过FPL统计功能查看AC有线口的报文统计数据。

如果排查问题时没有复现故障,即故障现象发生在过去某一段时间。可以通过FPL统计功能查看AC有线口当月7天内的报文数量统计数据,统计间隔为1分钟。

Probe视图下,执行fpl-diag命令,其中,“item”显示字段为“XGE1/0/3RxBroadcast”表示XGE1/0/3接口接收的广播报文;“Delta”显示字段表示报文每分钟的增长量。如果有线口发送(Tx)或接收(Rx)方向的广播报文或者组播报文量级较大且波动明显,则存在异常广播或组播报文,需要梳理有线网络。

FPL统计功能的支持情况与设备型号有关,请以实际情况为准。

 

显示本月390分起100分钟内的统计数据

<Sysname> system-view

[Sysname] probe

[Sysname-probe] fpl-diag slot 1 showlogall 3,9,0,100

idx                 item                date       rx         delta

9530 XGE1/0/3RxBroadcast 09:11:36 06/03/2020  2502814          3824

9531 XGE1/0/3RxBroadcast 09:12:36 06/03/2020  2506986          4172

9532 XGE1/0/3RxBroadcast 09:13:36 06/03/2020  2511841          4855

9533 XGE1/0/3RxBroadcast 09:14:36 06/03/2020     3443             0

9534 XGE1/0/3RxBroadcast 09:15:36 06/03/2020     3105             0

如果AC接口报文统计信息未发现异常,则执行步骤(4)。

(4)     查看AC有线口是否存在尖峰流量

查看AC有线口是否存在在瞬时大流量报文进出:

¡     如果存在,需要进一步检查网络中是否存在环路、广播风暴等。

¡     如果不存在,则执行步骤(5

具体操作步骤如下:

  1. 查看有线口是否存在端口接收队列溢出的情形。

在任意视图下,每间隔几秒执行display interface命令,查看接口的报文统计结果。重点关注“overruns”显示字段:如果overruns不为0,说明有线口存在瞬时大流量报文进出,由于端口的接收速率超过接收队列的处理能力,导致报文被丢弃。

<Sysname> display interface gigabitethernet 1/0/1                               

GigabitEthernet1/0/1                                                            

Current state: UP                                                              

Line protocol state: UP                                                        

IP packet frame type: Ethernet II, hardware address: a4fa-7679-b6f0            

……

 Input (total):  58328063 packets, 21043223173 bytes                           

          27274961 unicasts, 14726456 broadcasts, 16326646 multicasts, 0 pauses

显示信息略…

 Input:  31153 input errors, 0 runts, 0 giants, – throttles                     

          0 CRC, – frame, 31153 overruns, 0 aborts                              

          – ignored, – parity errors                                            

显示信息略

  1. 查看有线口是否存在瞬时非单播报文冲击。

广播流量不一定是持续并发,可能存在瞬时大流量冲击,仅通过接口的报文统计信息不一定能发现问题,此时可以通过每间隔几秒执行display counters rate命令的方式,查看接口的报文速率统计信息。

如果AC有线口接收或发送广播报文(或组播报文)的平均速率明显高于单播报文,则说明网络中存在瞬时异常广播组播流量的冲击。

显示接口的报文接收速率统计信息。

<Sysname> display counters rate inbound interface GigabitEthernet 1/0/1

Usage: Bandwidth utilization in percentage                                      

Interface            Usage (%)   Total (pps)   Broadcast (pps)   Multicast (pps)

GE1/0/1                    100        983276             669595             25518

 

 Overflow: More than 14 digits.                                                

       –: Not supported

(5)     查看AC CPU转发进程

无论AC是否支持FPGA硬件转发,大多协议控制报文、部分数据报文会上送CPU处理。

  1. 定位长时间占用CPU的进程。

AC上执行display process cpu命令查看所有进程的CPU使用率信息,定位长时间占用CPU的进程。当AC所有转发进程(kdrvfwd)的CPU使用率超过50%时,表明转发进程过于繁忙,则会出现无线丢包的情况。AC支持转发进程的数量与设备型号有关,例如:WX5500H系列存在16个转发进程,如果某个转发进程CPU使用率超过2.5%,则可能出现无线丢包;如果CPU占比超过3%就会出现明显丢包。

     如果AC CPU转发进程存在异常,则执行步骤“b(可选)通过FPL统计功能查看转发进程丢弃的报文”。

     如果AC CPU转发进程不存在异常,则执行步骤(6)。

显示设备的CUP利用率统计信息。

<Sysname> display process cpu

CPU utilization in 5 secs: 51.4%; 1 min: 52.1%; 5 mins: 52.3%

JID      5Sec      1Min      5Min    Name

显示信息略…

    308      3.2%      3.2%      3.2%    [kdrvfwd16]

    309      3.2%      3.2%      3.0%    [kdrvfwd17]

    310      3.2%      3.2%      3.2%    [kdrvfwd18]

    311      2.6%      3.2%      2.9%    [kdrvfwd19]

    312      3.2%      3.2%      3.2%    [kdrvfwd20]

    313      3.2%      3.2%      3.2%    [kdrvfwd21]

    314      3.2%      3.2%      3.2%    [kdrvfwd22]

    315      2.6%      3.2%      3.1%    [kdrvfwd23]

    316      3.2%      3.2%      3.2%    [kdrvfwd24]

    317      3.2%      3.2%      3.2%    [kdrvfwd25]

    318      3.2%      3.2%      3.2%    [kdrvfwd26]

    319      3.2%      3.2%      3.2%    [kdrvfwd27]

    320      3.2%      3.2%      3.2%    [kdrvfwd28]

显示信息略

  1. (可选)通过FPL统计功能查看转发进程丢弃的报文

排查转发进程是否存在丢包最直接的办法是在Probe视图下,执行fpl-diag命令,查看AC当月7天内的报文数量统计数据,统计间隔为1分钟。其中,“item”显示字段为“PoeDropPkt”表示转发进程丢弃的报文。“Delta”显示字段表示每分钟丢弃的转发报文个数,如果Delta项数值波动明显,则说明转发进程存在丢包。

FPL统计功能的支持情况与设备型号有关,请以实际情况为准。

 

显示本月390分起100分钟内的统计数据

<Sysname> system-view

[Sysname] probe

[Sysname-probe] fpl-diag slot 1 showlogall 3,9,0,100

idx              item                     date      rx         delta

9519       PoeDropPkt      09:00:36 06/03/2020  822506           10

9520       PoeDropPkt      09:01:36 06/03/2020  822521           15

9521       PoeDropPkt      09:02:36 06/03/2020  822540           19

9522       PoeDropPkt      09:03:36 06/03/2020  822596           56

9523       PoeDropPkt      09:04:36 06/03/2020  822608           12

9524       PoeDropPkt      09:05:36 06/03/2020  822638           30

9525       PoeDropPkt      09:06:36 06/03/2020  822665           27

9526       PoeDropPkt      09:07:36 06/03/2020  822690           25

9527       PoeDropPkt      09:08:36 06/03/2020  822707           17

9528       PoeDropPkt      09:09:36 06/03/2020  822722           15

9529       PoeDropPkt      09:10:36 06/03/2020  822739           17

9530       PoeDropPkt      09:11:36 06/03/2020  822755           16

9531       PoeDropPkt      09:12:36 06/03/2020  822781           26

  1. 定位AC转发进程长时间占用CPU的原因。

AC转发进程长时间占用CPU的原因如下:

首先,查看设备是否支持硬件转发。如果设备支持硬件转发,需要查看硬件转发功能是否开启,未开启硬件转发功能会导致无线业务报文上送CPU处理,进而加重的CPU工作负担。

开启WLAN硬件快速转发功能。

<Sysname> system-view

[Sysname] undo wlan fast-forwarding hardware disable

如果设备不支持硬件转发,则所有的无线业务报文需要上送CPU处理。当WLAN网络中存在大量的无线网络设备和无线客户端,AC就需要消耗大部分的CPU资源来处理无线业务报文,可能导致AC的转发性能达到瓶颈,此时可以将“集中转发”修改为“本地转发”。

其次,查看是否存在特殊的业务模型

如果无线网络中,大部分业务是大量的TCP流量(如视频业务),可以尝试修改CAPWAP隧道的MSSMax Segment SizeTCP最大报文段长度)来避免大包报文分片转发,进而减轻分片报文上送CPU处理引起的转发进程繁忙。

配置CAPWAP隧道的TCP最大报文段长度为2000字节。

<Sysname> system-view

[Sysname]wlan tcp mss 2000

(6)     查看AP空口质量

WLAN网络中,由于空口共享传输介质,容易引发空口质量问。在集中转发架构下,出现无线上网卡慢问题需要重点关注空口干扰和空口广播、组播包占比。查看AP空口质量的步骤如下:

  1. 远程登录至AP

开启上线AP的执行控制台(缺省为开启),通过Telnet方式登录至终端关联的AP上,AP的缺省登录密码为h3capadmin

查找当前终端关联AP的名称

<Sysname> display wlan client

Total number of clients: 3

 

MAC address    Username             AP name               R IP address      VLAN

000f-e265-6400 N/A                  ap1                   1 1.1.1.1         200

查找当前终端关联APIP地址

<Sysname> display wlan ap name ap1 verbose

AP name                       : ap1

AP ID                         : 1

AP group name                 : default-group

State                         : Run

Backup type                   : Master

Online time                   : 0 days 1 hours 25 minutes 12 seconds

System uptime                 : 0 days 2 hours 22 minutes 12 seconds

Model                         : WA6320

Region code                   : CN

Region code lock              : Disable

Serial ID                     : 219801A28N819CE0002T

MAC address                   : 0AFB-423B-893C

IP address                    : 192.168.1.50

UDP control port number       : 18313

UDP data port number          : N/A

显示信息略…

开启上线AP的执行控制台,

<Sysname> system-view

[Sysname] probe

[Sysname-probe] wlan ap-execute ap1 exec-console enable

[Sysname-probe] quit

[Sysname] quit

<Sysname> telnet 192.168.1.50

Trying 192.168.1.50 …

Press CTRL+K to abort

Connected to 192.168.1.50 …

* Copyright (c) 2004-2022 New H3C Technologies Co., Ltd. All rights reserved.*

* Without the owner’s prior written consent,                                 *

* no decompiling or reverse-engineering shall be allowed.                    *

******************************************************************************

Password:

<AP1>

  1. 查看空口干扰。

通过display ar5drv radio channelbusy命令查看信道利用率,判断射频繁忙情况。

     如果CtlBusy高于60%时,则表示该射频繁忙,需要调整射频参数(信道、功率、频宽)。

     否则,执行步骤“c查看空口质量”。

查看AP1 Radio1的信道利用率

<AP1> system-view

[AP1] probe

[AP1-probe] display ar5drv 1 channelbusy

 

ChannelBusy information                                                      

 Ctl Channel:    52             Channel Band:   80M                          

 Record Interval(s):  9                                                       

 IdleCheck Delay(s):  0          Measure Delay(s):  0                        

 Date/Month/Year: 22/09/2022                                                 

       Time(h/m/s):   CtlBusy(%) TxBusy(%)  RxBusy(%)  ExtBusy(%)             

 01     03:15:42         68         37         28          –                 

 02     03:15:33         67         36         29          –                 

 03     03:15:24         63         35         26          –                 

 04     03:15:15         78         40         33          –                 

 05     03:15:06         81         43         36          –                 

显示信息略…

  1. 查看空口质量

AP使用最低速率发送广播和组播报文,大量的广播或组播报文占用射频资源,会降低整体网络使用效率,因此需要对AP Radio接口发送的广播和组播报文进行控制。

通过display ar5drv radio statistics命令查看AP射频统计情况,判断空口质量。

<AP1> system-view

[AP1] probe

[AP1-probe] display ar5drv 1 statistics

 

[Radio Statistics]                                                            

 TxFrameAllCnt       : 388216                                                 

 TxFrameAllBytes     : 134143677                                              

 RxFrameAllCnt       : 633177                                                 

 RxFrameAllBytes     : 84402310                                               

                                                                              

[Tx Queue Statistics] 

Queue Number         : 0              1               2               3

 ———————————————————–

 TxFrmCnt            : 353398         24             132            1504     

 TxFrmBytes          : 133247267      1274           21000          269470   

 TxUcastFrmCnt       : 215625         24             132            1504     

 TxUcastFrmBytes     : 87605120       1274           21000          269470    

 TxBcastFrmCnt       : 137773         0              0              0        

 TxMcastFrmCnt       : 0              0              0              0        

 TxMRetryCnt         : 34             0              2              69       

 TxFragCnt           : 0              0              0              0        

 TxDiscardFrm        : 0              0              0              0        

 TxDiscardFrmBytes   : 0              0              0              0        

 TxDataFrmCnt        : 342037         6              131            328      

 TxDataFrmBytes      : 130829678      300            20943          16400    

 TxUDataFrmCnt       : 204264         6              131            328      

 TxHwRetryExc        : 225            1              11             424      

显示信息略

ResetOnErr     : 0

显示信息略

 BeaconBusyCnt      : 2

 BeaconErrCnt       : 0

 

该命令需要重点关注的显示信息如表5-3所示。

表5-3 display ar5drv radio statistics命令重点关注的显示信息

显示字段 描述

TxFrmCnt

空口统计到的发送报文总量

TxUcastFrmCnt

空口统计到的发送单播报文数量

TxBcastFrmCnt

空口统计到的发送广播报文数量

TxMcastFrmCnt

空口统计到的发送组播报文数量

TxDiscardFrm

队列丢弃的报文总数,包括发送失败和队列溢出的报文

BeaconBusyCnt

AP发送Beacon报文的繁忙程度

BeaconErrCnt

AP发送Beacon报文的错误统计

 

如果出现如下情况,则会明显影响无线网络的使用体验,产生Ping包大迟延和丢包现象。此时,需要在AP的以太网接口上配置二层隔离,梳理有线网络流量。

     如果(TxBcastFrmCnt+TxMcastFrmCnt/TxFrmCnt超过50%

     如果TxDiscardFra/TxUcastFrameCnt超过3%

     如果BeaconBusyCntBeaconErrCnt出现增长。

(7)     拨打热线400-810-0504求助。

如果故障仍未排除,请收集如下信息,并拨打H3C客户服务热线400-810-0504寻求帮助。

¡     上述步骤的执行结果。

¡     设备的配置文件、日志信息、告警信息。

¡     Debug命令输出的调试信息

声明:
本站所有文章,如无特殊说明或标注,均为本站原创发布。
任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。