寻觅生命中的那一片浅草......

2.6.32-279.5.2.el6.x86_64引起的软中断不均衡

昨天代理反馈游戏卡顿,玩家闹得厉害,ping服务器的时候,延迟非常不稳定,100-400ms不等,找不到原因,研发反馈
玩家反馈卡顿的时间,与大型活动开启时间点吻合,怀疑是玩家较多引起流量过大导致,但看Zabbix监控,该机器流量最大
也只有18Mbit/s而已,带宽未满,不应该这样。

深夜登上去查了些服务器状态,发现软中断集中在CPU0,胸当诡异,经查,有开启irqbalance服务,查网卡中断亲和性也确实
是有设置。肿么不生效呢?百思不得骑姐。

想起最近几天研究cpu中断和RPS/RFS时看到的一文:http://hi.baidu.com/nw207/item/ab9098411d76ab31fa896027
里面有提到博通网卡,因为开启MSI而导致CPU中断亲和性不生效的问题,难道是网卡驱动引起?然后看了下网卡的驱动,并
以另外一台CPU软中断均衡的作对比。

一、系统环境
CentOS 6.2 64bit,开启了irqbalance服务

网卡型号
Ethernet controller: Broadcom Corporation NetXtreme BCM5719 Gigabit Ethernet PCIe (rev 01)

二、有问题机器:

1、内核:2.6.32-279.5.2.el6.x86_64

2、网卡驱动信息
driver: tg3
version: 3.122
firmware-version: 5719-v1.33 NCSI v1.0.60.0
bus-info: 0000:03:00.0

三、没有问题机器

1、内核:2.6.32-358.14.1.el6.x86_64

2、网卡驱动信息
driver: tg3
version: 3.124
firmware-version: 5719-v1.33 NCSI v1.0.60.0
bus-info: 0000:03:00.0

四、测试

手头上刚好有一台同配置机器,内核是CentOS6.2默认版本,2.6.32-220.el6.x86_64,

题外话,此版本内核,CPU软中断是正常的,但因为它在约220天的时候,会莫名宕机,所以我们一般是把它升级为2.6.32-279.5.2.el6.x86_64

好,我升级将它升级到2.6.32-279.5.2.el6.x86_64,重启机器,发现CPU软中断马上集中在CPU0
然后我再升级到2.6.32-358.14.1.el6.x86_64,重启,CPU软中断马上均衡了,至此,问题解决,安排了生产服维护,升级内核。

2024年三月
« 5月    
 123
45678910
11121314151617
18192021222324
25262728293031