主要观点总结
本文介绍了在IB/RoCE网络环境中遇到的一些网络配置问题,包括网卡降级、网络拓扑问题、无损网络配置问题、网卡软中断CPU争用问题、网卡时延问题等,并提供了相应的解决方案。
关键观点总结
关键观点1: 网卡降级
网卡降级会导致读写带宽降低,达不到网卡上限。可以通过执行命令lspci查看网卡信息,关注是否有降级的情况。
关键观点2: 网络拓扑问题
网络拓扑配置错误可能导致性能下降。以zStorage为例,典型的3节点网络拓扑结构包含1个计算节点、3个存储节点和两台IB交换机。两个交换机之间需要有两根连线以保证不同网段的IB卡可以正常通信。
关键观点3: 无损网络配置问题
IB网络默认是无损网络,但在RoCE下需要单独配置PFC/ECN功能来实现无损网络。当多个压力节点发送网络负载到同一目标节点时,可能会出现丢包现象,导致性能波动下降。
关键观点4: 网卡软中断CPU争用问题
在zStorage测试融合部署模式下,可能出现网卡软中断与zStorage进程争抢CPU的情况,导致性能波动。可以通过手动(或脚本化)地将网卡产生的中断绑定到其他空闲的CPU核心上解决。
关键观点5: 网卡时延问题
测试Intel IB网卡时可能出现IO时延异常的问题。通过更换Linux内核可解决问题。
文章预览
注:本文内容引用自张洋老师的知乎文章 https://zhuanlan.zhihu.com/p/717483769,他 是一位存储研发专家。 在IB/RoCE网络环境中,经常会遇到一些网络相关的配置不当问题,这些问题可能导致性能出现降级。本文对这些问题做一个总结,以供记录备忘。 网卡降级 编者注:上图示例情况,应该是PCIe从3.0的速率8GT/s降到2.0标准。 网卡降级会明显导致读写带宽 测试时带宽打不满网卡上限。例如,有两张100G的IB卡 ,那么读带宽测试应该达到22GB/s以上的带宽。如果出现一张卡降级,两张卡的带宽表现大概在17GB/s左右;如果出现两张卡同时降级,两张卡的带宽表现在12GB/s左右。出现上述带宽不符合预期的情况时,便可以检查是否有网卡降级的情况。 通过执行命令 lspci | grep Mell ,可以发现有两张迈洛斯 的IB网卡。其中一张的PCI地址为 17:00.0 ,另一张的PCI地址为
………………………………