专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
今天看啥  ›  专栏  ›  企业存储技术

RDMA网络配置相关的性能问题总结

企业存储技术  · 公众号  · 科技投资 科技自媒体  · 2024-09-07 08:30

主要观点总结

本文介绍了在IB/RoCE网络环境中遇到的一些网络配置问题,包括网卡降级、网络拓扑问题、无损网络配置问题、网卡软中断CPU争用问题、网卡时延问题等,并提供了相应的解决方案。

关键观点总结

关键观点1: 网卡降级

网卡降级会导致读写带宽降低,达不到网卡上限。可以通过执行命令lspci查看网卡信息,关注是否有降级的情况。

关键观点2: 网络拓扑问题

网络拓扑配置错误可能导致性能下降。以zStorage为例,典型的3节点网络拓扑结构包含1个计算节点、3个存储节点和两台IB交换机。两个交换机之间需要有两根连线以保证不同网段的IB卡可以正常通信。

关键观点3: 无损网络配置问题

IB网络默认是无损网络,但在RoCE下需要单独配置PFC/ECN功能来实现无损网络。当多个压力节点发送网络负载到同一目标节点时,可能会出现丢包现象,导致性能波动下降。

关键观点4: 网卡软中断CPU争用问题

在zStorage测试融合部署模式下,可能出现网卡软中断与zStorage进程争抢CPU的情况,导致性能波动。可以通过手动(或脚本化)地将网卡产生的中断绑定到其他空闲的CPU核心上解决。

关键观点5: 网卡时延问题

测试Intel IB网卡时可能出现IO时延异常的问题。通过更换Linux内核可解决问题。


文章预览

注:本文内容引用自张洋老师的知乎文章  https://zhuanlan.zhihu.com/p/717483769,他 是一位存储研发专家。 在IB/RoCE网络环境中,经常会遇到一些网络相关的配置不当问题,这些问题可能导致性能出现降级。本文对这些问题做一个总结,以供记录备忘。 网卡降级 编者注:上图示例情况,应该是PCIe从3.0的速率8GT/s降到2.0标准。 网卡降级会明显导致读写带宽 测试时带宽打不满网卡上限。例如,有两张100G的IB卡 ,那么读带宽测试应该达到22GB/s以上的带宽。如果出现一张卡降级,两张卡的带宽表现大概在17GB/s左右;如果出现两张卡同时降级,两张卡的带宽表现在12GB/s左右。出现上述带宽不符合预期的情况时,便可以检查是否有网卡降级的情况。 通过执行命令  lspci | grep Mell ,可以发现有两张迈洛斯 的IB网卡。其中一张的PCI地址为  17:00.0 ,另一张的PCI地址为  ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览