[SIGCOMM'24] Understanding the Host Network¶

数据中心生产环境中，研究人员注意到节点内互联网络（CPU、内存、PCIe 设备等）的竞争导致应用的端到端性能下降。该篇研究分析节点内各组件的互联行为、产生该现象的原因，以启发设计面向未来的网络栈、操作系统和硬件。

该篇文章的关键思想是基于域划分的信用式流量控制。

引言¶

划分域和通信类型：

两种模式：

实验预备：

C2M：
- Redis：
  - 每个核一个独立服务器，每个服务端对应一个客户端，UNIX Socket 通信
  - 服务端：1M KV 对，其中 V 大小为 1KB，工作集远超 LLC，观察到 cache miss > 95%
P2M：
- FIO：
  - 8MB 顺序读
  - DDIO 对该大小的请求无用
  - 固定给 4 个核，打满 PCIe 带宽

这些内容主要是证明 C2M 和 P2M 设计为不受 Cache 的影响，测试的是真实的内存的带宽。还考虑了其他影响：

修改 Benchmark，更好地控制访存模式。

关闭 prefetch 和 DDIO

用内核网络栈或硬件卸载 RDMA 网络栈产生 P2M 流量，效果相同。

C2M Read：Cache Miss 发生时

C2M Write：Cache Eviction 发生时，数据通路类似。不同的是，写是异步的，请求交给 CHA 后 CPU 就无需等待了，CHA 将请求交给 WRQ 后也无需等待了。

P2M ReadWrite：

主机内互联采用 hop-by-hop 的流控，保证无损：

credit-based flow control：

本文提出的 domain-by-domain 流控泛化了 end-to-end 和 hop-by-hop 流控的概念

吞吐量上界：

C2M-Read + P2M-Write 时，为什么 C2M 性能受影响而 P2M 不受影响？