默认硬件配置#

我们提供了三个不同的硬件配置，用以更好地对工作流进行仿真。

单请求推理性能#

我们对单请求进行了 prefill 与 decode 的时延测试。在 8B 模型、tp=4 设置下，三款芯片的 TTFT 与 TBT 均随算力提升而降低，最终可将首 token 时延压缩到 1.2 ms 左右，连续 token 输出的间隔可低至 9 μs 量级。

我们进一步评估了 4B 与 8B 模型在多请求并发下的推理性能。

4B 模型（150 请求 × 51 token） 三种默认配置的吞吐量分别达到：
- 约 7.7K tokens/s
- 约 12.1K tokens/s
- 约 13.5K tokens/s
在更高带宽配置下，整体 Latency 明显下降至 0.6–0.7 ms 的区间。
8B 模型，tp=4（100 请求 × 51 token） 在 prefill:1, decode:5 典型 serving 比例下，吞吐量分别为：
- 约 1.79K tokens/s
- 约 2.33K tokens/s
- 约 2.96K tokens/s
随配置提升，可将总延迟从 2.8 ms 降低到 1.7 ms 左右。

总体上，随着算力与带宽的提升，我们的 hybrid-bonding 架构在 prefill、decode 与大规模 serving 场景中均展现了稳定、线性可扩展的性能优势。