默认硬件配置#

我们提供了三个不同的硬件配置,用以更好地对工作流进行仿真。

三种默认配置参数一览#

参数项

配置 A

配置 B

配置 C

cores

36

36

36

资源总览

TC178 TFLOPS HBM27 TB/s

TC288 TFLOPS VC37 TFLOPS / HBM36 TB/s

TC576 TFLOPS VC74 TFLOPS / HBM36 TB/s

Tens.Core(脉动阵列)

32

64

64

非线性计算单元

1024

1024

1024

Vector Core

128

128

128

脉动阵列个数

10

4

8

向量单元个数

32

32

64

SRAM 带宽 (TB/s)

2

2

2

DRAM 带宽(GB/s)

400

533

533

单请求推理性能#

我们对单请求进行了 prefilldecode 的时延测试。 在 8B 模型、tp=4 设置下,三款芯片的 TTFTTBT 均随算力提升而降低,最终可将首 token 时延压缩到 1.2 ms 左右, 连续 token 输出的间隔可低至 9 μs 量级。

Serving 场景吞吐表现#

我们进一步评估了 4B 与 8B 模型在多请求并发下的推理性能。

  • 4B 模型(150 请求 × 51 token) 三种默认配置的吞吐量分别达到:

    • 约 7.7K tokens/s

    • 约 12.1K tokens/s

    • 约 13.5K tokens/s

    在更高带宽配置下,整体 Latency 明显下降至 0.6–0.7 ms 的区间。

  • 8B 模型,tp=4(100 请求 × 51 token)prefill:1, decode:5 典型 serving 比例下,吞吐量分别为:

    • 约 1.79K tokens/s

    • 约 2.33K tokens/s

    • 约 2.96K tokens/s

    随配置提升,可将总延迟从 2.8 ms 降低到 1.7 ms 左右。

总体上,随着算力与带宽的提升,我们的 hybrid-bonding 架构在 prefill、decode 与大规模 serving 场景中均展现了稳定、线性可扩展的性能优势。