默认硬件配置#
我们提供了三个不同的硬件配置,用以更好地对工作流进行仿真。
参数项 |
配置 A |
配置 B |
配置 C |
|---|---|---|---|
cores |
36 |
36 |
36 |
资源总览 |
TC178 TFLOPS HBM27 TB/s |
TC288 TFLOPS VC37 TFLOPS / HBM36 TB/s |
TC576 TFLOPS VC74 TFLOPS / HBM36 TB/s |
Tens.Core(脉动阵列) |
32 |
64 |
64 |
非线性计算单元 |
1024 |
1024 |
1024 |
Vector Core |
128 |
128 |
128 |
脉动阵列个数 |
10 |
4 |
8 |
向量单元个数 |
32 |
32 |
64 |
SRAM 带宽 (TB/s) |
2 |
2 |
2 |
DRAM 带宽(GB/s) |
400 |
533 |
533 |
单请求推理性能#
我们对单请求进行了 prefill 与 decode 的时延测试。
在 8B 模型、tp=4 设置下,三款芯片的 TTFT 与 TBT
均随算力提升而降低,最终可将首 token 时延压缩到 1.2 ms 左右,
连续 token 输出的间隔可低至 9 μs 量级。
Serving 场景吞吐表现#
我们进一步评估了 4B 与 8B 模型在多请求并发下的推理性能。
4B 模型(150 请求 × 51 token) 三种默认配置的吞吐量分别达到:
约 7.7K tokens/s
约 12.1K tokens/s
约 13.5K tokens/s
在更高带宽配置下,整体
Latency明显下降至 0.6–0.7 ms 的区间。8B 模型,tp=4(100 请求 × 51 token) 在
prefill:1, decode:5典型 serving 比例下,吞吐量分别为:约 1.79K tokens/s
约 2.33K tokens/s
约 2.96K tokens/s
随配置提升,可将总延迟从 2.8 ms 降低到 1.7 ms 左右。
总体上,随着算力与带宽的提升,我们的 hybrid-bonding 架构在 prefill、decode 与大规模 serving 场景中均展现了稳定、线性可扩展的性能优势。