.. _default_hw_config:

默认硬件配置
================

我们提供了三个不同的硬件配置，用以更好地对工作流进行仿真。

.. table:: 三种默认配置参数一览
   :align: center

   +----------------------+--------------------------+------------------------------+------------------------------+
   | 参数项               | 配置 A                   | 配置 B                       | 配置 C                       |
   +======================+==========================+==============================+==============================+
   | cores                | 36                       | 36                           | 36                           |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | 资源总览             | TC178 TFLOPS             | TC288 TFLOPS                 | TC576 TFLOPS                 |
   |                      | HBM27 TB/s               | VC37 TFLOPS / HBM36 TB/s     | VC74 TFLOPS / HBM36 TB/s     |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | Tens.Core（脉动阵列）| 32                       | 64                           | 64                           |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | 非线性计算单元       | 1024                     | 1024                         | 1024                         |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | Vector Core          | 128                      | 128                          | 128                          |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | 脉动阵列个数         | 10                       | 4                            | 8                            |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | 向量单元个数         | 32                       | 32                           | 64                           |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | SRAM 带宽 （TB/s）   | 2                        | 2                            | 2                            |
   +----------------------+--------------------------+------------------------------+------------------------------+
   | DRAM 带宽（GB/s）    | 400                      | 533                          | 533                          |
   +----------------------+--------------------------+------------------------------+------------------------------+

单请求推理性能
--------------

我们对单请求进行了 ``prefill`` 与 ``decode`` 的时延测试。  
在 8B 模型、``tp=4`` 设置下，三款芯片的 ``TTFT`` 与 ``TBT``  
均随算力提升而降低，最终可将首 token 时延压缩到 **1.2 ms 左右**，
连续 token 输出的间隔可低至 **9 μs** 量级。

Serving 场景吞吐表现
---------------------

我们进一步评估了 4B 与 8B 模型在多请求并发下的推理性能。

* **4B 模型（150 请求 × 51 token）**  
  三种默认配置的吞吐量分别达到：

  - **约 7.7K tokens/s**
  - **约 12.1K tokens/s**
  - **约 13.5K tokens/s**

  在更高带宽配置下，整体 ``Latency`` 明显下降至 **0.6–0.7 ms** 的区间。

* **8B 模型，tp=4（100 请求 × 51 token）**  
  在 ``prefill:1, decode:5`` 典型 serving 比例下，吞吐量分别为：

  - **约 1.79K tokens/s**
  - **约 2.33K tokens/s**
  - **约 2.96K tokens/s**

  随配置提升，可将总延迟从 **2.8 ms** 降低到 **1.7 ms** 左右。

总体上，随着算力与带宽的提升，我们的 hybrid-bonding 架构在 
prefill、decode 与大规模 serving 场景中均展现了稳定、线性可扩展的性能优势。