常见负载的书写方法

目录

常见负载的书写方法#

本页面将列举部分常见的工作负载配置以及对应的书写方法。其中绝大多数的负载均可在我们提供的示例配置中找到。如果希望按照下方的书写指南进行自定义配置，推荐首先阅读自定义工作负载配置的推荐步骤页面。

模型并行（DP、PP、TP）#

在 dataflow 模式中，可以配置多条独立的数据流，使用 source 字段激活多条数据流，从而实现 DP。PP 与 TP 的实现主要依靠原语的编排。在一个工作周期中连续进行多层前向传播，即可达到与 PP 相同的效果。同理，在需要 TP 的算子前及时将数据切分并传播到其他核心上，即可达成 TP。

注意力机制（MHA、GQA、MLA）#

注意力机制默认采用 MHA 的方式，使用参数 R 控制 KV heads 的个数（计算方法见自定义工作负载配置的推荐步骤），即可实现 GQA。对于 MLA，需要使用额外的算子，可参考示例的配置文件。