常见负载的书写方法#

本页面将列举部分常见的工作负载配置以及对应的书写方法。其中绝大多数的负载均可在我们提供的示例配置中找到。如果希望按照下方的书写指南进行自定义配置,推荐首先阅读 自定义工作负载配置的推荐步骤 页面。

模型并行(DP、PP、TP)#

在 dataflow 模式中,可以配置多条独立的数据流,使用 source 字段激活多条数据流,从而实现 DP。PP 与 TP 的实现主要依靠原语的编排。在一个工作周期中连续进行多层前向传播,即可达到与 PP 相同的效果。同理,在需要 TP 的算子前及时将数据切分并传播到其他核心上,即可达成 TP。

注意力机制(MHA、GQA、MLA)#

注意力机制默认采用 MHA 的方式,使用参数 R 控制 KV heads 的个数(计算方法见 自定义工作负载配置的推荐步骤),即可实现 GQA。 对于 MLA,需要使用额外的算子,可参考示例的配置文件。