1. 首页 > 互联网 >

摩尔线程深度赋能 DeepSeek 开源周成果:国产显卡技术实力的深度剖析与展现

  3月3日,日前,摩尔线程宣布在 DeepSeek 开源周收官之际,成功实现对 DeepSeek 各个开源项目的全面支持。这一成果涵盖了 FlashMLA、DeepEP、DeepGEMM、DualPipe 以及 Fire - Flyer 文件系统(3FS),充分验证了 MUSA 架构和全功能 GPU 在生态兼容与快速适配方面的强大优势。

  摩尔线程支持 DeepSeek 开源周 “全家桶” 代码合集

  FlashMLA

  FlashMLA 是一款高效的 MLA(Multi - Head Latent Attention)推理内核开源仓库,旨在加速 MLA 机制的计算,特别适用于 DeepSeek 系列模型(如 DeepSeek - V2、V3 和 R1)。摩尔线程基于全新 MUSA Compute Capability 3.1 计算架构,可提供原生 FP8 计算能力,同时升级了高性能线性代数模板库 MUTLASS,快速支持了 FlashMLA。借助 MUTLASS 0.2.0,摩尔线程发布开源仓库 MT - FlashMLA,能够快速对 DeepSeek FlashMLA 进行兼容部署。

  MT - FlashMLA 开源地址:https://github.com/MooreThreads/MT - flashMLA

  MUTLASS FlashAttention3 地址:https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

  DeepEP

  DeepEP 是一个用于 MoE(混合专家)模型训练和推理的开源 EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要 EP 的集群训练。它通过优化通信信道的使用率,显著提升了训练效率。摩尔线程基于 MUSA Compute Capability 3.1 全功能 GPU,第一时间适配了 DeepEP。

  MT - DeepEP 开源地址:https://github.com/MooreThreads/MT - DeepEP

  DeepGEMM

  DeepGEMM 是一个支持密集矩阵与混合专家(MoE)矩阵乘法的 FP8 GEMM 库,为 V3/R1 的训练与推理提供强大动力。这个开源仓库基于高性能通用矩阵乘法(GEMM)的 C++ 模板库进行开发,摩尔线程基于 MUTLASS 在全新 GPU 架构上优化实现了 FP8 矩阵乘法,支持 DeepGEMM 的相应功能。

  MUTLASS FP8 GEMM 地址:

  https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

  https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

  DualPipe

  DualPipe 是 DeepSeek - V3 提出的双向流水线并行算法,通过前向计算与后向计算阶段的计算与通信完全重叠,显著减少了 “流水线气泡”(设备空闲等待)。与传统流水线并行相比,DualPipe 采用双向数据流设计,使数据从两端相向处理,大幅提升了资源利用率与训练效率。摩尔线程依托深度学习框架 Torch - MUSA(已开源)和 MUSA 软件栈全方位的兼容性,实现了对 DualPipe 这一算法的高效支持。MT - DualPipe 可以完整接入摩尔线程 MT - Megatron 框架和 MT - TransformerEngine 框架(即将开源),实现 DeepSeek V3 训练流程的完整复现。

  MT - DualPipe 开源地址:https://github.com/MooreThreads/MT - DualPipe

  Torch - MUSA 开源地址:https://github.com/MooreThreads/Torch_MUSA

  3FS

  Fire - Flyer 文件系统(3FS)是一种利用现代 SSD 和 RDMA 网络的全部带宽的并行文件系统,可以把固态硬盘的带宽性能利用到极致。摩尔线程在一天内完成了高性能分布式文件系统 3FS 的搭建,并高效开发了存储插件,成功实现与夸娥智算集群的无缝集成,为 AI 训练、AI 推理、科学计算等场景提供全栈存储加速方案。

  3FS CSI Driver 地址:https://github.com/MooreThreads/csi - driver - 3fs

  摩尔线程此次全面支持 DeepSeek 开源项目,展现了国产显卡在技术适配与生态建设上的神速进展,为相关领域的发展注入了新的活力。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:/hulianwang/2754.html