DeepSeek代码开源第二弹:DeepEP通信库,优化GPU通信

qingsheng2025-02-25 15:33:55TechWeb.com.cn

2月25日消息,继昨天开源Flash MLA后,DeepSeek今日向公众开源了DeepEP——第一个用于MoE模型训练和推理的开源EP通信库。

据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,它为所有GPU内核提供高吞吐量和低延迟,也称为MoE调度和组合。该库还支持低精度操作,包括FP8。

同时,DeepEP针对NVLink(NVLink是英伟达开发的高速互联技术,主要用于GPU之间的通信,提升带宽和降低延迟)到RDMA(远程直接内存访问,一种网络数据传输技术‌,用于跨节点高效通信)的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。

对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法,该方法不占用任何SM资源。

DeepSeek称,DeepEP的实现可能与DeepSeek-V3论文略有不同。

DeepSeek还列出了DeepEP的实际性能:

在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。

在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。

DeepEP运行环境要求:

Hopper GPU(以后可能支持更多架构或设备)

Python 3.8及以上版本

CUDA 12.3及以上

PyTorch 2.1及以上版本

NVLink用于内部节点通信

用于节点间通信的RDMA网络

OpenAI发布全新旗舰生成式AI模型GPT-4o:语音对话更流畅,免费提供

5月14日消息,OpenAI宣布推出其最新旗舰生成式AI模型GPT-4o,该模型将在未来几周内分阶段集成至OpenAI的各个产品之中。最让人惊喜的是,GPT-4o将免费提供给所有用户使用。OpenAI首席技术官穆里・穆拉蒂(MuriMurati)...

周鸿祎给的流量,能帮哪吒汽车重回榜首吗?

7月8日消息,近期,哪吒汽车母公司合众汽车向港交所正式提交上市申请。手握360、奇富科技、花房集团和鲁大师四家上市公司的周鸿祎,将迎来他的第五家上市公司哪吒汽车。从3年前斥资19亿元投资哪吒汽车成为“产品经理...

阿尔特曼回应OpenAI计划推出下一代模型Orion:假消息失控了

10月25日消息,今天午间,OpenAI首席执行官山姆・阿尔特曼在X平台回应了近期有关“下一代模型Orion”的报道:fakenewsoutofcontrol(假消息失控了)。附前情提要:今天早些时候有外媒报道称,OpenAI计划今年12月推出...

谷歌推出全新Gemini 1.5 AI模型 质量和计算方面大幅改进

IT之家2月16日消息,谷歌近日发布新闻稿,宣布推出全新的Gemini1.5AI模型,标志着该公司的人工智能技术取得了重大飞跃。谷歌表示相比较前代产品Gemini1.0Ultra,1.5新模型在多个方面都取得了长足进步,能够更高效、...

AI改写智能眼镜“爆冷”现状,如今小度也入局?

在大模型落地元年,最具想象力的智能穿戴设备,莫过于搭载大模型后长出脑子的AI眼镜——让昔日有些鸡肋的智能眼镜能力大增,在市场扬眉吐气,上演“熹妃回宫”。拿Meta与Ray-Ban合作的AI眼镜来说,截至5月中旬,销量...

TAG:DeepSeek AI
上一篇:Intel与三星显示签署合作备忘录,共同开发AI设备专用显示器
下一篇:微软首席执行官纳德拉透露将推出基于AI模型“Muse”的视频游戏