DeepSeek代码开源第二弹:DeepEP通信库,优化GPU通信
2月25日消息,继昨天开源Flash MLA后,DeepSeek今日向公众开源了DeepEP——第一个用于MoE模型训练和推理的开源EP通信库。
据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,它为所有GPU内核提供高吞吐量和低延迟,也称为MoE调度和组合。该库还支持低精度操作,包括FP8。
同时,DeepEP针对NVLink(NVLink是英伟达开发的高速互联技术,主要用于GPU之间的通信,提升带宽和降低延迟)到RDMA(远程直接内存访问,一种网络数据传输技术,用于跨节点高效通信)的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。
对于对延迟敏感的推理解码,DeepEP包含一组低延迟内核和纯RDMA,以最大限度地减少延迟。该库还引入了一种基于钩子的通信计算重叠方法,该方法不占用任何SM资源。
DeepSeek称,DeepEP的实现可能与DeepSeek-V3论文略有不同。
DeepSeek还列出了DeepEP的实际性能:
在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。
在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。
DeepEP运行环境要求:
Hopper GPU(以后可能支持更多架构或设备)
Python 3.8及以上版本
CUDA 12.3及以上
PyTorch 2.1及以上版本
NVLink用于内部节点通信
用于节点间通信的RDMA网络
OpenAI发布全新旗舰生成式AI模型GPT-4o:语音对话更流畅,免费提供5月14日消息,OpenAI宣布推出其最新旗舰生成式AI模型GPT-4o,该模型将在未来几周内分阶段集成至OpenAI的各个产品之中。最让人惊喜的是,GPT-4o将免费提供给所有用户使用。OpenAI首席技术官穆里・穆拉蒂(MuriMurati)...
周鸿祎给的流量,能帮哪吒汽车重回榜首吗?7月8日消息,近期,哪吒汽车母公司合众汽车向港交所正式提交上市申请。手握360、奇富科技、花房集团和鲁大师四家上市公司的周鸿祎,将迎来他的第五家上市公司哪吒汽车。从3年前斥资19亿元投资哪吒汽车成为“产品经理...
阿尔特曼回应OpenAI计划推出下一代模型Orion:假消息失控了10月25日消息,今天午间,OpenAI首席执行官山姆・阿尔特曼在X平台回应了近期有关“下一代模型Orion”的报道:fakenewsoutofcontrol(假消息失控了)。附前情提要:今天早些时候有外媒报道称,OpenAI计划今年12月推出...
谷歌推出全新Gemini 1.5 AI模型 质量和计算方面大幅改进IT之家2月16日消息,谷歌近日发布新闻稿,宣布推出全新的Gemini1.5AI模型,标志着该公司的人工智能技术取得了重大飞跃。谷歌表示相比较前代产品Gemini1.0Ultra,1.5新模型在多个方面都取得了长足进步,能够更高效、...
AI改写智能眼镜“爆冷”现状,如今小度也入局?在大模型落地元年,最具想象力的智能穿戴设备,莫过于搭载大模型后长出脑子的AI眼镜——让昔日有些鸡肋的智能眼镜能力大增,在市场扬眉吐气,上演“熹妃回宫”。拿Meta与Ray-Ban合作的AI眼镜来说,截至5月中旬,销量...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...