DeepSeek代码开源第三弹:DeepGEMM代码库,V3/R1的训练推理动力
2月26日消息,在宣布开源MLA解码核FlashMLA以及DeepEP两款代码库后,DeepSeek在开源周的第三天宣布开放DeepGEMM代码库。
DeepSeek介绍,DeepGEMM是专为简洁高效的FP8通用矩阵乘法(GEMMs)而设计,它同时支持普通的和专家混合(MoE)分组的GEMM运算,为V3/R1训练和推理提供动力支持。该库使用CUDA编写,在安装过程中无需编译,通过在运行时使用轻量级即时编译模块来编译所有内核。
目前,DeepGEMM仅支持英伟达Hopper架构运算,为解决FP8张量核心累加不精确的问题,它采用了CUDA核心的两级累加(提升)方法。该代码库设计非常简洁,只有一个核心内核函数,代码量约为300行。
尽管其设计轻巧,DeepGEMM的性能在各种矩阵形状上与专家调优的库相匹配或超越。
DeepSeek团队在H800上使用NVCC 12.8测试了DeepSeek-V3/R1推理中可能使用的所有形状(包括预填充和解码,但没有张量并行)。
从测试结果来看,DeepGEMM计算性能最高可达1358 TFLOPS,内存宽带最高可达2668 GB/s。与基于CUTLASS 3.6的优化实现相比,可提速最高可达2.7倍。另外,分组GEMM(MoE模型)中连续性布局、掩码布局下可提速多达1.2倍。
另外,使用DeepGEMM需要的环境要求,包括:
* 必须支持Hopper架构的GPU,sm_90a
* Python 3.8及以上
* CUDA 12.3及以上(推荐12.8)
* PyTorch 2.1及以上
* CUTLASS 3.6及以上
马斯克的xAI正式发布API,开发者可将Grok集成到其他应用10月22日消息,埃隆・马斯克的人工智能公司xAI正式发布了其应用程序编程接口(API),允许开发者将Grok集成到其他应用程序中。马斯克在周一宣布了这一消息,并同时在xAI网站上发布了该接口的链接。此前,马斯克曾在8...
OpenAI o1预览模型发布:推理能力更强 可达理科博士生水准9月13日消息,今日凌晨,OpenAI正式推出了OpenAIo1预览模型。对于复杂推理任务而言,新模型代表着人工智能能力的崭新水平,其特点就是会在回答之前花更多时间进行思考,就像人类思考解决问题的过程一样。OpenAI曾解...
苹果招募生成式AI人才 提供数十个大模型岗位根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等产品。这一举措显示出苹果对生成式人工智能的强烈兴趣,并致力于不断提升其在移动设备上的性能。通过在全球...
奥特曼称相信AI无法替代人类 要小心但不要恐惧OpenAI的CEO萨姆·奥特曼(SamAltman)近日在达沃斯论坛上谈到了他对AI的看法,他的核心观点是“要小心,但不要恐惧”。当地时间1月18日,奥特曼参与了2024年冬季达沃斯经济论坛的一个分论坛,主题是“技术在动荡世...
AI聊天机器人Claude 2.1版本公布,支持输入20万个Token超GPT-4 TurboIT之家11月23日消息,OpenAI竞争对手Anthropic日前推出了Claude2.1聊天机器人及对应同名AI模型,Claude2.1支持输入多达20万个Token,并改善了准确度,同时新增系统预设提示词(SystemPrompt)功能。官方介绍称,此前...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...