算力革命再升级 昇腾大EP如何重塑AI推理效率边界
近年来,人工智能领域迎来爆发式增长,大模型技术成为推动行业变革的核心引擎,大模型能力的跃升不断刷新人类对AI潜力的认知。
当OpenAI的GPT-4训练需消耗数数万张GPU卡时,中国AI企业DeepSeek却以“千卡级”算力训练出性能对标国际巨头的模型,这一反差揭示了行业的关键转折点——从单纯追求硬件性能的“军备竞赛”,转向通过工程创新实现算力效率的颠覆性提升。
DeepSeek在开源周里发布的大规模跨节点专家并行(大EP),更是揭开推理服务提高吞吐、降低时延的技术秘诀,掀起大模型推理系统优化的热潮。
以DeepSeek为代表的大模型创新为算力基础设施也带来新的技术趋势:大模型向大量小专家方向演进,性能提升、成本降低开始快速普及;另一方面,少量大专家模式走向高性能摸高,大量小专家向创新普及,未来两种方案并存。
同时,DeepSeek采用的大规模跨节点专家并行,实现性能、吞吐量和并发用户数量的显著提升,成本大幅度降低,也为大模型推理系统采用大规模跨节点专家并行方案提供了可行性。
大规模专家并行EP,就是将专家Expert分布到更多的卡上,可以减少每张卡权重加载的时延,减少权重的显存占用,能够显著的提升单卡并行的路数(batch size)。每个专家计算路数的提升可以提高矩阵乘的效率,从而实现更大的吞吐和更低的时延。同时大规模专家并行EP,更多专家也带来负载均衡、卡间通信的挑战。
尽管大规模跨节点专家并行集群推理能够降低成本,但在实际应用中仍面临专家动态均衡与通信时延等挑战。
昇腾大EP解决方案凭借多项关键技术有效解决了以上挑战,针对专家负载不均的难题,通过自动寻优、自动配比、自动预测、自动降解,实现备份节点和副本专家灵活可扩展、高可用和极致均衡。
针对All-to-All通信优化的难题,昇腾大EP解决方案提出了双流/多维混合并行,其中Prefill micro-batch双流并行,可以实现计算和通信的相互掩盖;MoE expert专家双流并行,实现两条数据流Stream的并行计算;Weight权重预取双流并行,可以把访存和通信并行起来,降低权重加载时间,提升效率。
此外,昇腾MLAPO融合算子也是关键技术之一,降低计算耗时70%。我们知道,MLA预处理阶段,传统方案多算子串行,频繁占用内存、通信等资源,整体计算耗时占比高。而昇腾MLAPO融合算子,将小算子融合成单一算子,Vector和Cube计算并行处理,减少开销降低计算耗时。
在昇腾大EP推动技术普惠的同时,英伟达针对中国市场推出的H20芯片却显露出明显短板。
H20作为英伟达针对中国市场发布的AI芯片,是用于大模型训练普遍采用的H100“低配版”,其AI算力仅为H100的15%,在推理方面,受性能的制约,H20只能在特定模型架构,展现出一定的效能。像DeepSeek采用的是混合专家(MoE)架构,在高batch size场景下,H20极易陷入性能瓶颈,导致时延显著增加,从而无法充分发挥DeepSeek专家并行机制所具有的高吞吐量优势。因此,在大规模高并发的训推场景,H20难以满足实际应用需求。
当DeepSeek证明“小算力亦可挑战巨头”,昇腾大EP则进一步回答:如何让每一焦耳电力、每一美元投入,释放最大AI价值。这场效率革命的意义远超技术参数之争——它标志着AI竞争从“硬件堆叠”转向“工程创新”,最终迈向产业普惠。(御风)
OpenAI承认正研发ChatGPT文本水印:可被单独工具检测到8月5日消息,据媒体报道,OpenAI正深入探索文本水印技术的前沿领域,然而,该公司坦言,这一创新领域仍面临重重技术挑战与待解难题。OpenAI巧妙地设想通过微妙调整ChatGPT生成文本中的词汇选择,来在字里行间编织一...
TechWeb微晚报:英伟达市值周三蒸发近1.5万亿元,苹果回应使用YouTube资源训练AI今日要闻一览:答不上来“9.9和9.11谁大”,周鸿祎解释大模型为什么不识数英伟达市值周三蒸发近1.5万亿元苹果微软亚马逊特斯拉市值也有缩水台积电下半年3nm月产能目标12.5万片,2nm最快2025年Q4量产苹果回应使用YouT...
外滩大会:AI产业实践呈现六大趋势 下一代超级应用是智能体9月5日消息,2024·Inclusion外滩大会在上海开幕。AI产业的发展是本届外滩大会与会专家和企业家热议的话题,无论是企业界的实践,还是专家学者的研究,各方都认为AI产业实践正呈现六大趋势,涵盖小模型、智能体、专...
24小时抓取百万次,Anthropic AI公司被指过度抓取网站数据7月31日消息,金融时报(FT)发布博文,指出AI公司Anthropic虽然声称“要负责任地开发AI”,但通过ClaudeBot机器人过度抓取网站数据,用于训练Claude大语言模型。尽管使用网络爬虫抓取数据是人工智能行业普遍做法,...
英伟达营收亮眼但股价跳水 :AI芯片需求成新挑战2月27日消息,美国当地时间周三美股盘后,英伟达公布了2025财年第四财季财报数据,以及2026财年第一季度的业绩指引,再次引发了业界的广泛讨论。财报显示,英伟达第四财季实现营收393.31亿美元,同比大幅增长78%,高...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...