DeepSeek开年发布新论文:提出全新mHC架构,梁文锋现身作者名单
IT之家 1 月 1 日消息,北京时间今天下午,DeepSeek 公布了一篇新论文,提出名为 mHC (流形约束超连接)的新架构。根据介绍,该研究旨在解决传统超连接在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。
这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得一提的是,DeepSeek 创始人兼 CEO 梁文锋也在作者名单之列。
IT之家附摘要部分大意如下:
最近,以超连接(HC)为例的研究通过扩展残差流宽度和多样化连接模式,扩展了过去十年建立的无处不在的残差连接范式。虽然产生了显著的性能提升,但这种多样化从根本上损害了残差连接固有的恒等映射属性,从而导致严重的训练不稳定性和受限的可扩展性,并且还会产生显著的内存访问开销。
为了应对这些挑战,我们提出了流形约束超连接(mHC),这是一个通用框架,可将 HC 的残差连接空间投影到特定的流形上,以恢复恒等映射属性,同时结合严格的基础设施优化以确保效率。
经验实验表明,mHC 对于大规模训练是有效的,可提供切实的性能改进和卓越的可扩展性。我们预计,mHC 作为 HC 的灵活且实用的扩展,将有助于更深入地理解拓扑架构设计,并为基础模型的演进提出有希望的方向。
OpenAI CEO奥特曼被解雇 回应称喜欢在这家公司工作11月18日消息,美国时间周五,人工智能研究公司OpenAI董事会发布公告,宣布首席执行官萨姆·奥特曼(SamAltman)将离职,由首席技术官米拉·穆拉蒂(MiraMurati)担任临时首席执行官。OpenAI董事会在公告中写道:“...
斥资5100万美元,OpenAI将从CEO阿尔特曼投资的初创公司购买AI芯片12月4日消息,据《连线》杂志当地时间周日报道,尽管萨姆・阿尔特曼上月先后经历了解雇、复职的一系列风波,但如果OpenAI在没有阿尔特曼的情况下继续开发ChatGPT,他仍可以从中获利。这是因为在阿尔特曼担任CEO期间...
阿里降价97%,百度免费 大模型价格战打得比“618”还猛5月20日,电商年中大促“618”正式开启,各家电商平台还在忙着统计首日战报,大模型价格战已经率先打响,甚至比618还要猛烈。21日上午,阿里云抛出重磅炸弹,通义千问GPT-4级主力模型Qwen-Long,API(应用程序编程接...
声网发布aPaaS灵动会议 AI成为下一代视频会议的新方向9月24日消息,声网正式发布aPaaS“灵动会议”,该产品采用RTECore和AICore的双引擎深度融合,能够灵活适配多种会议场景业务需求。基于声网自研的AIAgent框架,“灵动会议”能够兼容市场上主流的ASR(自动语音识别)...
别拿OpenAI当初创公司学了,它已经是一个垄断巨头OpenAI找到了与生长在它生态里的大量初创公司的相处之道——方法是它自己正式变成了一个垄断巨头。当地时间11月6日,OpenAI举办首届开发者大会,向外界介绍了正在开发的新工具。OpenAI正推出一次重大更新,让开发者...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...