DeepSeek发布NSA研究成果,创始人梁文锋亲自参与

yipinquan2025-02-19 14:14:24TechWeb.com.cn

近日,人工智能公司DeepSeek在海外社交平台上发布了一份技术论文报告,聚焦于原生稀疏注意力(NSA)机制的研究。该论文引起了业界的广泛关注,不仅因为其研究内容的创新性,更因为论文的署名中包含了意外的人物。

论文的第一作者袁景阳是在DeepSeek实习期间完成了这项研究,这一成果的取得对他个人以及DeepSeek来说都是一大喜讯。令人感到惊喜的是,DeepSeek的创始人梁文锋也作为著作者之一出现在论文署名中,排名倒数第二,这一举动在业内引起了不小的讨论。

论文摘要指出,DeepSeek团队认识到长上下文建模对于下一代大型语言模型的重要性。然而,现有的标准注意力机制随着序列长度的增加,其高复杂度成为了性能提升的瓶颈。NSA机制的提出,正是为了解决这一问题。

NSA通过高效处理长序列的能力,使模型能够直接处理如整本书籍、代码仓库或长轮对话等大规模数据,极大地扩展了大型语言模型在文档分析、代码生成、复杂推理等领域的应用范围。

此外,NSA针对现代硬件的优化设计不仅提高了推理速度,还降低了预训练的成本,同时保持了模型的性能。在通用基准测试、长文本任务和基于指令的推理中,NSA的表现均能达到或超越全注意力模型。
DeepSeek团队认为,稀疏注意力机制为提高模型效率同时保持能力提供了一条有希望的途径。

根据公开资料,NSA是一种专为长文本训练与推理设计的稀疏注意力机制,它通过动态分层稀疏策略等先进技术,对传统AI模型的训练和推理过程进行了显著优化。
 

奥特曼回归OpenAI后首次公开露面 称AI进步“有点吓人”

据外媒报道,山姆·奥特曼(SamAltman)周一在一场公开论坛上首次露面,这是他在“OpenAI政变风波”后重新出任该公司CEO后首次公开露面。奥特曼在论坛上接受了采访,他再度谈到了人工智能,将由AI引发的技术革命描述...

英伟达预计下一代产品将供不应求 需求远超他们供应能力

2月24日消息,瑞银分析师称英伟达大幅缩短AIGPU交付周期,从8-11个月缩短到3-4个月之后,英伟达官方表示:“我们预计下一代产品(B100)将供不应求。”在最近的一次财报电话会议上,英伟达首席财务官科莱特・克莱斯...

外媒:苹果高管体验ChatGPT后感到恐惧,于是砍掉汽车项目

苹果高层对新兴AI技术深感忧虑,担心这些技术可能威胁到iPhone在全球智能手机市场的主导地位,并有可能取代iOS成为主操作系统。更令他们感到不安的是,新技术还可能催生一个由人工智能驱动的智能主体生态系统,这将...

全球人工智能市场规模今年有望超过6000亿美元 2027年超过10000亿

5月13日消息,据外媒报道,去年年初开始大火的生成式人工智能聊天机器人和大语言模型,为全球人工智能的发展带来了新的方向,也推升了全球人工智能市场的规模,而在厂商纷纷加大人工智能技术研发和应用的情况下,市...

字节跳动相关人士回应“研发AI手机”:实为基于手机的大模型软件解决方案

6月12日消息,据新浪科技,近日有媒体报道称字节跳动“已于两个月前秘密启动”AI手机研发项目。针对以上信息,字节跳动相关人士称:信息不实,实际上是在探索基于手机的大模型软件解决方案,提供给手机厂商参考使用...

上一篇:互联网大厂接入DeepSeek姿势各异,你最看好谁
下一篇:扎克伯格慈善机构突然终止多元化与公平性项目,转向生物与AI领域资助