有望改写AI未来!英伟达全新nGPT使训练速度暴增20倍

wenqingjiejie2024-10-20 17:12:34快科技

快科技10月20日消息,据媒体报道,NVIDIA的最新研究可能彻底改变AI的未来,其研究团队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。

这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。

nGPT架构的核心在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。

这种归一化处理使得输入的token在超球面表面上移动,每一层模型都通过位移来贡献最终的输出预测。

实验结果表明,nGPT在训练时所需的步骤比标准Transformer模型减少了4到20倍,具体加速效果取决于序列长度。

例如,在1k上下文中,训练速度提高了4倍;在4k上下文中,提高了10倍;而在8k上下文中,更是提高了20倍。

研究人员指出,nGPT的优化路径从超球面上的点开始,通过位移来贡献最终的输出预测,其中位移量由MLP和注意力模块定义。

这种方法不仅提高了训练速度,还增强了模型的稳定性。

WPS被指套娃式收费,内部人士称“会员使用AI功能福利期已到”

5月10日消息,金山办公WPS今年4月上线了WPSAI会员,独立于超级会员之外,连续包月25元/月。原有WPS超级会员Pro无法继续使用AI功能,而是需要升级到大会员,引发了网络热议。针对近日消费者反映金山WPS套娃式收费一事...

至强W系列处理器玩转AIGC 成就英特尔单路最强“芯”

3月20日消息,今日英特尔举办了主题为“英特尔单路最强‘芯’——至强W助力玩转AIGC”的分享会,展现了英特尔至强W系列处理器带来的全大核、高性能、内嵌AI加速器、大内存支持、高扩展等特性,并针对产业实际需求提...

海信发布电视行业最强中文大模型 开启电视AI新时代

3月15日,“海信视像AI美好生活”全场景显示新品发布会上,海信正式发布了自研星海大模型,这也是目前电视行业最强中文大模型。在AI的加持下,海信推出全新ULEDX全场景AI计算画质平台和多款旗舰新品。AI技术的快速发...

Humane推迟可穿戴设备Ai Pin发货,首批产品预计4月中旬交付

IT之家2月26日消息,根据硬件初创公司Humane媒体主管山姆・谢弗(SamSheffer)的近日动态,这家企业的首款产品AiPin的交付时间从3月小幅推迟至4月中旬。Humane于2023年11月发布了AiPin。该设备本身不具有屏幕,而是...

Gartner:到2024年底生成式AI智能手机出货量将达2.4亿台

2月26日消息,根据Gartner公司的最新预测,到2024年底,人工智能(AI)个人电脑(PC)和生成式人工智能(生成式AI)智能手机的全球出货量预计将从2023年的2900万台增长至2.95亿台。Gartner预计到2024年底,生成式AI...

上一篇:OpenAI前CTO米拉•穆拉蒂被曝创立新AI公司 拟募资1亿美元
下一篇:苹果AI“拖后腿” 公司内部认为落后行业巨头超2年