有望改写AI未来!英伟达全新nGPT使训练速度暴增20倍
快科技10月20日消息,据媒体报道,NVIDIA的最新研究可能彻底改变AI的未来,其研究团队提出了一种名为归一化Transformer(nGPT)的新型神经网络架构。
这一架构在超球面(hypersphere)上进行表示学习,能够显著提升大型语言模型(LLM)的训练速度,最高可达20倍,同时保持了模型的精度。
nGPT架构的核心在于将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态,归一化为单位范数。
这种归一化处理使得输入的token在超球面表面上移动,每一层模型都通过位移来贡献最终的输出预测。
实验结果表明,nGPT在训练时所需的步骤比标准Transformer模型减少了4到20倍,具体加速效果取决于序列长度。
例如,在1k上下文中,训练速度提高了4倍;在4k上下文中,提高了10倍;而在8k上下文中,更是提高了20倍。
研究人员指出,nGPT的优化路径从超球面上的点开始,通过位移来贡献最终的输出预测,其中位移量由MLP和注意力模块定义。
这种方法不仅提高了训练速度,还增强了模型的稳定性。
WPS被指套娃式收费,内部人士称“会员使用AI功能福利期已到”5月10日消息,金山办公WPS今年4月上线了WPSAI会员,独立于超级会员之外,连续包月25元/月。原有WPS超级会员Pro无法继续使用AI功能,而是需要升级到大会员,引发了网络热议。针对近日消费者反映金山WPS套娃式收费一事...
至强W系列处理器玩转AIGC 成就英特尔单路最强“芯”3月20日消息,今日英特尔举办了主题为“英特尔单路最强‘芯’——至强W助力玩转AIGC”的分享会,展现了英特尔至强W系列处理器带来的全大核、高性能、内嵌AI加速器、大内存支持、高扩展等特性,并针对产业实际需求提...
海信发布电视行业最强中文大模型 开启电视AI新时代3月15日,“海信视像AI美好生活”全场景显示新品发布会上,海信正式发布了自研星海大模型,这也是目前电视行业最强中文大模型。在AI的加持下,海信推出全新ULEDX全场景AI计算画质平台和多款旗舰新品。AI技术的快速发...
Humane推迟可穿戴设备Ai Pin发货,首批产品预计4月中旬交付IT之家2月26日消息,根据硬件初创公司Humane媒体主管山姆・谢弗(SamSheffer)的近日动态,这家企业的首款产品AiPin的交付时间从3月小幅推迟至4月中旬。Humane于2023年11月发布了AiPin。该设备本身不具有屏幕,而是...
Gartner:到2024年底生成式AI智能手机出货量将达2.4亿台2月26日消息,根据Gartner公司的最新预测,到2024年底,人工智能(AI)个人电脑(PC)和生成式人工智能(生成式AI)智能手机的全球出货量预计将从2023年的2900万台增长至2.95亿台。Gartner预计到2024年底,生成式AI...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
软银正在开发日本版ChatGPT 计划明年推出
软银公司正在积极投入到AI相关技术的研发中,其CEO孙正义曾豪言,“如果不能拥抱AI便是失去未来”。目前,...
研究人员发布了针对ChatGPT和其他LLM的攻击算法
卡内基梅隆大学(CMU)的研究人员发表了LLMAttacks,这是一种用于构建针对各种大型语言模型(LLM)的对抗攻击...