阿里云开源推理模型QwQ-32B,性能比肩满血版DeepSeek-R1,通义APP可用

3月6日消息,阿里云开源推理模型QwQ-32B,性能媲美6710 亿参数的DeepSeek-R1。据介绍,QwQ-32B是基于Qwen2.5-32B+强化学习炼成,开发者和企业可以在消费级硬件上轻松将其部署到本地设备中。

用户可以通过Qwen Chat(https://chat.qwen.ai)在线体验访问。 

用户也可通过通义APP免费体验最新的千问QwQ-32B模型。

目前,QwQ-32B 已在Hugging Face和ModelScope魔搭社区开源,采用了 Apache 2.0 开源协议。

所有人都可免费下载模型进行本地部署,或者通过阿里云百炼平台直接调用模型API服务。

对于云端部署需求,用户可通过阿里云PAI平台完成快速部署,并进行模型微调、评测和应用搭建;或是选择容器服务ACK搭配阿里云GPU算力(如GPU云服务器、容器计算服务ACS等),实现模型容器化部署和高效推理。

QwQ-32B团队指出,大规模强化学习(RL)有潜力超越传统的预训练和后训练方法来提升模型性能。近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。

最新的推理模型 QwQ-32B,是一款拥有320亿参数的模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 媲美。

QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

QwQ-32B 模型表现出色,几乎完全超越了OpenAI-o1-mini,比肩最强开源推理模型DeepSeek-R1:在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek-R1。

QwQ-32B团队表示,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,研发团队还在QwQ-32B推理模型中集成了与 Agent 相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

据介绍,在初始阶段,QwQ-32B模型特别针对数学和编程任务进行了 RL 训练。与依赖传统的奖励模型(reward model)不同,通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。随着训练轮次的推进,这两个领域中的性能均表现出持续的提升。在第一阶段的 RL 过后,增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。最后发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。(果青)

扎克伯格650亿美元押注AI Meta股价上演“疯狂过山车”

1月25日消息,据媒体报道,当地时间1月24日,美国科技巨头Meta的CEO扎克伯格在社交平台发帖宣布,Meta公司今年的资本支出将达到600至650亿美元的规模,并且将重点押注于人工智能(AI)领域的发展。扎克伯格在公开声...

亚马逊云科技推出生成式AI合作伙伴计划,首批16家中国企业加入

6月3日消息,在近日的亚马逊云科技中国合作伙伴峰会上,亚马逊云科技升级推出“3+1”合作伙伴战略,聚焦生成式AI、专注行业和业务拓展三大业务战略。生成式AI战略被排在三大业务战略之首,亚马逊云科技将与合作伙伴...

AI聊天机器人都能教唆人类自杀了?

AI大模型,被人视为解放劳动力的利器,同样也是轰炸社会安全的“核武器”。过去一整年,国外的马斯克,国内的周鸿祎等互联网大佬都在讨论AI安全,甚至一些激进派更是直言:如果没有适当的监管,人工智能系统可以强大...

微软和OpenAI联合搞大动作 投资超7200亿元打造AI超算

3月31日消息,据国外媒体报道,微软与OpenAI的高管在探讨一个前所未有的数据中心项目。该项目包括构建一台拥有数百万个专用服务器芯片,名为“星际之门(Stargate)”的人工智能超级计算机,为OpenAI的人工智能技术...

杨元庆:AI绝不是泡沫 联想赌在这方向一定不错

8月16日消息,杨元庆近日公开接受采访时表示,AI绝不是泡沫,联想赌在这个方向上一定不会错。联想集团公布截至2024年6月30日的2024/25财年第一财季业绩:营收1119亿人民币,同比增长20%;按照非香港财务报告准则,净...

上一篇:猎聘上线AI账号 打造招聘全流程AI Agent
下一篇:全球第一款通用Agent!中国AI产品Manus一夜刷屏