新版DeepSeek-V3大模型官方报告:超越GPT-4.5,中文写作比R1优

yefeng2025-03-26 11:12:22TechWeb.com.cn

3月25日消息,继在开源平台放出更新版的DeepSeek-V3 模型后,DeepSeek官方正式公布了该模型的具体性能改进情况,包括推理任务表现提高、前端开发能力增强、中文写作升级、中文搜索能力优化,在工具调用、角色扮演、问答闲聊等方面也有一定幅度的能力提升。

DeepSeek V3 模型升级后目前版本号 DeepSeek-V3-0324,用户登录官方网页、APP、小程序进入对话界面后,关闭深度思考即可体验。API 接口和使用方式保持不变。

DeepSeek官方建议:如非复杂推理任务,建议使用新版本 V3 模型,即刻享受速度更加流畅、效果全面提升的对话体验。

DeepSeek-V3-0324 与之前的 DeepSeek-V3 使用同样的 base 模型,仅改进了后训练方法。私有化部署时只需要更新 checkpoint 和tokenizer_config.json(tool calls 相关变动)。模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)。

与 DeepSeek-R1 保持一致,此次DeepSeek-V3-0324的开源仓库(包括模型权重)统一采用 MIT License,并允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。

DeepSeek-V3-0324大模型的优化情况:

推理任务表现提高

新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术,大幅提高了在推理类任务上的表现水平,在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩。

前端开发能力增强

在 HTML 等代码前端任务上,新版 V3 模型生成的代码可用性更高,视觉效果也更加美观、富有设计感。

中文写作升级

在中文写作任务方面,新版 V3 模型基于 R1 的写作水平进行了进一步优化,同时特别提升了中长篇文本创作的内容质量。

中文搜索能力优化

新版 V3 模型可以在联网搜索场景下,对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。(宜月)

OpenAI迎来首位首席营销官,千亿美元AI帝国加速商业化

IT之家12月4日消息,OpenAI正加速推进商业化发展,任命KateRouch为其首位首席营销官(CMO),预示着公司将加大市场推广力度,以应对日益增长的AI产品需求。Rouch曾担任Coinbase的CMO,拥有丰富的市场营销经验,将于1...

马斯克霸气提25%特斯拉投票权要求,否则剥离AI和机器人技术

5月21日消息,埃隆・马斯克简单的“Yes”回帖,引发了外界的广泛关注。附上消息源@Teslaconomics推文截图,表示埃隆・马斯克希望掌控特斯拉25%的投票权,要求国内公司在得克萨斯州重新注册成立,而且要求批准此前的...

掌阅科技利用生成式AI技术解决阅读路上的3道“拦路虎”

5月23日消息,当下,生成式AI技术正在以其强大的创造力和生成能力给数字内容生产带来全新变化,诸多文生图、图生图等沉浸式、高互动性的阅读创新场景加速落地,赋予用户前所未有的阅读感官体验。成立于2008年的掌阅...

ChatGPT被曝泄露私密对话 遭OpenAI否认

1月31日消息,据外媒报道,OpenAI旗下的人工智能聊天机器人ChatGPT再次被曝安全漏洞。据悉,ChatGPT是OpenAI于2022年11月30日推出的一种新型AI聊天机器人工具,可根据用户的要求快速生成文章、故事、歌词、散文、笑...

OpenAI又有两名研发高管离职 CRO和研发副总裁将离开

9月27日消息,据外媒报道,在去年11月份经历了高层动荡的人工智能技术研发商OpenAI,在本周再次迎来了人事地震,首席技术官米拉・穆拉蒂(MiraMurati)在当地时间周三突然宣布将离开,希望有时间和空间做她自己的探...

上一篇:苹果“AI双芯”战略浮出水面:左手自研,右手10亿美元购入英伟达服务器
下一篇:投资人称宇树科技至少已盈利5年 官方回应