李开复回应“零一万物开源Yi大模型抄袭LLaMA”质疑
11月15日消息,近日,创新工场董事长兼 CEO 李开复创办的AI大模型创业公司“零一万物”推出 Yi-34B 和 Yi-6B 两大开源大模型。
然而在 Yi-34B 的 Hugging Face 开源主页上,有开发者质疑该模型使用了 Meta LLaMA 的架构,只对两个张量(Tensor)名称进行了修改等等。
对此,零一万物正式公开了对 Yi-34B 训练过程的说明。李开复也转发了该说明,并表示:“零一万物 Yi-34B 模型训练的说明也回应这两天大家对于模型架构的探讨。全球大模型架构一路从 GPT2 --> Gopher --> Chinchilla --> Llama2-> Yi,行业逐渐形成大模型的通用标准 (就像做一个手机app开发者不会去自创 iOS、Android 以外的全新基础架构)。01.AI 起步受益于开源,也贡献开源,从社区中虚心学习,我们会持续进步”。
以下为:零一万物对 Yi-34B 训练过程的说明
就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于Transformer的架构,做attention,activation,normalization,positional embedding等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。
模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也逐步形成共识。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。
零一万物在训练模型过程中,沿用了GPT/LLaMA的基本架构,由于LLaMA社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从3PB原始数据精选到3T token高质量数据)。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。
零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了Group Query Attention(GQA)、Multi-Head Attention(MHA)、Vanilla Attention 并选择了GQA,实验了Pre-Norm和Post-Norm在不同网络宽度和深度上的变化,并选择了Pre-Norm,使用了 RoPE ABF作为positional embedding等。也正是在这些实验与探索过程中,为了执行对比实验的需要,模型对部分推理参数进行了重新命名。
在零一万物初次开源过程中,我们发现用和开源社区普遍使用的LLaMA 架构会对开发者更为友好,对于沿用LLaMA部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。
我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布Chat Model之后,我们将择期发布技术报告,Yi Open-source会尽最大努力虚心学习,持续进步。
上海举办国内首个 AI 音乐会IT之家4月15日消息,4月13日至14日,上海民族乐团国乐与AI音乐会《零・壹|中国色》,在第39届上海之春国际音乐节首演,这是全国首台AI创作的国乐音乐会。据悉,《零・壹|中国色》由上海民族乐团、腾讯音乐娱乐集团...
魅族宣布不再做手机,All in AI还来得及吗?假期复工第一天,魅族就迫不及待放了大招。魅族官方微博发布公告,停止传统智能手机(魅族21Pro、魅族22、魅族23等)新项目的开发,后续将AllinAI,把精力转投到新的AI设备探索上。至于下一部AI硬件设备是什么,魅族...
8.23 中国大模型「顶流群聊」笔记文|张鹏国内的科技创新历史上,从没有哪一次像大模型技术这样,短短几个月就建立了「科技圈共识」。我1998年入行科技圈,见证了PC时代、互联网时代、移动互联网时代这几个时代变迁,从来没见过这么迅猛的「共识达成...
创始人王慧文退出 美团成AI公司光年之外唯一股东8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文退股,美团旗下天津三快科技有限公司成唯一股东。据了解,光年之外是国内领先的AGI创新企业,由王慧文创立...
AI搜索,革了旧引擎的命2023年,是属于AI生成式大模型的一年,新生力量不断跻身竞技场,大厂们也在入局、围猎新的场景。到了2024年,AI竞技场演变成斗争更加激烈的“修罗场”,信息量与应用需求迎来大激增,单纯的聊天机器人已经满足不了与...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...