不想依赖英伟达!微软发布两款自研AI芯片,可训练大模型

yefeng2023-11-16 08:50:37网易科技

11月16日消息,美国时间周三,微软发布了首款自研人工智能(AI)芯片,可用于训练大语言模型,摆脱对英伟达昂贵芯片的依赖。微软还为云基础设施构建了基于Arm架构的CPU。这两款自研芯片旨在为Azure数据中心提供动力,并帮助该公司及其企业客户准备迎接AI时代的到来。

微软的Azure Maia AI芯片和Arm架构Azure Cobalt CPU将于2024年上市。今年,英伟达的H100 GPU需求激增,这些处理器被广泛用于训练和运行生成图像工具和大语言模型。这些GPU的需求非常高,甚至在eBay上的售价超过了4万美元。

微软Azure硬件系统和基础设施主管拉尼·博卡(Rani Borkar)在接受采访时解释说:“微软在芯片开发方面有着悠久的历史。”早在20多年前,微软就与人合作开发了Xbox的芯片,甚至还合作设计了Surface设备的芯片。博卡表示:“这些努力都是建立在这些经验基础之上的。2017年,我们开始构建云硬件堆栈,并开启了这段旅程,使我们走上了构建新自研芯片的轨道。”

新的Azure Maia AI芯片和Azure Cobalt CPU都是由微软内部构建的,并对其整个云服务器堆栈进行了深度检修,以优化性能、功耗和成本。博卡表示:“我们正在重新考虑人工智能时代的云基础设施,并真正优化该基础设施的每一层。”

Azure Cobalt CPU以元素“钴”(钴蓝是重要的蓝色颜料)命名,是一款128核芯片,基于Arm的Neoverse CSS设计,并为微软定制。它旨在为Azure上的通用云服务提供支持。博卡解释称:“我们花了很多心思,不仅要让它具有高性能,还要注意到电源管理。为此我们做了许多有意识的设计选择,包括控制每个内核和每台虚拟机上性能和功耗的能力。”

微软目前正在测试Cobalt CPU的工作负载,如Teams和SQL服务器,并计划明年为客户提供各种工作负载的虚拟机。虽然博卡没有直接将其与亚马逊在AWS上提供的Graviton 3服务器进行比较,但与微软目前用于Azure的基于Arm的服务器相比,应该会有一些明显的性能提升。博卡表示:“我们的初步测试表明,我们的性能比目前使用商用Arm服务器的数据中心提高了40%。” 微软还没有分享完整的系统规格或基准。

微软的Maia 100 AI加速器以“昴宿四”(一颗明亮的蓝色恒星,希腊神话中称为迈亚)命名,专为运行云端人工智能工作负载而设计,如大语言模型训练和推理。它将用于支持该公司在Azure上某些最大的人工智能工作负载,包括与OpenAI高达100多亿美元的合作。微软将为OpenAI的所有工作负载提供支持。这家软件巨头一直在与OpenAI在Maia的设计和测试方面进行合作。

OpenAI首席执行官萨姆·奥特曼(Sam Altman)说:“当微软第一次分享他们的Maia芯片设计时,我们感到非常兴奋。我们一起努力,利用我们的模型来改进和测试它。Azure的端到端人工智能架构现在通过Maia进行了优化,为训练更有能力的模型铺平了道路,并使这些模型对我们的客户来说变得更便宜。”

Maia采用台积电5纳米工艺制造,拥有1050亿个晶体管,比AMD的MI300X AI GPU(1530亿个晶体管)少了30%左右。博卡说:“MAIA支持我们的第一个8位数据类型,即MX数据类型,以便协同设计硬件和软件,这有助于我们支持更快的模型训练和推理时间。”

微软与AMD、Arm、英特尔、Meta、英伟达和高通等公司都加入了一个组织,该组织正在为人工智能模型的下一代数据格式制定标准。同时,微软正在以开放计算项目(OCP)的协作和开放工作为基础,以使整个系统适应人工智能的需求。

博卡透露:“Maia是微软制造的第一个完整的液冷服务器处理器,我们的目标是以更高的效率实现更高的服务器密度。因为我们正在重新构想整个堆栈,我们特意考虑到了每一层,所以这些系统实际上也适合我们目前的数据中心。”

这对微软来说非常关键,因为它可以更快地启动这些人工智能服务器,而不必在世界各地的数据中心重新为它们腾出空间。微软建造了独特的机架用来放置Maia服务器主板,并配有名为“助手”的液体冷却器。它的工作原理就像在汽车或高档游戏PC上搭载的散热器,可以冷却Maia芯片的表面。

除了共享MX数据类型,微软还与合作伙伴共享其机架设计,以便他们可以在内部有其他芯片的系统上使用它们。但Maia芯片的设计不会被更广泛地分享,微软将其保留在内部。

Maia 100目前正在GPT 3.5 Turbo上进行测试,该模型正在支持ChatGPT、Bing AI和GitHub Copilot等工具。微软正处于部署的早期阶段,就像Cobalt一样,该公司还不愿意发布确切的Maia规范或性能基准。

这使得我们很难准确解读Maia将如何与英伟达广受欢迎的H100 GPU、最近发布的H200,甚至AMD最新的MI300X进行比较。博卡也不想进行比较,而是重申,与英伟达和AMD的合作对于Azure人工智能云的未来仍然非常关键。博卡表示:“在云计算运营的规模下,优化和整合堆栈的每一层,以最大限度地提高性能,使供应链多样化,并为我们的客户提供基础设施选择,这真的非常重要。”

供应链的多样化对微软来说同样重要,尤其是考虑到英伟达目前是人工智能服务器芯片的主要供应商,而各家公司一直在竞相购买这些芯片。据估计,为了推进ChatGPT的商业化,OpenAI需要超过3万个英伟达的老款A100 GPU,而微软的自研芯片可以帮助其客户降低人工智能的成本。微软还为自己的Azure云工作负载开发了这些芯片,而不打算将其出售给英伟达、AMD、英特尔和高通等其他公司。

博卡解释称:“我认为这更像是一种互补,而不是与他们竞争。今天,我们在云计算领域同时使用英特尔和AMD的芯片。同样,在人工智能领域,我们也可以同时使用AMD和英伟达的芯片。这些合作伙伴对我们的基础设施非常重要,我们真的希望给我们的客户选择。”

Maia 100和Cobalt 100的命名表明微软已经在设计这些芯片的第二代版本。博卡说:“这是一个系列,不只是一代就结束了,但我们不会分享我们的路线图。”目前还不清楚微软多久会发布一次Maia和Cobalt的迭代,但考虑到人工智能的发展速度,如果Maia 100的继任者以与英伟达H200相似的速度发布(大约20个月),无需为此感到惊讶。

现在的关键是,微软将以多快的速度让Maia运行起来,加快推进其人工智能雄心,以及这些芯片将如何影响人工智能云服务的使用定价。微软还没有准备好谈论这款新服务器的定价,但我们已经看到该公司悄悄地推出了针对Microsoft 365的Copilot,每位用户每月收费30美元。

目前,Microsoft 365版的Copilot仅限于微软的大客户,企业用户必须承诺至少拥有300个用户,才能使用这款新的人工智能Office助手。随着微软本周推出更多的Copilot功能,并对Bing Chat进行了品牌重塑,Maia可能很快就会帮助弥补对支持这些新体验的人工智能芯片的需求。

Meta的MyoSuite2.0通过机器学习模仿幼儿移动

由MetaAI发布的MyoSuite2.0系列,与加拿大麦吉尔大学、美国东北大学和荷兰特文特大学的研究人员合作新项目。该项目将机器学习应用于生物力学控制问题,目的是展示人类水平的灵巧和敏捷。手臂和腿部是该团队迄今为止...

OpenAI组建新团队以评估人工智能的“灾难性风险”

10月27日消息,美国当地时间周四,人工智能研究公司OpenAI宣布组建新团队,以评估和减轻与人工智能相关的“灾难性风险”。OpenAI在周四的声明中表示,这个新团队名为Preparedness,其主要任务是“跟踪、评估、预测和...

英伟达称霸AI芯片领域致初创公司融资难 融资交易数下跌80%

9月12日消息,多位投资者表示,英伟达已经在人工智能(AI)芯片制造领域夺得霸主地位,这令其潜在竞争对手在融资时遭遇更大挑战。在今年第二季度,芯片领域创企在美国的融资交易数量较上年同期下降了80%。英伟达在处...

英伟达发布H200!巩固AI芯片霸主地位

11月14日消息,全球市值最高的芯片制造商英伟达公司,正在升级其H100人工智能处理器,为这款产品增加更多功能,进一步巩固其在人工智能计算市场的领先地位。新款芯片的型号名为H200,将具备使用高带宽内存(HBM3e)...

OpenAI向所有用户开放ChatGPT“自定义指令”功能

8月11日消息,美国当地时间周四,人工智能研究公司OpenAI宣布,它正在向所有用户开放ChatGPT的“自定义指令”功能。所谓的“自定义指令”,是让用户更多地控制ChatGPT的响应方式,包括那些只使用免费服务的用户。该...

上一篇:李开复回应“零一万物开源Yi大模型抄袭LLaMA”质疑
下一篇:亚马逊云科技顾凡:生成式AI赋能制造业的三大优先落地场景