阿里视频生成大模型万相2.1开源!效果超Sora,消费级显卡就能跑

along2025-02-27 10:02:02TechWeb.com.cn

2月27日消息,大模型开源的风吹到了视频生成大模型。阿里云日前放出重磅消息:万相,开源!

阿里云视频生成大模型万相2.1(Wan)正式开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace、魔搭社区下载体验。

从2023年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过10万个。随着万相的开源,阿里云实现了全模态、全尺寸的开源。

四个开源模型

此次开源共有四个模型,文生和图生各两个,两个参数版本。两个文生视频模型分别是1.3B和14B两个规格;两个图生视频模型都是14B,分辨率一个480P一个720P。

14B版本万相模型:在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。

1.3B版本万相模型:不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。

有用户表示,1.3B的万象模型在RTX4090上跑一条5秒钟的480P视频的时间大概只要4分钟。

阿里云特别强调,万相2.1(Wan)大模型是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。

实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相表现出色,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能稳定呈现人物的旋转、跳跃等高难度动作,并逼真模拟物体碰撞、反弹和切割等真实物理效果。

良好表现的背后,是基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。

阿里展示了诸多万相大模型生成的视频,大家看看效果:

开源地址:

Github: https://github.com/Wan-Video

HuggingFace: https://huggingface.co/Wan-AI

魔搭社区:https://modelscope.cn/organization/Wan-AI

亚马逊AWS宣布在印度马哈拉施特拉邦投资83亿美元,建设AI云基础设施

1月23日消息,亚马逊云科技今日宣布,作为到2030年在印投资127亿美元计划的一部分,将向印度马哈拉施特拉邦云基础设施投资83亿美元(备注:当前约604亿元人民币)。此举将进一步扩大亚马逊云科技在印度的云计算能力...

苹果 Siri 接入 ChatGPT AI 后能力突飞猛进:用户看图片 / 视频时可回答相关问题

IT之家10月25日消息,科技媒体9to5Mac昨日(10月24日)发布博文,报道称在iOS18.2首个Beta版本更新中,苹果为Siri接入了ChatGPTAI聊天体验,并解锁了诸多新技能,而其中一项就是用户可以询问Siri当前屏幕内容。Siri...

消息称英伟达有意参与马斯克旗下xAI数十亿美元融资

11月5日消息,知情人士透露,埃隆・马斯克旗下AI初创公司xAI正打算以约450亿美元(当前约3200.68亿元人民币)的估值筹集50亿美元资金,投资者可能包括红杉资本、AndreessenHorowitz和VyCapital等风投公司。据TheInfo...

顺网科技在算力及AI两大业务板块推出全新产品及业务

今日顺网科技以“跃迁·向未来”为主题的战略升级暨产品升级发布会在杭州圆满召开。发布会上,顺网科技公布了新战略——“立足算力,聚焦AI”,并揭晓了全新的品牌标识。围绕该战略,顺网科技在算力及AI两大业务板块...

OpenAI“宫斗”关键人物离职一个月后官宣创业 还拉来了苹果前AI高管

6月20日消息,据外媒报道,在去年11月份OpenAI高层的突然变动中,联合创始人兼首席科学家伊尔亚•苏茨克维(IlyaSutskever)被外界认为是关键人物,他在解除CEO萨姆•奥尔特曼的职务及随后将他请回的过程中,都被认...

上一篇:后DeepSeek时刻:阿里Qwen冲C端,腾讯元宝超越豆包
下一篇:没网也能用AI 极氪宣布完成座舱端侧大模型离线部署