零一万物向量数据库新突破!笛卡尔(Descartes)获六项第一

3月11日消息,在国际权威评测平台ANN-Benchmarks离线测试中,零一万物笛卡尔(Descartes)向量数据库登顶 6份数据集评测第一名。

“笛卡尔(Descartes)”是零一万物研发出的基于全导航图的新型向量数据库,是能影响大模型性能表现的基础设施;ANN-Benchmarks是当下业界最权威的向量数据库性能测试工具,它可以展示不同算法在不同真实数据集下的表现。

笛卡尔(Descartes)首次亮相ANN-Benchmarks评测榜单即包揽了六项第一,最高领先原榜单第一名286%。

零一万物表示,笛卡尔向量数据库目前聚焦于高性能向量数据库。笛卡尔向量数据库将用在近期即将正式亮相的AI产品中,未来也将结合工具提供给开发者。

六项第一

ANN-Benchmarks公布的6份评测数据集涵盖glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean六大数据集。

如下图,横坐标代表召回、纵坐标代表QPS(每秒内处理的请求数),曲线位置越偏右上角意味着算法性能越好,零一万物笛卡尔向量数据库在6项数据集评测中都处于最高位。


图注:截至3月10日,ANN-Benchmarks6项评测中,零一万物笛卡尔(Descartes)向量数据库均居第一

“吞吐量 QPS” 是衡量信息检索系统(例如搜索引擎或数据库)查询处理能力的重要指标。在原榜单TOP1基础上,零一万物笛卡尔向量数据库实现了显著性能提升,部分数据集上的性能提升超过2倍以上,在gist-960-euclidean数据集维度更大幅领先榜单原TOP1 286%。

笛卡尔(Descartes)背后技术

向量数据库,又被称为AI时代的信息检索技术,是检索增强生成(Retrieval-Augmented Generation, RAG)内核技术之一。

大模型时代,图片、视频、自然语言等多模态的非结构化数据量陡增,区别于用来处理结构化数据的传统数据库,向量数据库专门用来存储、管理、查询和检索向量化的非结构化数据。

因此,对大模型应用开发者来说,向量数据库是非常重要的基础设施,在一定程度上影响着大模型的性能表现。

未来各家大模型优化到一定程度后,向量数据库的能力可能决定各家大模型的天花板。

此次零一万物笛卡尔向量数据库展示出优异表现,其背后又做了哪些方面的技术创新呢?

和传统检索方法类似,从本质上讲,RAG向量检索主要解决两大问题:

1. 通过建立某种索引结构,减少检索考察的候选集;

2. 降低单个向量计算的复杂度。

据介绍,针对第1个问题,零一万物团队有两大杀手锏:

• 全导航图技术。目前业内现状主要通过哈希、KD-Tree、VP-Tree等方式,导航效果不够精确,裁剪力度不够,零一万物研发的全局多层缩略图导航技术,图上坐标系导航,既能保证精度,又能裁剪大量无关向量。

• 首创自适应邻居选择策略,填补业界空白。零一万物自研的自适应邻居选择策略,突破了以往仅依赖真实topk或固定边选择策略的局限,新策略使每个节点可以根据自身及邻居的分布特征动态地选取最佳邻居边,更快收敛接近目标向量,从而让RAG向量检索性能提高15%-30%。

针对第2个问题,零一万物采用了两级量化方案增强RAG。

零一万物用两级量化降低计算复杂度,同时列式存储充分利用SIMD的并发能力,进一步发挥硬件能力,相比传统PQ查表,性能得到大幅提升到2-3倍。
除此之外,零一万物还有索引结构优化、连通性保障等全栈向量技术方案提高笛卡尔向量数据库的性能。

作为高性能向量数据库,笛卡尔向量数据库可以轻松应对百分之八九十的日常场景,比如帮助企业客户构建私域知识库、智能客服系统;在自动驾驶领域,使用高性能向量数据库可来加速自动驾驶模型训练等。

零一万物表示,笛卡尔向量数据库是团队基于RAG的初步尝试,将在近期发布的AI生产力产品中得到有效应用。零一万物后续会持续专注研发和分享,为用户带来更好的技术和体验。

 

OpenAI前董事:“搞不清楚”董事会为什么要罢免奥特曼

12月6日消息,三周前美国人工智能初创企业OpenAI董事会在没有具体原因的情况下短暂罢免了公司首席执行官萨姆·奥特曼(SamAltman)。OpenAI前董事、LinkedIn联合创始人里德·霍夫曼(ReidHoffman)表示,到现在他仍...

讯飞星火V3.0发布,升级AI人设、启发式对话,打造每个人的AI助手

10月24日,第六届世界声博会暨2023全球1024开发者节开幕,产业领袖、专家学者与广大开发者云集于此,共同探讨通用人工智能的最新进展和广阔应用前景。现场科大讯飞董事长刘庆峰、研究院院长刘聪发布讯飞星火认知大模...

OpenAI计划出售价值数亿美元现有股票 估值可能高达900亿美元

9月27日消息,据外媒报道,美国人工智能研究公司OpenAI计划向硅谷投资者出售价值数亿美元的现有股票。知情人士称,OpenAI正与投资者讨论出售股票事宜,这笔交易可能使该公司估值达到800亿至900亿美元,大约是今年早...

阿里降价97%,百度免费 大模型价格战打得比“618”还猛

5月20日,电商年中大促“618”正式开启,各家电商平台还在忙着统计首日战报,大模型价格战已经率先打响,甚至比618还要猛烈。21日上午,阿里云抛出重磅炸弹,通义千问GPT-4级主力模型Qwen-Long,API(应用程序编程接...

全新联想Yoga Book 9i发布:延续双屏OLED,支持AI美化笔记功能

1月9日,在CES2024上,联想集团展示了新推出的一系列个人电子设备,包括赋能创作过程的YogaAI笔记本电脑、便于用户进行娱乐和学习的平板电脑、专为日常用户设计的IdeaPad笔记本电脑,以及外形现代的各种外设。全新亮...

上一篇:黄仁勋:即使竞争对手的AI芯片免费提供,也无法击败英伟达方案
下一篇:三位作家起诉Nvidia指控AI芯片制造商侵犯版权