亚马逊云科技陈晓建:企业在生成式 AI 时代取得成功的三项关键数据能力
5月7日消息,“每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。”
大模型火热两年多,从GPT3到GPT4,从Llama 2到Llama 3,从Claude 2到Claude3……全球范围内基础大模型能力不断被刷新新纪录。
然而企业在落地大模型应用时,到底应该如果构建自身的独特优势呢?
亚马逊云科技大中华区产品部总经理陈晓建表示:“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。数据是企业在生成式AI时代取得成功的关键。”
成式 AI 时代数据的重要性体现在:基础模型依赖于大规模高质量数据集,生成式AI的差异化优势来源于企业的专有数据,生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。
因此,陈晓建认为企业构建生成式AI应用需要具备三项关键的数据能力:
一、利用现有数据支持微调或预训练模型的能力
从原始数据集到训练出基础模型需要解决三个主要问题。
首先,需要找到合适的存储来承载海量数据。生成式AI基础模型诞生于大规模、高质量数据集。如果一本书按500KB算,现在的500T参数的模型已经有332亿本,相当于现存每个人类拥有4本书;
其次,清洗加工原始数据为高质量数据集。在数据清洗方面,企业面临着繁重的数据清洗加工任务。以公开搜集的2TB英文数据集为例,经过清洗、去重后变成1.2TB的数据,再经过分词处理成大约3000亿的tokens。
最后,对整个组织内数据的发现编目治理。企业面临的数据治理难题包括:难以找到分布在各帐户和地区的数据,数据访问的控制很难管理且容易出错,数据分析师访问权限不足且缺乏相对应的工具技能,不用户没有简单的数据协同环境,数据治理隐藏在各种工具中。
二、将企业数据快速结合模型产生独特价值的能力
基础模型自身有一定的局限性,例如缺乏垂直行业的专业知识,缺乏时效性,生成错误信息如幻觉问题等,以及用户敏感数据的隐私合规风险。
检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现企业数据与基础模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。
通过RAG,企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。这个方法相对简便,适用场景包括知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等。
三、有效处理新数据,助力生成式AI应用飞速发展的能力
对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。
很多企业反映,终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。
陈晓建强调:“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”(果青)
方形设计定义高端扫地机器人发展方向 科沃斯方形地宝X2发布8月17日,科沃斯机器人召开2023科沃斯战略新品发布会,发布了科沃斯方形扫拖新旗舰——地宝X2系列。95mm行业最纤薄机身,8000Pa飓风吸力(高配版吸力8000Pa,标准版为7500Pa),15mm行业最高拖布抬升,“无人驾驶级”...
YouTube宣布负责任的人工智能创新方法:要求披露AI生成的内容并添加标签YouTube正在推出针对AI内容的新规则,包括要求创作者透露他们是否使用了生成式人工智能来制作逼真的视频。YouTube在周二的一篇博客文章中概述了一系列与AI相关的政策更新,表示那些不透露是否使用AI工具制作「改动过...
消息称社交平台Reddit与大型AI公司达成数据授权协议 每年6000万美元IT之家2月18日消息,据彭博社昨日报道,社交平台Reddit将与一家未透露名称的“大型AI公司”达成一项数据授权协议,允许后者访问其用户生成内容平台。该协议的年价值约为6000万美元(IT之家备注:当前约4.32亿元人民...
斥资5100万美元,OpenAI将从CEO阿尔特曼投资的初创公司购买AI芯片12月4日消息,据《连线》杂志当地时间周日报道,尽管萨姆・阿尔特曼上月先后经历了解雇、复职的一系列风波,但如果OpenAI在没有阿尔特曼的情况下继续开发ChatGPT,他仍可以从中获利。这是因为在阿尔特曼担任CEO期间...
谷歌正式发布Gemini 1.5 Flash大模型:轻量化、响应速度极快5月15日消息,今天凌晨,谷歌正式召开了I/O大会,宣布谷歌已全面进入Gemini时代。在一年前的I/O大会上,谷歌才首次发布Gemini大模型,而今年大模型、AI等已经成为了绝对的主角,甚至连新版安卓都没提。除了专业的Gem...
如何选购kawai电钢琴??2023年kawai选购攻略大全来了!
哈喽!最近有超多小伙伴问我:怎么选一台kawai性价比高的电钢琴?为了解决大家在选择kawai电钢的困惑,我专门...
苹果招募生成式AI人才 提供数十个大模型岗位
根据最新的招聘信息,苹果正在扩大其生成式人工智能领域的专业团队,并计划将这项技术应用于iPhone和iPad等...
昆仑万维旗下Opera生成式AI服务海外用户数突破100万
昆仑万维旗下Opera宣布,生成式AI服务Aria海外用户数突破100万。2023年5月24日,Opera正式推出生成式AI助理...
创始人王慧文退出 美团成AI公司光年之外唯一股东
8月7日消息,据国家企业信用信息公示系统显示,北京光年之外科技有限公司在近期完成工商变更,创始人王慧文...