您的位置:首页 > 互联网

企业在生成式-AI 时代取得成功的三项关键数据能力 亚马逊云科技陈晓建

发布时间:2024-05-07 21:35:30  来源:互联网     背景:

【】5月7日消息,“每个公司都能访问相同的基础模型,但那些能够利用自己的数据构建具有真正商业价值的生成式人工智能应用的公司,将会是成功的公司。”

大模型火热两年多,从GPT3到GPT4,从Llama 2到Llama 3,从Claude 2到Claude3……全球范围内基础大模型能力不断被刷新新纪录。

然而企业在落地大模型应用时,到底应该如果构建自身的独特优势呢?

亚马逊云科技大中华区产品部总经理陈晓建表示:“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。数据是企业在生成式AI时代取得成功的关键。”

快手116品质购物节

成式 AI 时代数据的重要性体现在:基础模型依赖于大规模高质量数据集,生成式AI的差异化优势来源于企业的专有数据,生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。

因此,陈晓建认为企业构建生成式AI应用需要具备三项关键的数据能力:

一、利用现有数据支持微调或预训练模型的能力

从原始数据集到训练出基础模型需要解决三个主要问题。

首先,需要找到合适的存储来承载海量数据。生成式AI基础模型诞生于大规模、高质量数据集。如果一本书按500KB算,现在的500T参数的模型已经有332亿本,相当于现存每个人类拥有4本书;

其次,清洗加工原始数据为高质量数据集。在数据清洗方面,企业面临着繁重的数据清洗加工任务。以公开搜集的2TB英文数据集为例,经过清洗、去重后变成1.2TB的数据,再经过分词处理成大约3000亿的tokens。

最后,对整个组织内数据的发现编目治理。企业面临的数据治理难题包括:难以找到分布在各帐户和地区的数据,数据访问的控制很难管理且容易出错,数据分析师访问权限不足且缺乏相对应的工具技能,不用户没有简单的数据协同环境,数据治理隐藏在各种工具中。

二、将企业数据快速结合模型产生独特价值的能力

红米小金刚note10pro

基础模型自身有一定的局限性,例如缺乏垂直行业的专业知识,缺乏时效性,生成错误信息如幻觉问题等,以及用户敏感数据的隐私合规风险。

乐视电视事件

检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现企业数据与基础模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。

魅族双11活动

通过RAG,企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。这个方法相对简便,适用场景包括知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等。

三、有效处理新数据,助力生成式AI应用飞速发展的能力

对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟。相对于此前数据库调用通常毫秒级甚至微秒级的响应时间,基础模型每次调用时长往往达到秒级。此外,每次调用基础模型也会增加成本。

很多企业反映,终端用户绝对大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存,从而在面对类似问题时,可以不调用模型,而直接通过缓存给出回答,这不但能够减少模型调用,还可以节约成本。

陈晓建强调:“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”(果青)


返回网站首页

本文评论
Momento官网体验入口 AI视频剪辑工具免费软件app下载
《Momento》是一个使用AI技术的在线视频剪辑工具,它可以快速制作有趣的短视频。通过智能识别视频中的关键精彩剪辑点、自动剪辑、添加字幕和特效等AI能力,该工具大大提高了视...
日期:11-27
天玑900处理器天梯图「天玑9300性能旗舰第一,全大核CPU抗压表现堪称顶级」
近日,联发科天玑 9300 以其出色的性能和能效表现,凭借其“全大核”架构,在手机市场上引起了热烈反响。经过CPU、GPU、APU测试以及主流游戏实测,其旗舰级别的表现得到了广泛认可...
日期:11-30
小米13 Pro真机上手:上架二手平台 4999元_小米14pro价格
小米13发布会延期,但目前在二手APP中惊现了小米13 Pro手机,手机的标价为4999元,其描述为降300出,并且标注这是一个12+512G的版本,所以我们猜测12+512G的小米13 Pro原价为5299元,而...
日期:12-02
纯洁的曲线之美:索泰发布RTX 40 AMP月白显卡
日本陶艺大师黑田泰藏曾说过:如果黑色是偶然的颜色,那么白色便是永恒而且接近零。因为想创造零,所以用白色。”这一两年来,纯白色调的硬件产品越发丰富,玩家可以轻松组建一套高...
日期:12-09
2年前小米11 Ultra首发的传感器被谷歌使用:小米三星联合研发
快科技4月25日消息,博主i冰宇宙透露,谷歌Pixel 8 Pro使用的图像传感器是三星GN2,这是一颗接近1英寸大底的旗舰Sensor。据悉,三星GN2由2021年发布的小米11 Ultra首发商用,这是小米...
日期:04-25
有赞优化分销员端商品佣金展示_有赞推广佣金
10月9日 消息:今天,有赞宣布优化分销员端商品佣金展示,解决分销员端展示的商品佣金存在展示逻辑不一致,金额有偏差等问题。掌阅ireader与kindle优化后,微页面、商品列表、商品详...
日期:10-24
戴尔供应链的故事「戴尔回应“供应链撤离”等传闻:均系谣言」
【网易科技11月27日报道】针对今年以来“戴尔供应链将撤离中国”、“戴尔搞‘去中化’”等传言,戴尔方面回复网易科技,“市场相关传闻均为谣言。我们期待未来继续在中国发展,中...
日期:11-28
世纪佳缘面临社交网站冲击 盈利模式受质疑_世纪佳缘网站优势
  正如一些业内人士预言,中国互联网公司海外上市的狂潮再次掀起。   离人人网向美国证券交易委员会(SEC)提交IPO申请不到一周,国内在线婚恋网站世纪佳缘也正式启动上市申请...
日期:07-27
甲骨文第二季度营收123亿美元 同比增长18%_甲骨文2019营收
  讯 北京时间12月13日上午消息,甲骨文公司(NYSE: ORCL) 今日发布了截至2022年11月30日的2023财年第二季度财报。财报显示,甲骨文第二季度总营收为123亿美元,同比增长18%。净利...
日期:12-13
5G RedCap技术能否助力运营商重拾信心?_5g relay
通信世界网消息(CWW)随着我国建成了世界上规模最大的5G网络,各行各业的5G应用规模也随之不断扩大,在实现海量物联的过程中,终端成本高成为制约5G规模化发展的“瓶颈”之一。RedCa...
日期:08-18
微信显示文件传输助手是有电脑登录了吗_支持自动登录、文件传输助手网页版,微信 PC 版新体验
  最近在微信 PC 版的更新中,给用户带来了两个非常实用的功能,其中一个还是大家期盼已久的功能 —— 自动登录电脑,另一个则让用户传输文件更方便,一起来看看吧。   无须手...
日期:09-16
仰望U8市区上路 体型硕大:一旁70万的途锐秒变高尔夫_2020途锐v8tdi
快科技4月21日消息,近日有网友发视频晒出了仰望U8市区行驶的画面,硕大的身躯吸睛度拉满,就连一旁的大众途锐都显得小巧许多。要知道,售价70万的大众途锐可是一款中大型SUV,长4878...
日期:04-21
丰巢智能柜小程序开辟“生活服务”专区 推广丰巢自营洗衣业务「丰巢智能柜怎么免费」
10月12日 消息:丰巢都开始推洗衣业务了?近日,有用户发现,丰巢智能柜小程序推出了“生活服务”专区,推广丰巢自营洗衣业务。根据丰巢智能柜小程序的信息,“丰巢洗护”服务内容包...
日期:10-24
苹果六更新ios13后会怎么样?「苹果故意的?iOS 16升级后翻车:iPhone 13等续航崩了 让你换新的节奏」
荣耀双十一新品苹果故意的吗,不少iPhone 13等老用户升级iOS 16后表示,自己手机的续航崩了,这是要比他们换新的节奏吗?据外媒报道称,有不少iPhone用户在苹果官方论坛、社交平台等...
日期:09-24
16缸发动机成为历史!布加迪新车将于年中推出:首搭混动系统_布加迪1600马力
快科技1月31日消息,据媒体报道,布加迪将于今年推出一款全新的车型,该车将在今年年终正式发布。lgg6评测值得一提的是,此次发布的全新超跑很有可能将取消布加迪经典的W16四涡轮增...
日期:02-01
微信支付手续费免费到明年9月:已让利30亿_微信支付手续费费率
微信支付已经成为很多人日常买东西的主要支付手段之一,很多小商家也是靠微信支付收付款,今天腾讯发布消息称面向商户的手续费继续优惠,持续到2024年9月份。为微信支付提供服务...
日期:04-11
卖不动很无奈?NVIDIA对RTX 4090官降:今年第三次了
快科技5月2日讯,在消费电子行业普遍不景气的当下,想要产品有销路,最简单粗暴的办法无疑就是降价。NVIDIA也深谙此道,经查,德国市场的RTX 4090 FE公版的官方建议指导价已经从去年...
日期:05-02
隐藏重要细节、与承诺不符-马斯克开源推特算法反被指责_马斯克推特doge
早在今年2月,马斯克就曾宣布将会对推特的推荐算法进行开源,展示软件的推荐逻辑。但在近日,马斯克终于兑现承诺,在GitHub上公布了推特部分推荐算法的底层源码后,却遭到了研究人员...
日期:10-03
华北地区天空惊现UFO 博主科普:大概率是美国猎鹰9号火箭_美国猎鹰9火箭空中爆炸
快科技1月15日消息,昨晚18点多,北京、河北、山西等地多位网友发帖称,拍摄到天空中有疑似不明飞行物体。此UFO呈现圆形烟雾,飞行方向是西南-东北。有网友形容:不明光团,飞着飞着就...
日期:01-15
年内最大IPO来了!芯片巨头Arm上市:股价一路狂飙「arm芯片公司股票」
快科技9月14日消息, Arm控股有限公司正式在纳斯达克全球精选市场挂牌交易。Arm股票代码为ARM”,发行价定为每股51.00美元。截至首日收盘,Arm股价上涨24.69%,报63.59美元。若以收...
日期:09-15