您的位置:首页 > 互联网

Galileo发布Luna,重新定义GenAI评估,成本降低97%、速度提升11倍_gaia lucariello

发布时间:2024-06-07 17:38:52  来源:互联网     背景:

划重点:

红外线体温测温仪怎么调试准确

⭐ Galileo 推出 Luna,一套革命性的 Evaluation Foundation Models,重新定义企业 GenAI 评估,速度、成本和准确性均突破前所未有的境界。

gaia lucariello

⭐ Luna 的创新核心在于其专为特定评估任务设计的小型语言模型,大幅提升了速度、成本和准确性。

⭐ Luna 不仅速度更快、成本更低,还可在没有传统基准数据集的情况下运行,极大地简化了评估流程。

6月7日 消息:企业人工智能技术领先者 Galileo 近日发布了一款名为 Luna 的全新产品,这一革命性的 Evaluation Foundation Models 套件重新定义了企业对 GenAI 系统的评估方式。Luna 承诺在速度、成本和准确性方面进行了前所未有的突破。

“Galileo 推出 Luna,旨在解决当前 GenAI 评估方法的局限性,这些方法通常速度缓慢、成本高昂,而且往往不准确。”Galileo 联合创始人兼首席执行官 Vikram Chatterji 在接受 VentureBeat 采访时表示。“推动我们开发 Luna 的初衷源自对在生产环境中进行超低延迟、成本效益高和高准确性评估的需求。”

Luna 的研发标志着 Galileo 取得了重要的里程碑,该公司自2021年初成立以来一直处于企业 GenAI 的最前沿。公司对推动人工智能评估边界的执着可从 Luna 的开发过程中窥见端倪,该过程历时近一年,进行了密集的研发工作。

Luna,Galileo 划时代的 Evaluation Foundation Models 套件,在接收器操作特征曲线下面积(AUROC)得分的基准比较中胜过了领先的人工智能评估方法。更高的 AUROC 值达到了0.78,表明 Luna 在评估企业生成式人工智能系统的准确性方面更胜一筹,超越了 GPT-3.5、Trulens Groundedness 和 RAGAS Faithfulness 等竞争对手。

Luna 创新的核心在于其专为特定评估任务设计的小型语言模型,精心为幻觉检测、语境质量评估、数据泄漏防护和恶意提示识别等任务量身定制。这种专业设计使得 Luna 在速度、成本和准确性三个关键指标上表现卓越。

“Luna 通过几项创新的方式超越了 GPT-3.5在速度、成本和准确性方面,”Chatterji 解释道。“Luna 利用专为特定评估任务量身定制的小型语言模型,大大降低了计算开销和成本。这种设计选择使得评估的成本比使用 GPT-3.5低97%,速度则比使用 GPT-3.5快11倍。”

然而,这并不仅仅是关于速度和成本。Luna 还以行业领先的准确性脱颖而出,在检测幻觉、提示注入、个人可识别信息(PII)等方面,其性能比以往方法高出多达20%。“多头小型语言模型和智能分块等先进技术确保 Luna 模型更好地保持上下文并提供更准确的评估,”Chatterji 补充道。

在对评估100万次查询的月度成本进行比较时,Galileo 的 Luna 大幅低于其他方法,仅需每月175美元。Luna 的专为特定评估任务设计的小型语言模型实现了超低成本的评估,使其比 GPT-3.5(每月6248美元)、RAGAS Faithfulness(每月7994美元)和 Trulens Groundedness(每月16641美元)等替代方案高效率低至97%。

Luna 最引人注目的一个方面是其能够在不需要传统基准数据集的情况下运行。通过利用在多样、领域特定数据集上微调的预训练评估模型,Luna 消除了创建定制测试集的耗时和昂贵过程。这一创新简化了评估流程,减少了对大量人工生成数据的依赖。

Luna 的潜在应用广泛,Chatterji 强调了它在需要人工智能评估具有高可靠性和速度的行业中的相关性。“Luna 在需要大规模应用、吞吐量大的企业应用中尤为强大(比如每月数百万次查询)。我们发现在医疗保健、金融和电信等行业,财富100强企业特别喜欢使用 Luna。” 他说道。

galileo官网

Galileo 的 Luna 在人工智能评估方面提供了无与伦比的速度,处理单个查询的延迟仅为0.232秒。这较之其他方法,例如 GPT-3.5的2.5秒、Galileo Chainpoll 的3.0秒、Trulens Groundedness 的3.4秒和 RAGAS Faithfulness 的5.4秒,有了显著提升。Luna 的专为特定评估任务设计的小型语言模型实现了超低延迟的评估,使其比竞争方法快至多达11倍。

用例涵盖了对人工智能输出的实时监控、检测人工智能生成内容中的幻觉,以确保聊天机器人交互的安全性和质量。通过 Galileo 的 Fine Tune 产品,Luna 可定制以满足特定客户需求,为制药和金融服务等行业的关键任务实现95% 以上的准确性。

gelunar

随着生成式人工智能领域的快速发展,Galileo 致力于保持创新的最前沿。Chatterji 强调,Luna 将在三个关键方面扩展规模:扩大对更多评估任务类型的支持、持续提高准确性,以及进一步降低成本和延迟。

“Galileo 致力于突破人工智能评估的可能边界,帮助组织将可信赖的人工智能引入生产环境,激发消费者的信心和信任。”Chatterji 表示。“随着生成式人工智能领域的不断演进,Galileo 将继续致力于为客户提供尖端的评估能力,使人工智能在业务部署中变得实用,并在消费者中产生信心和信任。”

随着 Luna 的推出,Galileo 在企业 GenAI 评估领域巩固了其领先地位。随着越来越多的组织寻求利用生成式人工智能的力量,Luna 提供快速、成本效益高和准确的评估能力将成为推动广泛采用和释放这一变革性技术全部潜力的关键因素。

官方博客:https://www.rungalileo.io/blog/introducing-galileo-luna-a-family-of-evaluation-foundation-models


返回网站首页

本文评论
李佳琦的新对手来了
线下,主持人李响在串场介绍,屏幕上另一位“李响”则在直播带货。两人容貌、音色、语调及习惯手势几乎一模一样。如果不是现实中的李响自报家门,大众一时间并不能分清。这是今年...
日期:09-04
麦当劳回应系统再次崩溃:正在紧急抢修中_麦当劳今天暂停
3月15日 消息:今日,多名微博用户纷纷反馈,麦当劳的App和小程序出现了异常状况,其中包括无法完成点单、菜单无法正常刷新以及卡券无法正常使用等问题。这一问题迅速引发了广泛关...
日期:03-15
机械硬盘越混越惨了:三大品牌出货量雪上加霜_机械硬盘哪家强
机械硬盘本就遭遇着被SSD取代的艰难时刻,没想到又遇到PC电脑空前的低迷危机,境况可想而知了。来自StorageNewsletter和Trendfocus联合发布的数据显示,今年第二季度,全球机械硬盘...
日期:09-19
苹果中国供应商2021「中国大陆公司新增8家剔除4家-苹果公布2023财年供应链名单」
4 月 22 日消息,苹果公司在其官网公布了 2023 财年供应链名单,该名单中的公司包含了苹果在 2023 财年全球产品材料、制造和组装方面的 98% 直接支出。在这份名单中,新增 8 家中...
日期:04-22
吴京代言 中兴小鲜50开售:国产5G芯片卖699元起「吴京同款 中国」
快科技8月8日消息,8月初,由演员吴京代言的中兴手机发布中兴小鲜50新机,该机于今日正式开售,只提供4GB 128GB、6GB 128GB两种配置,售价分别为699元和799元。作为该机亮点之一,中兴...
日期:08-08
五一民宿自驾游去哪里好「五一民宿现涨价毁约潮 网友:店家吃相太难看」
近日,随着五一节日的临近,不少游客开始预订旅游,然而却出现了很多旅游投诉。一位网友在预订五一节期间的民宿时,接到平台连续多次催费电话,最终被告知该民宿无法接待。在联系民宿...
日期:04-24
抖音38好物节大促开启招商 提供跨店每满减等多种玩法_抖音618好物节提现返利
2月22日 消息:昨日,抖音38好物节招商大会顺利召开,官方正式宣布了38好物节的活动时间以及活动玩法。华为鸿蒙发布会产品在活动节奏方面,即日起至3月8日期间,商家、达人等均可报...
日期:03-01
三星2021利润「三星三季度营业利润同比下滑78% 芯片业务亏损收窄_」
芯片 5g10月31日消息,韩国三星电子公司周二发布了截至2023年9月30日的第三季度财报。财报显示,该季度营收为67.4万亿韩元(约500亿美元),同比下降12%;营业利润为2.4万亿韩元(约17.8...
日期:10-31
Stability AI推出新AI文生图模型SDXL 0.9
6月25日 消息:知名生成式人工智能公司Stability AI周四宣布推出SDXL0.9,这是公司Stable Diffusion文生图模型套件中最先进的开发之一。SDXL0.9在4月份成功发布了beta版之后,在...
日期:06-25
五月天演唱会 鸟巢「五月天演唱会今晚鸟巢开唱!不少歌迷场外围观:不买黄牛票」
5月26日消息,五月天演唱会于今日晚间在鸟巢举行。不少歌迷在场外听起演唱会,场面壮观。他们有的自带了野餐垫、小马扎,有的席地而坐,有的站在鸟巢下聆听,还有歌迷明确表示:抵制黄...
日期:05-27
沃达丰呼吁欧盟采取果断行动 让科技巨头分摊网络成本「沃达丰中国官网」
2023/5/23 17:12 沃达丰呼吁欧盟采取果断行动 让科技巨头分摊网络成本  蒋均牧 C114讯 北京时间5月23日下午消息(蒋均牧)沃达丰集团(Vodafone Grou)呼吁欧盟委员会(EC)采取果...
日期:05-26
曝特斯拉寻求与宁德时代在美国建厂:马斯克出钱出地 宁德时代出技术
3月31日消息,据报道,知情人士称,特斯拉已与美国白宫官员讨论了寻求与宁德时代在美国建立电池工厂的计划。oppo reno7和realme neo2哪个更好其还透露,特斯拉正考虑在德克萨斯州建...
日期:04-01
享受科技与艺术的洗礼,三星“会讲故事的艺术电视”线下活动闪现杭州
10 月 27 日至 10 月 29 日,三星线下活动“会讲故事的艺术电视” 名画局部放大展在杭州滨江天街举行。三星携Lifestyle系列产品,通过巨幅名画局部解构、沉浸式体验、艺术画廊...
日期:10-30
超低价格卷不过比亚迪-华为善于在智能化、安全、豪华上卷 余承东
6月2日消息,余承东在2024未来汽车先行者大会谈起价格战时表示,“现在智能电动网联汽车中,全世界“Number One(第一)”的卷王应该是比亚迪”,因为比亚迪有超低的成本。淘菜菜水果反...
日期:06-02
摄像头布局绝了!华为P60系列保护壳曝光_华为p60概念图曝光
今日,数码博主@数码闲聊站曝光了疑似华为P60系列的保护壳,图片显示该机的后置摄像头位于左上角,整体模块呈矩形,中间非常大的圆形部分应该是主摄,上下有两个正方形,预计是另外两颗...
日期:12-27
微软已修复 Win11 安全模式下的屏幕闪烁问题,无需手动更新_win10安全模式闪烁
  5 月 1 日消息,根据微软 Windows 11 运行状况仪表板的更新内容,微软 Windows 11 已修复在进入没有网络功能的安全模式后,可能会遇到的屏幕闪烁问题。此外,该错误还导致依赖...
日期:05-24
OPPO Watch 3 Pro获更新:新版本追加ECG心电图功能「oppowatch心电图有用吗」
8月,OPPO发布了最新OPPO Watch 3 Pro智能手表,有用户发现,这款手表配备了心电传感器,理论上支持相关监测功能。怪兽充电 股权今天,OPPO Watch 3 Pro获得新版本更新,终于加入了心电...
日期:10-03
摩飞多功能破壁料理机新品上市,10重降噪技术加持,静享美味好食光
豆浆被称为“国民饮品”,其富含优质蛋白质、维生素和矿物质,有利于补充营养增强体质,三餐配上一杯香浓可口的豆浆,对身体健康大有裨益。但传统豆浆机在制作过程中,往往会产生很大...
日期:09-16
华为5g合作国家_全球31家巨头结盟争抢5G跑道 防华为还是防中国?
  据法新社报道,本周31家全球科技和电信企业宣布成立Open RAN政策联盟(Open RAN Policy Coalition),希望建立“开放并可互操作”5G网络。   与此同时,该联盟中却并没有传...
日期:06-16
老牌钻石电商九钻网被收购 团队已解散
  9月29日消息,千叶珠宝电子商务总监陈勇日前发表微博爆料,珠宝电子商务B2C网站九钻网已经被越王珠宝收购。     陈勇(新浪微博ID“潇彧”)在微博中说“浙江杭州陈氏三...
日期:07-23