您的位置:首页 > 互联网

Meta、OpenAI、Anthropic 和 Cohere 人工智能模型都在胡编乱造 —— 哪个最糟糕?

发布时间:2023-08-18 17:48:48  来源:互联网     背景:

8月18日消息:如果科技行业的顶尖人工智能模型有所区别的话,微软支持的 OpenAI 的 GPT-4 在数学方面表现最好,Meta 的 Llama 2 则在中间位置,Anthropic 的 Claude 2 在了解自己的限制方面表现最好,而 Cohere AI 则被赋予了最多的幻觉和最自信的错误答案的称号。

OpenAI ChatGPT,人工智能,AI

喇叭是全频好还是高低单元好

这份周四来自 Arthur AI 研究人员的报告指出这一切。Arthur AI 是一家机器学习监测平台。

这项研究是在人工智能系统产生误导信息的问题愈发引起争议之际进行的,与此同时,生成式人工智能正迎来了繁荣期。

Arthur AI 的联合创始人兼首席执行官 Adam Wenchel 表示,这是第一个「全面考察幻觉率」的报告,而非仅仅提供「一个数字来衡量它们在 LLM 排行榜上的位置」。

当大型语言模型(LLMs)完全捏造信息、表现得像在说真实事实时,就会出现 AI 幻觉。例如,在 6 月份的一例中,有人发现 ChatGPT 在纽约联邦法院的一份文件中引用了「虚假」的案例,涉案的纽约律师可能面临制裁。

在一个实验中,Arthur AI 的研究人员在组合数学、美国总统和摩洛哥政治领导人等类别中测试了这些 AI 模型,并提出了一些「设计来使 LLMs 犯错的关键元素,需要多个步骤来推理信息」的问题,研究人员写道。

总体而言,OpenAI 的 GPT-4 在所有测试的模型中表现最好,研究人员发现它的幻觉现象比之前的版本 GPT-3.5 要少,例如,在数学问题上,它的幻觉现象减少了 33% 至 50%,具体取决于类别。

另一方面,研究人员发现,Meta 的 Llama 2 比 GPT-4 和 Anthropic 的 Claude 2 更容易产生幻觉。

在数学类别中,GPT-4 排名第一,Claude 2 紧随其后,但在美国总统类别的测试中,Claude 2 以准确率位居第一,挤下了 GPT-4,成为第二名。当被问到摩洛哥政治问题时,GPT-4 再次排名第一,而 Claude 2 和 Llama 2 则几乎选择不回答。

在第二个实验中,研究人员测试了这些 AI 模型在回答问题时是否会使用警示语来避免风险(比如:作为一个 AI 模型,我不能提供意见)。

在使用警示语方面,与 GPT-3.5 相比,GPT-4 有了 50% 的相对增长,研究人员写道:「这从用户的个别证据中量化了 GPT-4 的使用更加令人沮丧」,然而,根据报告,Cohere 的 AI 模型在任何回答中都没有使用警示语。研究显示,Claude 2 在「自我意识」方面最可靠,即准确评估自身所知与所不知,并且只回答具备支持性数据的问题。

阿里文娱包含哪些

Cohere 的一位发言人对这些结果提出了异议,称「Cohere 的检索自动生成技术未被测试,它对于给企业提供可验证的引用文献以确认信息来源非常有效」。

Wenchel 表示,用户和企业最重要的结论是「根据实际工作负载进行测试」,他随后补充道:「重要的是要了解它在你试图实现的任务上的性能」

Wenchel 说:「很多基准测试仅仅关注 LLM 本身的某种衡量标准,但实际上在真实世界中并不是这样使用的。确保你真正了解 LLM 在实际应用中的表现是关键。」

阅读 Arthur AI研究报告:https://www.arthur.ai/gap


返回网站首页

本文评论
国家统计局:上半年半导体器件专用设备制造业增长30.9%「半导体器件行业报告」
通信世界网消息(CWW)“我国深入实施创新驱动发展战略,强化战略科技力量,现代信息技术、人工智能、大数据等技术广泛应用,创新成果不断涌现,新产业新产品增势良好。”在今日国新办...
日期:07-17
三星Q80Z新品电视上市,98英寸带来沉浸感加倍的视听享受「三星q80电视什么时候上市」
7月15日,三星98英寸新品巨幕电视Q80Z正式上市,以超大屏幕和卓越4K画质为用户带来沉浸式的观影享受。这是三星在电视大屏化趋势上的一次积极探索,亦是满足用户愈加重视高品质大...
日期:07-15
新一代续航怪兽诞生!小米13续航完胜iPhone 14 Pro Max「苹果发布iphone13续航」
今日晚间,小米13正式亮相。该机配备了4500mAh大电池,支持67W有线闪充。经官方测试,小米13DOU续航1.37天,超越了苹果iPhone14Pro Max,后者DOU续航是1.28天,小米13由此成为了新一代...
日期:12-12
腾讯悄然杀入“出行服务”市场(腾讯出行服务是什么)
中扬联众公有云荣耀无线耳机flypods青春版wifi万能钥匙 融资珠三角新能源汽车优酷 股份华为手环ERS-B29跨境电商 资讯   本报记者 李静 北京报道   在百度、高德、美团...
日期:07-31
MWC19上海 | 新华三发布5G场景创新联合计划 聚合5G生态价值(2021华为上海城市峰会)
  6月26日,在MWC19上海会议期间,紫光旗下新华三集团在举行的“数字化创新与实践高峰论坛”上,携手国家信息中心、中国信息通信研究院、中国电信、中国移动、中国联通、首都...
日期:04-05
我国数字经济规模达7.1万亿美元 位居世界第二(我国数字经济规模达7.1万亿美元 位居世界第二高位)
昨天,在2022全球数字经济大会主论坛上,中国信息通信研究院发布的《全球数字经济白皮书(2022年)》显示,2021年全球47个主要国家数字经济增加值规模达到38.1万亿美元。中国数字经...
日期:07-31
苹果6的价格「苹果11的价格」
苹果公司于2014年9月发布了iPhone 6和iPhone 6 Plus两款手机,这两款手机是苹果公司历史上最受欢迎的手机之一,其定价也是备受关注的话题。iPhone 6的起售价为199美元,而iPhone...
日期:05-29
火河LM平台全新升级 线上服务提升蓄势待发
  众所周知,一家有成熟生态能力的智能硬件企业,都至少有一套对外开放的API接口和设备在线管理平台。对火河科技来讲,前者是已经开放已久的OpenAPI平台,而后者则是被数万家客...
日期:12-26
Meta宣布元宇宙软件的一位重要高管将离开公司_meta 元
Meta发言人于当地时间周五表示,公司Horizon社交媒体虚拟现实软件部门副总裁Vivek Sharma将离职。据悉,Sharma在过去六年时间里一直在Facebook母公司Meta工作并在市场和游戏部...
日期:09-06
谷歌收购摩托罗拉  加剧亚洲手机商竞争_摩托罗拉被谷歌收购后发布了什么手机
  美国《华尔街日报》16日援引策略分析公司分析师的话说,对于使用安卓系统的亚洲手机生产商而言,谷歌收购摩托罗拉既是威胁也是挑战。  据新华社电 美国谷歌公司计划以每...
日期:07-22
索尼推出 Playstation Star 服务 为玩家提供数字藏品「playstationfive」
DoNews9月29日消息(郭睿琦)索尼今天宣布, Playstation Star 服务现已正式上线,玩家可通过该服务获得数字藏品以及积分等奖励。PlayStation Plus 会员同时加入 PlayStation Stars...
日期:10-02
进一步了解大规模部署AI的更优解:Habana® Gaudi®2
通信世界网消息(CWW)大语言模型(Large Language Model,下文简称为:LLM)的发展如火如荼。以ChatGPT为代表的LLM可执行更为广泛的任务并具有更高的智能化程度,刷新了人们对AI技术的新...
日期:07-21
新物种:科大讯飞AI学习机LUMIE 10系列闪耀上市
2023 年 7 月 6 日,科大讯飞AI学习机暑期新品发布会上,LUMIE10 系列学习机以其强大功能、卓越性能和创新设计震撼亮相。这是科大讯飞推出的首 款立式大屏AI学习机,它继承了科大...
日期:07-06
恒安嘉新中标中国电信2023年5G移动互联网恶意程序监控系统扩容工程
通信世界网消息(CWW)近日,中国电信启动2023年5G移动互联网恶意程序监控系统扩容工程(31省),拟采取单一来源方式采购,恒安嘉新(北京)科技股份公司、上海欣诺通信技术股份有限公司...
日期:07-13
上线8年 京东众筹将于10月10日起业务停运「京东众筹还有吗」
10月9日 消息:日前,京东众筹发布公告称,京东众筹业务将于2022年10月10日起暂停运营。9月30日10点,京东众筹入口下线,已经上线的项目将继续众筹,成功后正常发货。10月10日,众筹业务...
日期:10-13
剧本杀使用盗版剧本举报「“剧本杀”馆使用盗版剧本 法院判决构成不正当竞争赔偿3万元」
4月21日 消息:据长沙市开福区法院消息,近日,长沙市开福区人民法院审理了一起使用盗版剧本进行经营的案例。飞鱼科技股东xbox360安装xbox游戏三星s6当年售价长沙某文化创意公司...
日期:04-21
IDC预测5G手机保有率将超40%,转转:二手市场交易量猛增(二手手机保值率top10)
  近期,IDC发布《2021智能手机市场十大预测》称:随着5G在国内市场的继续渗透,截止到2021年,全国将有40%的手机用户将切换为5G手机。其中,约70%以上存在于T1~T3城市(可理解为一...
日期:07-16
瞬行天下营销手机内置微信非法外挂,三年后作者被判刑
  9月30日消息 据微信安全方面报道,2017年,一款名为“瞬行天下营销手机”的产品在网络上销售。这款手机通过内置外挂,实现了微信软件本身所不具备的批量操作功能。近日,销售...
日期:07-18
小米12T Pro告别SIM插槽「小米11lite卡槽」
小米在海外市场推出了首款eSIM机型,小米12T Pro国际版,可以在欧洲多个国家使用。不过小米12T Pro国际版并不是小米首款支持eSIM的机型,因为此前发布的海外版的红米Note 10T也支...
日期:10-13
苹果A16芯片GPU直接抄袭A15 系统缓存还缩水了_苹果a15芯片性能
TechInsights公布了A16的透视图,根据他们描述是想探究下4nm工艺下的A16具体有哪些提升。而从透视图来看A16确实比A15要大一些,晶体管数量增加6%的体积膨胀。A16的CPU核心组成...
日期:10-01