您的位置:首页 > 互联网

研究人员称,即使是最糟糕Claude AI版本也比GPT 3.5更好

发布时间:2023-10-08 16:46:13  来源:互联网     背景:

文章概要:

1. 全球排名显示,Anthropic的Claude AI模型超越了OpenAI的GPT3.5,即使是最差版本也表现出色。

三星galaxy z flip4G

2. Claude模型在性能评估中获得高分,主要由LMSO组织的Chatbot Arena Leaderboard进行排名。

3. Claude模型在处理大规模上下文输入和长提示时表现出优势,引发了对AI聊天机器人在不同领域的实际应用的重要讨论。

10月8日 消息:10月6日,一场引人入胜的竞争正在AI行业内悄然展开,OpenAI的ChatGPT与Anthropic的Claude AI模型之间展开了激烈的角逐。负责创建Chatbot Arena和著名的Vicuna模型的大型模型系统组织(LMSO)刚刚更新了他们的Chatbot Arena排行榜,展示了每个AI聊天机器人与竞争对手相比的表现。结果显示,即使Anthropic的模型仍然免费使用,它也在性能上超越了OpenAI,成为了新的全球排名领头羊。

GPT-4是ChatGPT Plus和Bing AI背后的强大引擎,以最高分数位居榜首,为大型语言模型(LLM)设定了黄金标准。但随着排行榜的下滑,一个出人意料的劣势故事浮出水面。Anthropic的Claude模型——Claude1、Claude2和Claude Instant——都表现出色,超越了驱动ChatGPT免费版本的GPT-3.5引擎。这意味着Anthropic开发的每个大型语言模型都可以胜过ChatGPT的免费版本。

LMSO通过其精细的排名系统为这些模型的性能指标提供了见解。根据排行榜,GPT-4拥有1181的Arena Elo评分,远远领先于榜单,而Claude模型紧随其后,评分从1119到1155不等。另一方面,GPT-3.5的评分为1115。

为了排名这些模型,LMSO让它们在相似的提示下进行“比赛”。给出最佳答案的模型获胜,另一个模型失利。用户根据自己的喜好决定谁获胜,但他们永远不会知道哪些模型在竞争。

正如Decrypt之前报道的那样,虽然这不是LMSO排名的因素,但在ChatGPT Plus和Claude Pro之间的token处理能力差异也是Claude模型胜过GPT的主要优势。

基于Claude2LLM的Claude Pro可以处理高达100,000个信息token,而由GPT-4LLM提供支持的ChatGPT Plus则处理8,192个令牌,"我们回顾道。这种令牌处理能力的差异突显了Claude模型在处理广泛上下文输入方面的优势,这对于细致和丰富的用户体验至关重要。

苹果15和苹果16

此外,在处理长提示时,Claude2在效率上表现出优势,可以更有效地处理更大规模的提示。然而,在提示可比较的情况下,Claude1和Claude Instant提供了与GPT-3.5相似或略优的结果,展示了这些模型的竞争性质。借助Claude的上下文功能,初始不佳的答案可以通过更精细、更大和更丰富的提示得到显著改进。

开源模型在这场竞赛中也不遑多让。

WizardLM是一个在Meta的LlaMA-2上训练的拥有700亿参数的最佳开源LLM模型。紧随其后的是Vicuna33B和由Meta发布的原始LlaMA-2。

开源模型在AI领域的发展中发挥着重要作用,原因各种各样。它们可以在本地运行,使用户有机会对其进行微调,并使社区参与到完善模型的集体努力中。由于许可证的原因,它们运行成本更低,这就是为什么这个领域有数十种开源LLM模型,而只有少数专有模型的原因。

但AI聊天机器人的比赛不仅仅关乎数字,还关乎现实世界的影响。

随着聊天机器人在从客户服务到个人助手等各个领域的逐渐融入,它们的效能、适应性和准确性变得至关重要。由于Claude模型在排名上超越了GPT-3.5,企业和个人用户可能会发现自己在评估哪个模型最符合其需求时面临抉择。


返回网站首页

本文评论
高通宣布与苹果就芯片供应达成协议_高通给苹果供应什么
通信世界网消息(CWW)2023年9月11日,高通技术公司今日宣布已与苹果公司达成协议,为2024年、2025年和2026年推出的智能手机提供骁龙®5G调制解调器及射频系统。该协议强化了高通公...
日期:09-14
百度正以一个更加开放的态度参与建立互联网产业链(百度互联网运营)
  视频行业是一个烧钱的行当,除了带宽、服务器等巨额投入外,影视剧、电影等正版内容资源更是一个无底洞。幸运的是,从2005年成立以来,虽然视频领域竞争激烈,淘汰率高,风行网凭...
日期:07-27
摩托罗拉新机发布:千元机用上1亿像素_摩托罗拉1亿像素手机
摩托罗拉在今天正式发布了新机Moto G72,这款新机采用居中打孔屏,后置三摄的排列,而且其中包含一颗为1亿像素的主摄,而售价方面折合人民币只要1600多元。Moto G72正面采用了一块6...
日期:10-04
显示屏曲率1500和1700_微星推出曲面电竞显示器:1500R曲率/165Hz刷新率/1ms响应时间
  9月3日消息 日前,微星推出了一款新的曲面电竞显示器,型号为MAG Optix G27C4,这款电竞屏曲率为1500R,刷新率165Hz,响应时间为1毫秒。   微星MAG Optix G27C4采用的是三星的...
日期:07-20
海信阅读手机「海信阅读手机怎么样」
是一款专为阅读而设计的手机,它的最大特点就是搭载了一块具有E Ink技术的柔性屏幕,可以提供出色的阅读体验。淘宝购物信息被泄露首先,的屏幕具有专业的读书模式,可以根据不同的...
日期:06-03
原启生物宣布完成超1.2亿美元B轮融资(原启生物招聘)
讯 8月1日消息,原启生物科技(上海)有限公司(下称“原启生物”)宣布完成总金额超过1.2亿美元的B轮融资。   本轮融资由启明创投共同领投。   本轮融资资金,将主要用于推进公司...
日期:08-02
支付宝股权变更后续影响发酵  双方各执一词_支付宝的持股构成
5月14日上午,在香港举行的阿里巴巴公司(1688.HK)股东大会上,阿里巴巴集团董事局主席马云称,支付宝问题还在与雅虎方面讨论中,未最终尘埃落定。 阿里巴巴与雅虎关系愈发紧张的起...
日期:07-28
降价进店顾客翻数倍 小鹏/问界受冲击!特斯拉:希望更多国人能开上
特斯拉中国大降价后,进店顾客翻数倍,这给友商也是带来了很大的压力。组装电脑怎么连线1月16日,距离特斯拉大幅下调国产车型价格已过去了10天。国产特斯拉Model 3降至22.99万元...
日期:01-20
出道即巅峰!雅迪冠能旗舰新品销量再创新高,成为用户购车首选
  自雅迪冠能旗舰新品发布后,不仅获得了众多媒体的盛赞,在近期举办的“雅迪冠能 2023 超级旗舰媒体品鉴会”上还获得中国网、新浪网、 36 氪等多家头部媒体好评,并引发小红书...
日期:04-29
IDC:谷歌首次超过雅虎成为显示广告之王(亚马逊谷歌广告)
5月29日消息,据国外媒体报道,谷歌在5月份达到了几个广告市场的几个里程碑,其中包括首次超过雅虎成为显示广告市场的山中之王。谷歌在5月27日还庆祝其收购AdMob公司一周年。...
日期:07-28
从影院梦想到虚假宣传,激光电视是一场骗局吗?(电视广告投影仪骗局)
  打着“3亿人的家庭影院梦想”幌子的激光电视的神话,快要讲不下去了。   时间倒退几年,激光电视还能拿“尺寸”来说事儿,但如今TCL、红米的98吋液晶电视价格也来到了两万...
日期:09-09
卡巴斯基:苹果iOS面临潜在的安全问题
  【赛迪网讯】北京时间6月21日,据国外媒体报道,来自卡巴斯基首席技术官Nikolay Grebennikov的消息称,苹果对于iOS系统的严格控制会导致安全风险。他认为苹果不应该再继续将...
日期:07-30
UWP 版将被砍掉,微软 OneNote 正获得 Win11 外观设计
  8 月 10 日消息 外媒 Windows Latest 报道,由于主要功能几乎相同,究竟是用 OneNote 桌面版还是 OneNote for Windows 10 UWP 版来做笔记,可能会让人相当困惑。幸运的是,微...
日期:09-21
马斯克计划推出一款智能电视视频应用_马斯克上电视
【】6月18日消息,马斯克在推特上表示计划推出一款智能电视视频应用,这符合该公司新的战略,即专注于在平台上增加视频内容。三星galaxy watch 4续航有网友在该条推特下发文表示:...
日期:09-24
铁路双十一黄金周运输_国铁集团:铁路“双 11”电商黄金周快件运输启动
  11 月 1 日消息,今日,中国国家铁路集团有限公司宣布正式启动铁路“双 11”电商黄金周快件运输,将在 11 月 1 日至 20 日电商网络购物高峰期,积极适应电商物流小批量、快送...
日期:07-17
阿里达摩院开源开放域文本理解大模型SeqGPT_阿里达摩院ai算法
8月30日 消息:阿里达摩院宣布,自研开放域文本理解大模型登陆魔搭社区。SeqGPT是一个不限领域的文本理解大模型。无需训练,即可完成实体识别、文本分类、阅读理解等多种任务。...
日期:08-30
任天堂Switch 2 Max概念渲染图曝光:三边超窄
快科技7月13日讯,除了微软没有动静,任天堂和索尼的新主机都日渐临近。现在,一批非官方的任天堂Switch 2渲染图曝光。比较有趣的是,制作者认为会有Switch 2和Switch 2 Max两款主...
日期:07-14
“心系天下”来了:三星官宣顶级旗舰W23系列今晚发布
今天,三星手机官方正式宣布,将在今晚7点发布心系天下”系列超高端商务旗舰新品:W23系列手机。数理逻辑运用到艺术创作三星note10比note9提升大吗根据海报来看,今年的W23系列将分...
日期:10-22
搭载联发科g90t手机「采用联发科 Helio G99移动平台 realme 10部分配置被曝光」
近日,将于2023年推出的realme 10入门级手机的部分配置被曝光。据Mysmartprice消息,型号为“RMX3630”的 realme 10入门级手机已经现身Geekbench网站,单核得分为483,多核得分为16...
日期:09-29
徕卡旗舰发布100天后,小米有没有高端?_徕卡旗舰发布100天后,小米有没有高端机型
小米发布了第三季度财报,这个财报季是 7、8、9 三个月,正好是小米 12S Ultra 发布三个月,也是小米抱起徕卡冲高端的 100 天,那么我们来看看小米现在有多高端。总销量方面,三季度...
日期:11-26