您的位置:首页 > 互联网

外国200k是多少「最新Claude 200K严重虚标?大神壕掷1016美元实测,90K后性能急剧下降」

发布时间:2023-11-24 17:34:38  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

2020年智能

【新智元导读】月初刚测了GPT-4Turbo上下文真实实力的大神Greg Kamradt又盯上了Anthropic刚更新的Claude2.1。他自己花了1016刀测完之后显示,Claude2.1在上下文长度达到90K后,性能就会出现明显下降。

OpenAI正忙着政变的时候,他们在硅谷最大的竞争对手Anthropic,则悄悄地搞了个大新闻——发布了支持200K上下文的Claude2.1。

看得出来,Claude2.1最大的升级就是将本就很强大的100K上下文能力,又提升了一倍!

特斯拉自动驾驶最新消息

200K的上下文不仅可以让用户更方便的处理更多的文档,而且模型出现幻觉的概率也缩小了2倍。同时,还支持系统提示词,以及小工具的使用等等。

而对于大多数普通用户来说,Claude最大的价值就是比GPT-4还强的上下文能力——可以很方便地把一些超过GPT-4上下文长度的长文档丢给Claude处理。

这样使得Claude不再是ChatGPT的下位选择,而成为了能力上和ChatGPT有所互补的另一个强大工具。

所以,Claude2.1一发布,就网友上手实测,看看官方宣称的200K上下文能力到底有多强。

Claude2.1200K上下文大考:头尾最清楚,中间几乎记不住

本月初,当OpenAI发布了GPT-4turbo的时候,技术大佬Greg Kamradt就对OpenAI的新模型进行了各方面的测试。

他把YC创始人Paul Graham文章的各个部位都添加了标记性的语句后喂给模型,然后来测试它读取这些语句的能力。

用几乎同样的方法,他对Claude2.1也进行了上下文能力的压力测试。

2天时间全网阅读量超过110万

测试结果显示:

在官方标称的极限长度200K下,Claude2.1确实有能力提取出标记性的语句。

位于文档开头的标记性内容,几乎都能被完整的获取到。

但和GPT-4Turbo的情况类似,模型对文档开头内容的获取效果不如对文档底部内容的获取内容。

从90K长度开始,模型对文档底部标记性内容的获取能力就开始下降了。

从图中我们能看到,与GPT-4128K测试结果相比,Claude2.1200K上下文长度,仅仅只是在200K长度的文章中能读取到信息。

而GPT-4128K的情况是在128K长度后出现明显下降。

m1芯片 iPad

如果按照GPT-4128K的质量标准,可能Claude2.1大概只能宣称90K的上下文长度。

按照测试大神Greg说法,的这些测试结果表明:

外国200k是多少

用户在需要专门设计提示词,或者进行多次测试来衡量上下文检索的准确性。

应用开发者不能直接假设在这些上下文范围内的信息都能被检索到。

更少上下文长度的内容一般来说就代表着更高的检索能力,如果对检索质量要求比较高,就尽量减少喂给模型的上下文长度。

关键信息的位置很重要,开头结尾的信息更容易被记住。

外国200k是多少

而他也进一步解释了自己做这个对比测试的原因:

他不是为了黑Anthropic,他们的产品真的很棒,正在为所有人构建强大的AI工具。

苹果自研芯片a16

他作为LLM从业人员,需要对模型的工作原理,优势和局限性有更多的了解和理解。

这些测试肯定也有不周到的地方,但可以帮中使用模型的用户更好的构建基于模型的服务,或者更加有效地使用模型能力。

而在做测试的过程中他还发现了一些细节:

模型能够回忆出的标记事实量很重要,模型在执行多个事实检索任务或综合推理步骤时会降低回忆事实的体量。

外国200k是多少

更改提示词,问题,以及要回忆的事实和背景上下文都会影响回忆的质量。

Anthropic团队在测试过程中也提供了很多帮助和建议,但这次测试调用API还是花了作者本人1016美元(每100万token的成本为8美元)。

自掏200刀,首测GPT-4128K

在这个月初,OpenAI在开发者大会上发布GPT-4Turbo时,也宣称扩大了上下文能力到128K。

当时,Greg Kamradt直接自掏200刀测了一波(单次输入128K token的成本为1.28美元)。

从趋势来看,和这次Anthropic的结果差不多:

当上下文超过73K token时,GPT-4的记忆性能开始下降。

如果需要回忆的事实位于文档的7%到50%深度之间,回忆效果通常较差。

如果事实位于文档开头,无论上下文长度如何,通常都能被成功回忆出来。

而整个测试的详细步骤包括:

利用Paul Graham的文章作为背景token。用了他的218篇文章,轻松达到200K token(重复使用了一些文章)。

在文档的不同深度插入一个随机陈述,称述的事实是:在旧金山最棒的活动是在阳光灿烂的日子里,在多洛雷斯公园享用三明治。

让GPT-4仅依靠提供的上下文来回答这个问题。

使用另一个模型(同样是 GPT-4)和@LangChainAI 的评估方法来评价GPT-4的回答。

针对15种不同的文档深度(从文档顶部的0%到底部的100%)和15种不同的上下文长度(从1K token到128K token),重复上述步骤。

参考资料:

https://twitter.com/GregKamradt/status/1727018183608193393

https://twitter.com/GregKamradt/status/1722386725635580292

https://the-decoder.com/anthropics-best-claude-2-1-feature-suffers-the-same-fate-as-gpt-4-turbo/


返回网站首页

本文评论
曙光重磅亮相2022中国智能制造联盟大会  张迎华:先进计算赋能智能制造和工业互联网,助力中国制造业高质量发展
  1月13日,由中国智能制造系统解决方案供应商联盟、中国电子技术标准化研究院主办的2020年中国智能制造系统解决方案大会暨联盟会员代表大会在北京召开。工业和信息化部副...
日期:07-10
小米4c怎么样「小米4c怎么样?」
小米4c是小米公司于2015年9月推出的一款智能手机,它承袭了小米一贯的高性价比的优势,深受消费者的喜爱。以下是小编对小米4c进行的相关整理。外观设计小米4c外观采用了弧面玻...
日期:05-30
PS + 服务 10 周年纪念主题上线,可免费下载
  7 月 3 日消息 本周五,“PlayStation Plus 10 周年纪念主题”上架港服 PSN 商城,主题文件大小为 7.01MB,目前已免费开放下载,该主题是为纪念 PS + 服务推出十周年而推出。...
日期:07-14
商汤科技(西南)人工智能计算中心“点亮”,AGI基础设施加速产业数字化升级
通信世界网消息(CWW)10月24日,商汤人工智能计算中心(AIDC)深入西南地区,在“满天星”行动计划支持下正式在“山城”重庆点亮。* “满天星”计划指《重庆市软件和信息服务业“满天...
日期:10-25
消费者不再追求顶配,美国市场 iPhone 平均售价再降至 918 美元_美国苹果产品价格
IT之家 11 月 16 日消息,根据消费者情报研究合作伙伴(CIRP)近日发布的报告,2023 年第 3 季度美国市场 iPhone 加权平均零售价(US-WARP)再次下降,从上季度的 948 美元下降至 918 美...
日期:11-16
日本导演拍中国抗疫纪录片_后疫情时代 | 日本纪录片导演探访中国产值暴涨企业
  前言    拍《后疫情时代》这件事,在亮叔心里憋了几个月。   那时 《好久不见,武汉》 上线后,记者问亮叔「接下来的拍摄计划?」。   「接下来的拍摄计划...还没有...
日期:07-16
不止费翔 演员潘粤明也换上了小米14 Pro
快科技11月9日消息,演员潘粤明换上了小米14 Pro,并用小米14 Pro拍摄了他画的水饺。红米note8pro骁龙多少gtx显卡支持光线追踪值得注意的是,演员、歌手费翔和演员张颂文使用的也...
日期:11-10
国庆结婚扎堆:女子吐槽工资5000随份子3000 都是人情世故_国庆节结婚不好吗
又要到国庆假期了,结婚热潮也来袭,你是不是收请帖手软?9月20日,山东济南的李女士反映称,自己从进入9月份就开始随份子,到现在已经随了三份,另外国庆期间的婚礼请帖还有3份,大家还在...
日期:09-21
腾讯城市品牌计划助力“闪耀武汉之夜” 武汉亮出“夜经济”新名片
  6月23日晚,“2020中国城市夜经济影响力行动暨武汉仲夏消费季启动仪式”在武汉正式举办。腾讯视频、腾讯微视、腾讯体育、腾讯游戏等多个业务现场宣布助力武汉夜经济发展...
日期:07-14
小米宣布科技战略升级,小米MIX Fold 3、仿生机器人CyberDog2、端侧大模型等重磅亮相
通信世界网消息(CWW)8月14日晚,小米新品发布会在北京国家会议中心举行,小米集团创始人、董事长兼CEO雷军第四次做年度公开演讲,分享了他在过去36年中,几次关键成长的经历和感悟。...
日期:08-15
八周年诚意之作:荣耀X30预热 环形摄像头致敬经典
  近日荣耀X30正式官宣将于12月16日发布,今天从荣耀官方释放出的预热海报和发布会邀请函来看,荣耀X30产品在快充长续航维度将有所提升,同时具备全屏实力;在ID设计上,手机背面...
日期:07-17
苹果新头显要来了,但AR走到“无人区”_苹果ar镜头
今年6月初苹果首款头显设备Vision Pro的发布像一枚炸弹引爆了整个AR行业,大家都在期待苹果的下注为行业带来拐点时刻。对于普通消费者来说,超过2万元的售价使不少人望而却步。...
日期:11-13
iphone 12 13手机壳通用吗「消息称苹果 iPhone 14 手机壳与上一代通用」
IT之家 9 月 1 日消息,苹果将于下周推出 iPhone 14 / Pro 系列新机,在发布会之前,外媒 9To5Mac 获得了更多信息。首先,苹果 iPhone 14 Plus 的 MagSafe 手机壳图片出现在了网上,...
日期:09-28
东方甄选董宇辉一句“玉米是牲口吃的”引热议 本人回应
今日消息,据三言财经报道,近期东方甄选因6元玉米”陷入舆论风波,董宇辉的一句大部分玉米是喂牲口的”引发热议。苹果手表series8对此,董宇辉直播时解释称,自己的原意被曲解成玉米...
日期:09-29
不容错过!中国2021年度最燃的营销数字化峰会来了_2021,数字化营销五大走势
  我们有多久没有去购物中心?   也是否早已习惯在线打车的出行新方式?   想要的美食,也就是一个手机订单的距离;   家,因为智能家居,也变得更加智慧舒适。   是什么...
日期:10-21
欧盟环保新规将影响手机设计 2027年实施_欧盟环保政策
欧洲议会近日通过了针对在欧盟销售的所有类型电池的新规定。新规不仅涵盖电池的设计、生产和废弃物管理,还要求消费者可以轻松拆卸和更换电子产品中的电池。这意味着目前主流...
日期:06-19
双十一最后冲刺,如何抢占流量洼地?_双十一营销热点
声明:本文来自于微信公众号 友望数据(ID:youwangshuju),作者:西楼,授权转载发布。redmi note11t pro 5g 67w快充今晚8点,视频号“超品日-11·11购物狂欢节”就要开启。经过了两年...
日期:11-02
【爆料】iPhone 15 爆料汇总:圆边、钛金属、Type-C 接口等
iPhone15系列的相关信息正在从供应链、渠道等地方不断涌现,据了解 iPhone15很有可能将改用 USB-C 端口,同时 iPhone15背部的边缘部分会重新回归圆润,然后 iPhone15的所有机型都...
日期:12-01
一边开车一边充电,伟巴斯特的太阳能车顶实现了_太阳能智能车顶
都说纯电动车有里程焦虑,那有没有办法让车利用太阳能一边开一边充电呢?还别说,这个“异想天开”的想法,伟巴斯特实现了。日前,在2023年上海国际碳中和博览会上,伟巴斯特以“创新赋...
日期:06-23
可以像画卷一样展开-苹果新柔性屏iPhone专利曝光_苹果柔性屏好还是硬性屏好
5 月 26 日消息,根据美国商标和专利局(USPTO)公示的清单,苹果公司获得了一项名为“带有柔性显示结构的电子设备”专利,可以像画卷一样徐徐展开。在此翻译苹果部分专利描述如下:win...
日期:09-27