您的位置:首页 > 互联网

文字序顺不响影GPT-4阅读理解,别的大模型都不行_汉字序顺不影响阅读

发布时间:2023-12-04 18:31:19  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色 ,授权转载发布。

研表究明,汉字序顺并不定一影阅响读(对于英文来说,则是每一个单词中的字母顺序)。

三星 CES

现在,日本东京大学的一项实验发现,这个“定理”居然也适合GPT-4。

比如面对这样一段“鬼画符”,几乎里面每一个单词的每一个字母都被打乱:

oJn amRh wno het2023Meatsrs ermtnoTuna no duySan taatgsuAu ntaaNloi Gflo bClu, gnelcinhi ish ifsrt nereg ecatkjnad ncedos raecer jroam。

但GPT-4居然完美地恢复出了原始句子(红框部分):

文字的顺序并不能影响阅读的图片

原来是一个叫做Jon Rahm的人赢得了2023年美国大师赛(高尔夫)的故事。

并且,如果你直接就这段乱码对GPT-4进行提问,它也能先理解再给出正确答案,一点儿也不影响阅读:

对此,研究人员感到非常吃惊:

按理说乱码单词会对模型的tokenization处理造成严重干扰,GPT-4居然和人类一样不受影响,这有点违反直觉啊。

值得一提的是,这项实验也测试了其他大模型,但它们全都挑战失败——有且仅有GPT-4成功。

具体怎么说?

文字顺序不影响GPT-4阅读

为了测试大模型抗文字错乱干扰的能力,作者构建了一个专门的测试基准:Scrambled Bench。

它共包含两类任务:

文字不按顺序排列不影响阅读

一是加扰句子恢复(ScrRec),即测试大模型恢复乱序句子的能力。

它的量化指标包括一个叫做恢复率(RR)的东西,可以简单理解为大模型恢复单词的比例。

二是加扰问答(ScrQA),测量大模型在上下文材料中的单词被打乱时正确理解并回答问题的能力。

由于每个模型本身的能力并不相同,我们不好直接用准确性来评估这一项任务,因此作者在此采用了一个叫做相对性能增益(RPG)的量化指标。

具体测试素材则选自三个数据库:

一个是RealtimeQA,它每周公布当前LLM不太可能知道的最新消息;

第二个是DREAM(Sun et al.,2019),一个基于对话的多项选择阅读综合数据集;

最后是AQuARAT,一个需要多步推理才能解决的数学问题数据集。

对于每个数据集,作者从中挑出题目,并进行不同程度和类型的干扰,包括:

1、随机加扰(RS),即对每一个句子,随机选择一定比例(20%、50%、100%)的单词,对这些单词中的所有字母进行打乱(数字不变)。

2、保持每个单词的第一个字母不变,剩下的随意排列(KF)。

3、保持每个单词的首字母和最后一个字母不变,剩下的随机打乱(KFL)。

参与测试的模型有很多,文章正文主要报告了以下几个:

text-davinci-003、GPT-3.5-turbo、GPT-4、Falcon-180b和Llama-2-70b。

首先来看不同干扰类型的影响。

如下图所示:

在KFL设置中(即首尾字母不变),不管是加扰句子恢复还是加扰问答任务,模型之间的性能差距都不大。

然而,随着干扰难度越来越高(变为KF和RS后),模型的性能都迎来显著下降——除了GPT-4。

雅虎ceo巴茨

具体而言,在加扰句子恢复(ScrRec)任务中,GPT-4的恢复率始终高于95%,在加扰问答(ScrQA)任务中,GPT-4的相对准确性也都始终维在85%-90%左右。

相比之下,其他模型有的都掉到了不足20%。

其次是不同加扰率的影响。

如下图所示,可以看到,在加扰句子恢复(ScrRec)任务中,随着一个句子中被干扰的单词数量越来越多,直至100%之后,只有GPT-3.5-turbo和GPT-4的性能没有显著变化,当然,GPT-4还是比GPT-3.5优先了很大一截。

2022年9月苹果发布的新款ipad

而在加扰问答(ScrQA)任务中,随着句子中被打乱的单词数量越来越多,所有模型性能都出现了都显著下降,且差距越来越大。

但在其中,GPT-4还能以87.8%的成绩保持遥遥领先,并且下降幅度也是最轻微的。

所以简单总结来说就是:

大多数模型都可以处理一定比例的干扰文本,但到极端程度时(比如单词全部打乱),就只有GPT-4表现最好,只有GPT-4面对完全混乱的词序,几乎不怎么被影响。

GPT-4还擅长分词

在文章最后,作者指出:

除了打乱单词字母顺序之外,还可以研究插入字母、替换字母等情况的影响。

唯一的问题是,由于GPT-4为闭源,大家也不好调查为什么GPT-4可以不被词序影响。

有网友发现,除了本文所证明的情况,GPT-4也非常擅长将下面这一段完全连起来的英文:

汉字序顺不影响阅读

UNDERNEATHTHEGAZEOFORIONSBELTWHERETHESEAOFTRA

NQUILITYMEETSTHEEDGEOFTWILIGHTLIESAHIDDENTROV

2013年5月24 深圳面试

EOFWISDOMFORGOTTENBYMANYCOVETEDBYTHOSEINTHEKN

OWITHOLDSTHEKEYSTOUNTOLDPOWER

正确分隔开来:

Underneath the gaze of Orion’s belt, where the Sea of Tranquility meets the edge of twilight, lies a hidden trove of wisdom, forgotten by many, coveted by those in the know. It holds the keys to untold power.

按理来说,这种分词操作是一件很麻烦的事儿,通常需要动态编程等操作。

GPT-4表现出来的能力再次让这位网友感到惊讶。

他还把这段内容放进了OpenA官方的tokenizer工具,发现GPT-4看到的token其实是这样的:

UNDER NE AT HT HE GA Z EOF OR ION SB EL TW HER ET HE SEA OF TRA

这里面除了“UNDER”、“SEA”和“OF”之外,几乎剩下的所有token都看起来“毫无逻辑”,这更加使人费解了。

对此,大伙是怎么看的呢?

参考链接:

[1]https://arxiv.org/abs/2311.18805

[2]https://news.ycombinator.com/item?id=38506140


返回网站首页

本文评论
抖音入局外卖 与美团大战言之尚早「抖音和美团外卖合作」
图片来源@视觉中国文 | 猫头鹰情报局,作者 | 小薪,编辑 | 天天互联网行业已经很久没有打仗了。近日,有消息称“抖音将于3月1日在全国上线外卖服务”,让网友们直呼“有外卖羊毛薅...
日期:02-15
字节跳动推出 “剪映”PC 版:最高支持 4K 视频分辨率与 60fps 帧率_剪映1080p多少帧
  2月4日消息 字节跳动旗下视频剪辑工具 “剪映” 2 月 1 日正式推出了 PC 版应用,适用于 Windows 7 及以上 64 位系统。   剪映官网显示,剪映 PC 版支持多视频轨 / 音...
日期:07-16
第三代骁龙8跑分首曝:CPU多核性能超越A16
第三代骁龙8移动平台已确认将于本月24日发布,今日,一款搭载第三代骁龙8的华硕手机跑分流出,其CPU多核性能已经超越苹果的A16。宏碁的游戏模式根据跑分的成绩来看,第三代骁龙8移...
日期:10-02
百度竞价和seo的区别「百度竞价:对SEO自然排名,有直接影响吗?」
声明:本文来自于微信公众号 蝙蝠侠IT(ID:batmanit),作者:蝙蝠侠IT,授权转载发布。如果没有记错,百度搜索早就强调过:百度竞价,不会干预自然排名,对自然排名没有任何影响。但总是有S...
日期:09-28
大模型时代,百度智能云迎来空前机遇「百度智能云百度百科」
导语:在传统人工智能时代,百度智能云便凭借在人工智能领域的差异化优势,在一众巨头角逐的中国云计算领域打下了稳固的基本盘。而在大模型时代,系统性能力更加凸显的百度智能云,将...
日期:09-02
大年初四全员返岗!特斯拉门店客户激增…
来源:e公司保时捷macan纯电动最新消息不打烊、冲销量,春节假期的新能源车市热力不减。证券时报·e公司走访中发现,多家新能源车品牌推出春节试驾赠送礼品、零首付购车等活动,一...
日期:01-26
华为Mate 50紧急补货:4999原价 黄牛赔惨_华为mate40黄牛炒价
华为Mate 50已经陆续补货了,前不久由于时隔两年的Mate系列旗舰格外火爆,首销当日刚刚发售不到几秒钟就售罄被抢光了,而余承东也在微博宣称华为已经在紧急生产,现在仍然是4999起...
日期:10-06
Pro 13.2'今日开售 5199元起_华为旗舰平板MatePad
来源:中关村在线华为首款大屏平板正式发布,售价5199元起 华为MatePad Pro 13.2invitation正式发布,这款平板电脑是华为首款大屏平板,拥有13.2英寸柔性OLED屏幕,是业内首款采...
日期:09-29
华为正式启用鸿蒙「支付宝正式接入华为鸿蒙生态」
11月4日消息,华为今日在2022开发者大会上表示,正在和支付宝探索基于HarmonyOS原子化服务的更多可能,支付宝正式接入鸿蒙生态。据悉,用户很快将体验到通过智慧搜索,一步直达支付宝...
日期:11-06
2022国庆档电影看哪部?票房预售榜出炉_2019年国庆档电影总票房
10月1日消息,猫眼专业版数据见证,9月30日20时56分,2022年国庆档(10月1日-10月7日)预售票房破5000万。电影《万里归途》票房占比最高。另外,据灯塔专业版数据,截至9月30日16时55分,20...
日期:10-03
CPU也能战未来 AMD锐龙线程撕裂者3年后性能提升15%_锐龙线程撕裂者1920x
游戏玩家都知道一个梗A卡战未来,说的是AMD显卡在发布之后不断优化,性能要比发售之前提升的事,现在AMD的CPU也可以战未来了,锐龙线程撕裂者3990X被发现在3年之后性能提升15%。Pho...
日期:02-09
智能手机的电池健康功能,为何会遭到用户“嫌弃”_手机电池健康准吗
声明:本文来自于微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。京东配送有飞机吗大家不妨想象一下,假设现在是2003年,而你则是一位十分热衷于数码产品的“弄潮...
日期:06-10
netflix剧集推荐「Netflix《The Playlist》发布预告:一部关于Spotify崛起的剧集」
Netflix已经发布了《The Playlist》--它即将推出的关于Spotify创建的节目--的官方预告片。这个近两分钟的预告片表明该节目将非常严肃地审视这个流媒体巨头如何建立其帝国。...
日期:10-04
微信红包封面开放平台升级裂变发放功能_微信红包封面开放平台官网入口
10月19日 消息:为进一步提升封面发放效率、加速封面在用户社交场景中的传播,微信红包封面开放平台现已升级裂变发放功能。当定制方发放封面时设置了裂变发放,用户可通过两种社...
日期:10-19
员工称在家养病却飞往海南遭解雇 法院判了
4月16日消息,据每日经济新闻报道,北京一家科技公司员工许某某以头晕颈椎病行动不便”需卧床静养”为由,向领导请了14天病假后却跑到海南。然而,他现身海南机场的消息被人告知了...
日期:04-16
青海地区用户有福了!青海联通与青海电信联手干了一件大事 网速将大幅提升
通信世界网消息(CWW)日前,青海联通与青海电信联手签署了一个重要合作协议,也成为全国首个“创举”,这对于当地用户而言可谓大有裨益,那么到底是何举动呢?苹果的A系列芯片9月18日,青...
日期:09-25
《名侦探柯南:黑铁的鱼影》宣布引进 今年第四季度国内上映
新创华SCLA今天( 6 月 27 日)公开了《名侦探柯南:黑铁的鱼影》(M23)引进内地的现场照片,从图片中可以看出,这部电影预计将在 2023 年第四季度登陆内地影院。据悉,该作在日本已经突破...
日期:06-27
苹果1586价格「史上最贵iPhone!iPhone 15将全系涨价」
iPhone15还有3个月就要和我们见面了,不过今年的iPhone可能要刷新价格记录,供应链的消息称,苹果有可能在iPhone 15系列新机中涨价100至200美元,约为一成至二成的涨幅,iPhone 15 Pr...
日期:06-13
世界在世最长寿猫将满27岁:相当于人类120岁「寿命最长的猫世界纪录」
作为人类最喜爱的萌宠之一,猫咪在世界范围内家庭都有饲养,那么目前世界上最长寿的猫多大了呢?据@央视财经报道,尼斯世界纪录网站最新发布声明称,即将满27岁的英国宠物猫弗洛茜”...
日期:11-28
高通 英特尔「高通打响围攻英特尔的第一枪」
出品 | 虎嗅科技组作者 | 丸都山编辑 | 王一鹏头图 | 高通官网“Oryon CPU 的开发进度甚至超过了我们自己的预期。”北京时间 10 月 25 日凌晨,高通骁龙技术峰会正式召开。不...
日期:10-26