您的位置:首页 > 互联网

代码能力超越GPT-4,这个模型登顶Big Code排行榜,YC创始人点赞_g代码入门

发布时间:2023-11-03 18:02:50  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:克雷西 ,授权转载发布。

一款号称代码能力超越GPT-4的模型,引发了不少网友的关注。

准确率比GPT-4高出超过10%,速度却接近GPT-3.5,而且窗口长度也更长。

据开发者描述,他们的模型取得了74.7%的Pass@1通过率,超过了原始GPT-4的67%,登上了Big Code榜首。

这个模型名叫Phind,和以其为基础的面向开发者的AI搜索工具同名。

它是由开发团队在CodeLlama-34B的基础之上微调得到的。

Phind利用TensorRT-LLM在H100上可以跑出每秒100个token的速度,是GPT-4的5倍。

此外,Phind的上下文长度达到了16k,其中12k可供用户输入,另外4k保留给检索结果中的文本。

针对这个产品,网友们议论纷纷,结果是喜忧参半:

支持的人,如著名创业投资公司YCombinator创始人Paul Graham表示,Phind可以让人们用更少的资源和大厂抗衡。

也有网友具体列出了Phind的优点:

不认可Phind的网友则说,自己之前用GPT-4写的代码,Phind写不出来:

代码org

代码大赛

更是有人吐槽说,GPT“每天都在被打败”,但是从来没被超越过。

有意思的是,在Phind应用当中,自研模型又被称作“fast model”,而“best model”仍然是GPT-4。

(虽然没明说,但是GPT-4和best model的剩余可用次数是同步变化的)

所以,这个号称“击败了GPT-4”的模型到底是不是真的那么好用,我们进行了一番实测。

Phind vs GPT-4

正式开始之前,先来说说对Phind的第一印象。

它的界面十分简洁,主要就是一个搜索框,而且不需要登录就能无限量使用。

左下角有一个Pair Programmer的开关,直观上的区别就是开启之后回答界面更侧重对话,不开启的话则更像搜索引擎。

此外,还可以从自研模型和GPT-4中选择,GPT-4则需要登录,而且每天只能用10次。

接下来就是和GPT-4进行的对比测试,GPT-4没有开启代码解释器。

首先还是从LeetCode题目开始测起,Prompt就是是原问题加上下面这段话:

请用Python写一段代码解决这个问题,给出通用的解法,不需要设定参数值,代码需要以如下内容开头:

(LeetCode页面中给出的起始片段)

为了防止Phind通过检索来“作弊”,我们还在Phind的Prompt结尾加入了这句话:

不要检索任何信息,靠你自己的能力创建代码

第一题在LeetCode中被归为组合数学问题,难度为困难,通过率67.1%。

Phind给出了这样的代码和解释,经过测试,20条测试数据中有19项正确。

出错的是这一条,这里的输出结果应该是3,但Phind给出的程序运行结果是4。

我们试着反馈给Phind,看它能不能找出错误的原因,结果分析一番之后给出了新的代码,并通过了测试。

而GPT-4这边,则是一次性通过。

进入下一题,这道题目涉及到了动态规划,通过率为53.9%。

这次Phind和GPT-4都是以一次通过。

第三道题目的通过率只有约30%,但它的难度可能在于用来判题的测试数据太庞大了。

Phind给出的这段代码就在通过前12组测试数据之后出现了运行时间超限的现象。

我们让它试着进行优化,结果这次直接是算不对了。

而GPT-4则轻松解决,不过在解释说明部分有些错误,因为超级回文数的概念中的描述是“回文数的平方”而不是“平方是回文数”。

三道LeetCode题目测试下来,Phind以一平两负的成绩输给了GPT-4。

但需要说明的是,这里我们为了测试模型本身表现,通过提示词关闭了Phind的检索功能,但从实用角度出发,如果保留搜索,Phind还是能很好地解决这些问题的。

接着,我们又测试了一下他们的实际开发能力,这次的题目是扫雷游戏。

Phind会问我们有没有什么特殊要求,这里我们直接点跳过。

然后Phind会对任务进行拆解,对每个子任务又分别进行检索。

如何用移动硬盘安装系统

这时的代码也是分段给出的,有趣的是,在生成过程中,Phind会使用不同来源中的代码。

然后我们让Phind给出完整代码,并通过链接的第三方平台直接运行。

结果呢,我们一进去就看到程序已经非常“贴心”地把雷的位置清楚地标注好了。

不过这次,GPT-4的代码更加离谱一些,运行出来是这样的:

虽然都没做对,但硬要比较的话,这一轮,Phind略胜一筹。

一路测试下来,很难判断它们孰优孰劣,但考虑到搜索能力,以及免费免登录的特性,Phind还是可圈可点的。

参考链接:

https://www.phind.com/blog/phind-model-beats-gpt4-fast

—完—

代码大全 github


返回网站首页

本文评论
联想集团发布全球第一款全尺寸双屏笔记本电脑,重新定义双屏_联想笔记本电脑双屏显示快捷键
1月5日,被誉为年度消费电子行业“风向标”的国际消费电子展(CES)在美国拉斯维加斯正式开幕,今年规模相较去年扩大了50%,是后疫情时代全面复苏规模最大的一届。全球科技巨头联想集...
日期:09-21
长安新能源增购补贴「13860元!长安深蓝发布新能源国补退坡补贴方案」
根据国家新能源汽车政策规定,2022年新能源汽车购置补贴政策将于2022年12月31日终止。华硕ROG Rapture GT-AXE1100011月27日,长安深蓝官方发布国补退坡补贴方案。为了回馈消费...
日期:12-03
考拉征信涉嫌黑产被查,拉卡拉:公司不能控制、实际支配考拉征信
  11月21日消息 近日,江苏淮安警方依法打击了7家涉嫌侵犯公民个人信息犯罪的公司,涉嫌非法缓存公民个人信息1亿多条,其中,考拉征信涉嫌非法提供身份证返照查询9800多万次,获利...
日期:11-11
国产笔记本哪个好_国产笔记本哪个比较好
随着科技的不断进步,笔记本电脑已经成为了人们生活中不可或缺的一部分。然而,在众多的笔记本品牌中,国产品牌的笔记本也越来越受到了消费者的青睐。那么,国产笔记本哪个好呢?接下...
日期:05-29
【科技早报】 余承东评新M7销量“起死回生”;库克发推缅怀乔布斯
1.法拉第未来:将向贾跃亭交付车辆2.消息称苹果考虑将 Safari 无痕模式搜索引擎从谷歌切换到 DuckDuckGo3.X公司考虑将订阅服务分为三个级别现金贷风控4.马斯克回应SEC起诉:迫...
日期:10-07
施密特称换帅不会引发巨变 谷歌将照常运作(谷歌ceo施密特)
  据国外媒体报道,谷歌首席执行官施密特周五表示,虽然公司将在今年4月更换首席执行官,但整个公司高层并不会发生重大变化。   施密特在参加达沃斯世界经济论坛时表示:“我...
日期:07-26
在线视频缓存m3u8转为mp4「m3u8视频转成mp4失败怎么办?m3u8网页视频怎么打开?」
由于m3u8格式文件很小,因此网上逐渐开始出现这个格式的视频。由于m3u8格式的文件只是存储多媒体播放列表,因此打开它时播放软件并不是播放它,而是根据它的索引找到对应的音视频...
日期:11-30
为什么xbox卖不过ps「微软主动示弱:承认2021年PS主机销量是Xbox的两倍」
近日,微软向美国联邦贸易委员会(FTC)提交文件,透露2021年PS主机的销量达到了Xbox的二倍,任天堂主机则跟更为夸张,是Xbox的三倍。与此同时,微软还表示,索尼的独占游戏数量达到了微软...
日期:12-25
波士顿动力机器狗能开口聊天了!ChatGPT加持,对话机智妙语连珠
鱼羊 发自 凹非寺量子位 | 公众号 QbitAI好家伙,波士顿动力机器狗,现在能直接开口说话了。并且不同于Siri的“人工智障”,ChatGPT加持的狗,聊起天来那叫一个妙语连珠。比如随口...
日期:10-28
Windows 11 将于10月5日正式推送_Windows11何时推送
  原标题:微软:Windows 11 10月5日正式推送!Win10可免费升级       微软官方宣布,Windows 11正式版将于2021年10月5日推出,面向现有正版Windows 11 PC陆续开始推送。   ...
日期:07-17
爱彼迎联合创始人加入特斯拉董事会「爱彼迎联合创始人加入特斯拉董事会了吗」
  Airbnb联合创始人加入特斯拉董事会苹果明年将推出5g手机pico 4K  讯 北京时间9月29日消息,特斯拉发布消息称,Airbnb(爱彼迎)联合创始人约瑟夫·格比亚(Joseph Gebbia)已经加...
日期:09-29
“贱卖”推特家产,拟让特斯拉填“窟窿”,痛失全球首富头衔…收购推特,还会给马斯克带来什么麻烦?
  记者/文巧; ;  编辑/兰素英;;  近日,在一家拍卖网上,原本价值几千上万美元的办公设备和家具电器,通通仅以25美元或50美元起售,而这些资产正是来自备受关注的推特。  ...
日期:12-13
俄罗斯喀山出现“蘑菇云”吓到居民 官方回应:实为积雨云、非人为
8月4日消息,提到蘑菇云”,很多人首先想到的肯定是原子弹或者是氢弹等大规模杀伤性武器爆炸后会产生的一种现象,这不,近日在俄罗斯喀山市,就出现了一硕大的蘑菇云”,这可把当地居民...
日期:08-04
oppo reno 9pro「Reno9 Pro/Pro+手机售价公布:最贵4399元」
OPPO正式发布了OPPO Reno9系列,除了标准版以外,还有着OPPO Reno9Pro和Reno9Pro+ ,售价如下:Reno9Pro16GB+256GB售价3499元,16GB+512GB售价3799元,Reno9Pro+16GB+256GB售价3999元,1...
日期:11-27
boss直聘用他人身份证做招聘「BOSS直聘现多个无厘头职位名称:找不干人事的人事」
网络招聘平台本来是拉近求职者与企业距离的平台,但近期被曝出不少负面消息,彰显了平台管理审核的漏洞。近日,更是有网友在BOSS直聘上发现了多个无厘头的职位名称,什么钱多活少离...
日期:10-02
特斯拉马斯克生产线「特斯拉建厂传闻天天都有,但马斯克现在不着急扩张」
9月25日消息,最近,几乎每天都有新闻提到特斯拉可能会在某个地方建厂,而埃隆·马斯克(Elon Musk)也频频与多国领导人会面。但实际上,马斯克并不急于建造更多特斯拉工厂。仅上周就有...
日期:09-25
连续11年!腾讯新闻再获博鳌亚洲论坛唯一中文网络媒体及独家视频合作伙伴
  一年一度,又见博鳌。3月26日,博鳌亚洲论坛2019年年会开幕。作为2019年中国重要的主场外交活动,本届博鳌论坛围绕“共同命运,共同行动,共同发展”的主题开展诸多重大议题探讨...
日期:05-28
nvidia年营收「NVIDIA发布2024财年第一季度财务报告」
2023/5/25 14:30 NVIDIA发布2024财年第一季度财务报告   季度收入为71.9...
日期:06-02
华为Mate 60 Pro支持面容支付:微信和支付宝都支持
华为Mate 60 Pro先锋计划已经推出一周,许多用户已经第一时间体验到了这款全新的国产高端旗舰。这款手机采用了独特的“三开孔”设计,这是为了满足高安全级别的人脸识别功能而...
日期:09-06
谨防虚假微粒贷APP诈骗_假冒微粒贷app诈骗后,担心被骚扰通讯录
作为微众银行推出的一款正规小额贷款产品,微粒贷一直是很多人日常资金周转应急之选。不过,有的小伙伴不明真相,会被诱导点击链接下载虚假APP。苹果智能家居支持的设备在此,要提...
日期:07-25