您的位置:首页 > 互联网

aipl模型「研究:AI模型仍不擅长生成干净代码 GPT-4的API误用率达62%」

发布时间:2023-08-30 23:40:01  来源:互联网     背景:

文章概要:

1. AI模型在回答Java编码问题时,仍存在许多API误用问题。GPT-3.5和GPT-4的API误用率分别达到49.83%和62.09%。

2. Llama2API误用率最低,但由于它生成的代码较少,误导性很大。一旦生成更多代码,其误用率也大幅上升。

3. 添加相关API使用示例能稍微改善结果,但仍有改进空间。代码的可靠性和稳健性仍是难题。

黄色apple

ai数据模型

8月30日 消息:近期,计算机科学家对几个大型语言模型在StackOverflow的Java编码问题上的回答进行了评估,结果发现这些模型的代码质量仍然不尽如人意。

研究人员收集了1208个StackOverflow上的Java编码问题,这些问题涉及24个常见的Java API。然后他们用4个可生成代码的大型语言模型(GPT-3.5、GPT-4、Llama2和Vicuna-1.5)进行了回答,并根据自己开发的API检查器RobustAPI对回答进行评估。RobustAPI旨在评估代码的可靠性,即抵御失败和意外输入的能力,以及承受高工作负载的能力。

酷冷至尊功能

加州大学圣地亚哥分校的研究人员测试了 OpenAI 的 GPT-3.5和 GPT-4,以及大型模型系统组织的两个开放模型:Meta 的 Llama2和 Vicuna-1.5。他们对这组问题进行了三种不同的测试:零样本,其中输入提示中没有提供正确的 API 使用示例;one-shot-imrelevant,其中提供的示例与问题无关;一次性相关,其中提示中提供了正确的 API 使用示例。

这些模型在零样本测试中表现出的总体 API 误用率如下:

GPT-3.5(49.83%);GPT-4(62.09%);Llama2(0.66%);和Vicuna-1.5 (16.97%)。

简单的说就是,在零样本测试中,GPT-3.5和GPT-4的API误用率较高,分别达到49.83%和62.09%。

Llama2的误用率最低,只有0.66%,但这主要是因为其大多数回答并不包含任何代码。

在添加不相关示例的一次样本测试中,各模型的误用率有所上升,尤其是Llama2上的升幅最大。这说明一旦生成了更多代码,Llama2的误用问题也显现出来。

对于一次性无关测试,误用率分别为:

GPT-3.5(62.00%);GPT-4(64.34%);Llama2(49.17%);和 Vicuna-1.5(48.51%)。

而在提供相关示例的一次样本测试中,误用率有所下降,但仍普遍存在,误用率如下:

GPT-3.5(31.13%);GPT-4(49.17%);Llama2(47.02%);和 Vicuna-1.5(27.32%)。

研究认为,大型语言模型代码生成能力的提升与代码可靠性和稳健性之间存在明显差距。模型生成的代码充其量只保证语义上的正确性,而忽视了意外输入和高负载环境下的稳定可靠性要求。改善这一问题仍有很大的空间。语言模型的代码生成还需要在工程质量上下功夫,而不仅仅追求生成更多代码。

百度集福红包在哪里能看到


返回网站首页

本文评论
逼真复刻「完美中国情侣」!加强版Stable Diffusion免费体验,最新技术报告出炉
声明:本文来自于微信公众号 新智元(ID:AI_era),作者:桃子 好困,授权转载发布。就在刚刚,号称是「开源版Midjourney」的Stable Diffusion XL0.9的技术报告,新鲜出炉。「加强版」Sta...
日期:07-06
2010十大免费软件:谷歌Chrome浏览器排第八_下载最新版chrome浏览器
  12月27日消息,据国外媒体报道,目前相关研究机构对2010年的免费软件进行了排名,列出了今年最受欢迎的免费软件。以下是排名前十位的免费软件(依次从第十至第一:   十、系...
日期:07-25
“明星x总裁 青腾集市联播计划”收官,“明星+企业家”搭档卖货超1亿!
  6月6日至8日,广州市商务局主办了为期三天的“首届直播节(中国·广州)”。为帮助企业复工复产,利用数字化工具实现经营闭环,青腾汇联合腾讯微视和微信小程序,发起了首期...
日期:07-14
陌陌签约主播在抖音直播被索赔千万违约金:一审判赔300万_抖音主播违约责任
10月8日消息,据澎湃新闻报道,中国裁判文书网公布的判决书显示,2019年10月17日,原告天津合尔公司(陌陌科技全资子公司)与被告秦某某签订了《王牌主播直播协议》。约定甲方系乙方直...
日期:10-27
金山办公推出AI驱动应用" WPS AI"_金山办公系统
金山办公推出" 了WPS AI,这是" 一款具备大语言模型能力的AI驱动应用。WPS AI的第一站""是轻量级文档编辑工具,AI生成的内容可以直接嵌入文档正文,支持多轮对话,提升效率。重要性...
日期:04-18
北上高铁出现大规模晚点 官方回应:故障抢修完毕 有序恢复通行
4月10日消息,今日有不少网友在网上反馈称,一些北上高铁和动车组列车出现晚点情况,大多晚点时间超过一个小时。据悉,此次晚点由线路故障导致,造成部分北上方向列车晚点。红星新闻...
日期:04-10
助推消费者创业,智伴科技打造优质新零售电商平台_o2o智慧零售商
  10月18日,广州智伴人工智能科技有限公司(以下简称:智伴科技)在泰国举行了以“探索·成长”为主题的三周年庆祝盛典。盛典上,智伴科技销售总经理桂思思为大家对智伴新零售...
日期:10-16
春节档破19亿 《流浪地球2》领跑:主演吴京总票房即将突破300亿「《流浪地球》以超过22亿的票房成为春节电影票房冠军」
春节档的电影票房记录正在不断刷新,昨晚刚破15亿,现在的最新数据已经是19亿据灯塔专业版官方数据,截至1月23日6时16分,2023年春节档(1月21日-1月27日)总票房(含预售)破19亿!位居前列...
日期:01-24
巨头联手!抖音宣布与腾讯视频合作:可以合法二创了「腾讯短视频和抖音」
有生之年系列来了!抖音居然和腾讯合作了!今天上午,抖音官方通过抖音和ta的朋友们”公众号正式宣布:近期抖音和腾讯视频达成合作,双方将围绕长短视频联动推广、短视频二次创作等方...
日期:04-07
三大运营商上半年日赚逾5亿元 将斥资超500亿元大手笔派现_三大运营商让利1800亿
陌陌上市股价三星官方邮箱   本报记者;李乔宇   8月16日晚间,中国电信发布2022年半年度报告。半年报显示,2022年上半年公司营业收入为2402亿元,同比增长10.4%,其中服务收入...
日期:08-19
互联网信息服务算法备案系统上线,已有部分算法提供者备案「算法备案制度」
  3 月 1 日,互联网信息服务算法备案系统上线,具有舆论属性或者社会动员能力的算法推荐服务提供者,应当在提供服务之日起十个工作日,对算法主体信息、算法信息、产品及功能信...
日期:09-26
梁建章:旅游业的复苏与兴盛是长期趋势,不会被短期波折所阻碍
12月2日消息,携程集团联合创始人、董事局主席梁建章表示,“作为人与人、国家与国家之间沟通交流的重要场景,旅行是不可或缺的,也是人生重要的幸福感来源。旅游业的复苏与兴盛是...
日期:12-03
Redmi K60配置全曝光  明年上市芯片不是旗舰
中关村在线消息:近日,Redmi K60系列的相关配置信息被曝光,据悉新机将搭载新一代骁龙8 Plus处理器,屏幕为2K分辨率AMOLED屏幕,支持120Hz高刷,以及1000nit亮度。新机的发布时间为明...
日期:10-12
你升没?中电信半年净赚183亿:千兆宽带、5G提速降费 用户激增「中国电信大涨」
中国电信今天发布公告,上半年实现营收2402.19亿元,同比增长10.4%;净利润182.9亿元,同比增长3.1%;按照2022年中期净利润的60%向全体股东分配股息,每股派发0.120元。上半年移动通信...
日期:09-26
skype现状「比微软晚了两年:世纪互联宣布国内Skype即将停用」
快科技8月21日消息,今天,世纪互联旗下微信公众号 Office365云服务技术支持 ”发布公告,正式宣布其在国内负责运营的Skype将停运。iPhone13供货量极米h3s性价比根据公告,目前由世...
日期:08-21
迪士尼裁员人数增至32万「又有巨头扛不住了!迪士尼宣布裁员7000人:省了55亿成本」
2月9日消息,当地时间2月8日,美国迪士尼公司的首席执行官鲍勃伊格尔在公司财报电话会议上表示,迪士尼将裁员7000人,以节省成本。realme Ui2.0据迪士尼去年10月提交的证券备案文件...
日期:02-09
特斯拉宏图:第二篇章「马斯克将于3月1日公布特斯拉宏图第三篇章 第二篇章已烂尾」
2月8日消息,马斯克今天在Twitter上宣布,3月1日的特斯拉投资者日活动中,他将公布特斯拉宏图第三篇章(Master Plan Part 3)。该活动将在美国德克萨斯州的特斯拉超级工厂(Giga Texas)...
日期:02-08
RTX 4080 16GB/12GB性能对比:能差30%
今年NVIDIA同时首发了RTX 4080 16GB和12GB,规格上的区别较为明显,那么实际性能差异如何呢?苹果12暴跌的原因VCZ基于三款游戏《瘟疫传说:安魂曲(A Plague Tale: Requiem)》、《F1 2...
日期:10-24
欧洲能源危机:全球最大化工厂利润狂减 砸100亿欧元来中国建厂
作为化工强国,德国在这波能源危机下,显得非常被动,而相关企业最直接的表现就是成本暴增,净利润下滑,所以加大对外投资就是必然。全球最大强化工巨头巴斯夫交出了自己的成绩单,2022...
日期:10-22
性价比与体验式营销,迪卡侬“固执”的新零售之路「迪卡侬体验式营销论文」
声明:本文来自于微信公众号 营销看克(ID:yingxiaokanke),作者:大可,授权转载发布。全球超1300家门店,年收入近千亿,在经济市场发展降速趋稳的环境下,迪卡侬逆势增长,开启了新一轮的...
日期:11-07