您的位置:首页 > 互联网

GPT-4“荣升”AI顶会同行评审专家?斯坦福最新研究:ICLR/NeurIPS等竟有16.9%评审是ChatGPT生成

发布时间:2024-03-25 17:08:39  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,,授权转载发布。

斯坦福的一篇案例研究表示,提交给AI会议的同行评审文本中,有6.5%到16.9%可能是由LLM大幅修改的,而这些趋势可能在个体级别上难以察觉。

LLM在飞速进步的同时,人类也越来越难以区分LLM生成的文本与人工编写的内容,甚至分辨能力与随机器不相上下。

这加大了未经证实的生成文本可以伪装成权威、基于证据的写作的风险。

尽管在个例上难以察觉,但由于LLM的输出趋于一致性,这种趋势可能会放大语料库级别的偏见。

基于这一点,一支来自斯坦福的团队提出一种方法,以此来对包含不确定量的AI生成文本的真实世界数据集进行可比较的评估,并在AI会议的同行评审文本中验证。

小米路由器AX6000多少钱

论文地址:https://arxiv.org/abs/2403.07183

AI会议的同行评审可能是AI?

同行评审是一种学术论文发表前的质量评估机制。

这些同行评审者通常具有相关领域的专业知识,他们会对论文的原创性、方法学、数据分析、结果解释等进行评价,以确保论文的科学性和可信度。

soul直播软件

斯坦福团队研究的AI会议包括ICLR2024、NeurIPS2023、CoRL2023和EMNLP2023,他们的研究发生在ChatGPT发布之后,实验观察估计LLM可能会显著修改或生成的大语料库中的文本比例。

结果显示,有6.5%到16.9%可能是由LLM大幅修改的,即超出了拼写检查或微小写作更新的范围。

在下图中,可以看到ICLR2024同行评审中,某些形容词的频率发生了显著变化,例如值得称赞的、细致的和复杂的,它们在出现在句子中的概率分别增加了9.8倍、34.7倍和11.2倍。而这些词大概率是由人工智能生成的。

同时研究还发现,在报告较低自信度、接近截稿时间以及不太可能回应作者反驳的评论中,LLM生成文本的估计比例较高。

最大似然让LLM现形

因为LLM检测器的性能不稳定,所以比起尝试对语料库中的每个文档进行分类并计算总数,研究人员采用了最大似然的方法。

研究方法主要分成四个步骤:

1. 收集(人类)作者的写作指导——在这个情况下是同行评审指导。将这些指导作为提示输入到一个LLM中,生成相应的AI生成文档的语料库。

2. 使用人类和AI文档语料库,估算参考标记使用分布P和Q。

3. 在已知正确比例的AI生成文档的合成目标语料库上验证方法的性能。

4. 基于对P和Q的这些估计,使用最大似然法估算目标语料库中AI生成或修改文档的比例α。

上图对方法进行了流程可视化。

研究人员首先生成一个具有已知科学家或AI作者身份的文档语料库。利用这些历史数据,我们可以估算科学家撰写的文本和AI文本的分布P和Q,并验证我们方法在留存数据上的性能。最后,使用估算的P和Q来估算目标语料库中 AI 生成文本的比例。

在验证集中,该方法在LLM生成反馈比例方面表现出高精度,预测误差不到2.4%。同时,团队对鲁棒性也进行了验证。

另外,一位审稿人可能会分两个不同阶段起草他们的审稿意见:首先,在阅读论文时创建审稿的简要大纲,然后使用LLM扩展这个大纲以形成详细、全面的审稿意见。

在这种场景的验证中,算法仍旧表现出色,能够检测到LLM用于大幅扩展由人提供的审稿大纲的情况。

实验结果中还发现了什么

首先,团队将AI会议的同行评审和Nature Portfolio期刊的α进行了比较。

与AI会议相反,Nature Portfolio期刊在ChatGPT发布后没有显示出估计α值的显著增加,ChatGPT发布前后的α估计值仍在α =0验证实验的误差范围内。

这种一致性表明,在与机器学习专业领域相比,广泛的科学学科对AI工具的反应有明显的不同。

除了发现同行评审文本中,有6.5%到16.9%来自于LLM的手笔之外,该研究还发现了一些有意思的用户行为,在四个AI会议里保持一致:

1. 截至日期效应:在审稿截止日期前3天内提交的评审往往更倾向于用GPT

2. 参考文献效应:包含et al.一词的评审,即有学术引用的评审,更不会用GPT

3. 回复率降低效应:审稿讨论期间,审稿人回复数量越多,评审更不会用GPT

4. 同质化效应:与同论文其他审稿意见越相似的评审,越可能用GPT

5. 低置信度效应:自评置信度在5分制度中为2分或以下的评审与较高置信度(3分或以上)的评审相比,更可能用了GPT

尽管这项研究存在一定的局限性,比如只涉及了四个会议、仅使用了GPT-4来生成AI文本,并且可能存在其他误差来源,比如由于主题和审稿人的变化而导致的模型时间分布的偏差。

但是,研究的结论启示了LLM可能对科学界产生的潜在影响,这有助于激发进一步的社会分析和思考。希望这些研究结果能够促进对于LLM在未来信息生态系统中应该如何使用以及可能带来的影响的深入探讨,从而推动出台更加明智的政策决策。

参考资料:

https://arxiv.org/abs/2403.07183


返回网站首页

本文评论
金钱豹可怕吗「金钱豹学会了拜拜 网友:这是对动物的不尊重和伤害」
近日,广东中山的一只金钱豹学会了拜拜,引起了游客和网友的关注。据饲养员介绍,春节期间游客较多,一些游客拜拜想旺财,时间久了,金钱豹也学习了游客的动作开始拜拜。金钱豹因为其美...
日期:03-13
中概股周一收盘涨跌互现 腾讯音乐涨近6% 趣活跌超11%(腾讯股票涨停)
手机号所属地区和运营商全球q1手机出货量   北京时间16日凌晨,美股周一小幅收高,主要股指延续上周涨势。市场继续关注全球经济衰退风险,并等待美国零售巨头财报以及7月零售销...
日期:08-20
云业务面临AI的关键时刻-谷歌高管解读Q1财报,大语言模型是搜索的真正机遇
北京时间4月26日早间消息,Alphabet(谷歌母公司)今天发布了该公司截至3月31日的2023财年第一季度财报。报告显示,Alphabet第一季度总营收为697.87亿美元,与上年同期的680.11亿美元...
日期:10-01
中国移动 数字乡村「陕西移动数智赋能乡村产业发展」
通信世界网消息(CWW)乡村振兴,产业兴旺是重点。今年是加快建设农业强国的起步之年,在陕西,陕西移动依托自身信息技术优势,在电子商务、养殖业、农业等方面注智赋能,推动特色产业稳...
日期:12-05
快手第二季度在线营销服务收入110亿元 同比增长10.5%_快手实时销售额
查看最新行情 为什么手机要取消耳机孔极客公园里李彦宏  讯 8月23日下午消息,快手今日发布2022年第二季度及全年财报。财报显示,该公司第二季度营收217...
日期:08-24
起底“妖股”尚乘数科:创始人或被禁业两年,与小米集团有深度合作
昨夜,股价一路飞涨的尚乘数科(HKD.US)掉头向下,盘中最高跌幅达41%,触发熔断,截至收盘,跌34.48%。   尚乘数科母公司为尚乘集团,其背后浮现出李嘉诚及长江和记实业有限公司(长和;0000...
日期:08-06
千万爆款视频获涨粉30万,B站音乐区终迎“狠活儿”UP主?_B站百万粉UP主视频
声明:本文来自于微信公众号 TopKlout克劳锐(ID:TopKlout),作者:白羊,授权转载发布。B站的音乐区已经很久没有“狠活儿”了在2018年B站第一届百大up主名单中,音乐区是入榜up主数量...
日期:02-09
阿里变革,更进一步_阿里改革的历史意义主要有哪些
声明:本文来自于微信公众号 字母榜(ID:wujicaijing),作者:谭宵寒,授权转载发布。8月10日,阿里巴巴发布“1+6+N”组织变革后的首份财报。变革效果在财报里得以展现。2024财年第一财季...
日期:08-12
腾讯将开发《怪物猎人》手游 与卡普空合作_腾讯将开发《怪物猎人》手游 与卡普空合作的游戏
中关村在线消息:近日,腾讯与卡普空宣布,将会合作开发《怪物猎人》手游,据了解,官方将该作品称为“再现定义《怪物猎人》系列的狩猎动作”,同时提供“移动设备独有的新游戏体验。”...
日期:11-14
Redmi K70 Pro连拍1秒30张超华为P60 Pro 王腾:领先遥遥领先的友商_红米k40pro连拍
快科技11月29日消息,Redmi官方宣布,K70 Pro影像全面进化,首次支持闪电快拍,速度更快画质更好。据Redmi市场总经理、Redmi品牌发言人王腾介绍,Redmi K70 Pro闪电快拍单次最高可连...
日期:11-29
本田公布全新 HondaJet 概念飞机,可实现从纽约至洛杉矶不间断飞行_Honda飞机
  10 月 14 日消息,当地时间 10 月 12 日,本田(Honda)的飞机事业子公司 Honda Aircraft Company(HACI)在美国公务航空会议暨展览会(NBAA)上,展示了概念机型轻型公务机 Honda...
日期:10-11
2019岁末盘点!科技发烧友不能错过的最新应用
  2019年,是我国科技快速发展的一年。在这一年中,我国科技企业在“贸易战”的影响之下依然取得了骄人的成绩。站在2020这样的年代节点上,我们为科技发烧友们盘点出了在过去...
日期:11-11
男子14年来创业7次成功后劝年轻人别创业引热议:真不容易
创业不容易,能成功背后也是付出了很大的努力,所以你会轻易创业吗?近日,90后小伙王大力14年来创业7次,第7次创业摆摊榨果汁,因为榨汁全程公开,解压又放心,吸引众多年轻人。他还会根据...
日期:10-11
“榜一大哥”诈骗女主播12万 被判3年罚款2万「诈骗女主播案例」
据央视法治在线节目报道,湖北红安的一名网络平台主播凌女士在直播过程中被“榜一大哥”熊某骗取财物的事件引起了关注。凌女士与熊某因经常在直播中互动而逐渐熟悉,并建立了信...
日期:07-13
星环科技 收入「星环科技入选上海经信委2023年工业互联网专业服务商推荐目录」
(原标题:星环科技入选上海经信委2023年工业互联网专业服务商推荐目录) 日前,上海市经济和信息化委员会公布了2023年度上海市工...
日期:12-26
海力士2933「SK海力士首发321层闪存 三星被偷家原因揭秘:步子迈太大」
快科技8月9日消息,日前SK海力士宣布全球首发321层堆栈的4D闪存,这也是闪存首次提升到300层以上,核心容量1Tb,TLC类型。在堆栈层数上,SK海力士的4D闪存因为架构不同,相比其他家来说...
日期:08-10
谷歌发布新型 AI 工具「MusicLM」:文字描述生成音乐_如何用谷歌生成字幕
5月12日消息:谷歌在日前的 I/O 大会发布了新型 AI 工具「MusicLM」能把文字描述转化为音乐。在 Web、Android 或 iOS 上的 AI Test Kitchen 应用程序中,用户可以输入提示,如「...
日期:05-12
努比亚Z50S Pro跑分数据揭晓 搭载高频版骁龙8 Gen2
7月12日 消息:最近努比亚官方宣布,旗下新机型Z50S Pro将于7月与我们见面。这款手机已经在Geekbench跑分数据库中现身,并且具备强大的性能。iqoo neo5活力版支持内存卡吗根据Ge...
日期:07-12
苹果官网资料显示iPhone 14 Plus最初曾被命名为“iPhone 14 Max”「IPHONE 14」
新发现的iPhone 14 Plus在苹果网站上被称为"iPhone 14 Max",这表明这是最初打算用于低端6.7英寸设备的名称,然后该公司在短时间内改变主意。正如荷兰博客iCreate所发现的,在该...
日期:10-04
全球6G动态之韩国:举国之力推动尽早商用_韩国跻身
作为全球最早商用5G的国家,韩国针对6G的研发布局延续了全球领先定位。一方面,韩国6G研究顶层设计走在世界前列,政府大力支持并设定6G较早商用的目标。另一方面,韩国本土电信设备...
日期:06-19