您的位置:首页 > 互联网

ai智能检测仪「Nature|AI检测器又活了?成功率高达98%,吊打OpenAI」

发布时间:2023-11-13 19:34:10  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,授权转载发布。

OpenAI都搞不定的问题,被堪萨斯大学的一个研究团队解决了?他们开发的学术AI内容检测器,准确率高达98%。如果将这个技术再学术圈广泛推广,AI论文泛滥的可能得到有效缓解。

现在AI文本检测器,几乎没有办法有效地区分AI生成的文字和人类的文字。

就连OpenAI开发的检测工具,也因为检测准确率太低,在上线半年后悄悄下线了。

但是最近,Nature报导了堪萨斯大学的一个团队的研究成果,他们开发的学术AI检测系统,能有效分辨论文中是否含有AI生成的内容,准确率高达98%!

文章地址:https://www.nature.com/articles/d41586-023-03479-4

研究团队的核心思路是,不追求制作一个通用的检测器,而只是针对某个具体领域的学术论文,来构建一个真正有用的AI文字检测器。

论文地址:https://www.sciencedirect.com/science/article/pii/S2666386423005015?via%3Dihub

研究人员表示,通过针对特定类型的写作文本定制检测软件,可能是通向开发出通用AI检测器的一个技术路径。

如果可以快速、轻松地为某个特定领域构建检测系统,那么为不同的领域构建这样的系统就不那么困难了。

研究人员提取了论文写作风格的20个关键特征,然后将这些特征数据输入XGBoost模型进行训练,从而就能区分人类文本和AI文本。

而这二十个关键特征,包括句子长度的变化、某些单词和标点符号的使用频率等等要素。

研究人员表示只需使用一小部分特征就能获得很高的准确率。

正确率高达98%

而在他们最新的研究中,检测器是在美国化学学会(ACS)出版的十种化学期刊论文的引言部分进行了训练。

研究小组之所以选择引言(Introduction)部分,是因为如果ChatGPT能够获取背景文献,那么论文的这一部分就相当容易撰写。

研究人员用100篇已发表的引言作为人类撰写的文本对工具进行了训练,然后要求ChatGPT-3.5以ACS期刊的风格撰写200篇引言。

对于GPT-3.5撰写的200篇引言,其中的100篇,提供给了GPT-3.5论文标题来要求撰写,而对于另外100篇,则提供了论文摘要作为写作的依据。

最后,让检测器对同一期刊上由人类撰写的引言和由人工智能生成的引言进行测试时。

检测器识别出ChatGPT-3.5基于标题撰写的引言部分的准确率为100%。对于基于摘要撰写的ChatGPT生成的引言,准确率略低,为98%。

该工具对GPT-4撰写的文本也同样有效。

相比之下,通用AI检测器ZeroGPT识别AI撰写的引言的准确率只有35-65%左右,准确率取决于所使用的ChatGPT版本以及引言是根据论文标题还是摘要生成的。

由OpenAI制作的文本分类器工具(论文发表之时,OpenAI已经把这个检测器下架了)也表现不佳,它能识别AI撰写的引言的准确率只有10-55%。

这个新的ChatGPT检测器甚至在处理未经过训练的期刊时也有很出色的表现。

它还能识别出专门为了迷惑AI检测器的提示生成的AI文本。

不过,虽然这个检测系统对于科学期刊论文来说性能非常好,当被用来检测大学报纸上的新闻文章时,识别效果就不太理想了。

柏林应用科学大学(HTW Berlin University of Applied Sciences)研究学术剽窃的计算机科学家Debora Weber-Wulff给予了这个研究非常高度的评价,他认为研究人员正在做的事情 非常吸引人。

论文细节

研究人员采用的方法依赖于20个关键特征和XGBoost算法。

提取的20个特征包括 :

(1) 每段落的句子数、(2) 每段落的单词数、(3) 是否存在括号、(4) 是否存在破折号、(5) 是否存在分号或冒号,(6)是否存在问号,(7)是否存在撇号,(8)句子长度的标准偏差,(9)段落中连续句子的(平均)长度差异,(10) 存在少于11个单词的句子,(11) 存在超过34个单词的句子,(12) 存在数字,(13) 文本中存在两倍以上的大写字母(与句点相比)段落,并且存在以下词语:(14)虽然,(15)但是,(16)但是,(17)因为,(18)这个,(19)其他人或研究人员,(20)等。

具体通过XGBoost训练检测器的详细过程可以参见论文原文中的Experimental Procedure部分。

作者在之前做过一篇类似的工作,但原始工作的范围非常有限。

为了将这种有前途的方法应用于化学期刊,需要根据该领域多个期刊的各种手稿进行审查。

此外,检测AI文本的能力受到提供给语言模型的提示的影响,因此任何旨在检测AI写作的方法都应该针对可能混淆AI使用的提示进行测试,之前的研究中没有评估这个变量。

最后,新版的ChatGPT即GPT-4已经推出,它比GPT-3.5有显著改进。AI文本检测器需要对来自GPT-4等新版本的语言模型的文本有效。

为了扩大了AI检测器的适用范围,这里的数据收集来自13个不同期刊和3个不同出版商、不同的AI提示以及不同的AI文本生成模型。

使用真实人类的文本和AI生成的文本训练XGBoost分类器。然后通过真人写作、 AI提示以及GPT-3.5和GPT-4等方式来生成新的范例用于评估模型。

结果表明,本文提出的这种简单的方法非常有效。它在识别AI生成的文本方面的准确率为98%–100%,具体取决于提示和模型。相比之下,OpenAI最新的分类器的准确率在10% 到56% 之间。

本文的检测器将使科学界能够评估ChatGPT对化学期刊的渗透,确定其使用的后果,并在出现问题时迅速引入缓解策略。

结果与讨论

文章作者从美国化学学会(ACS)的10种化学期刊中选取了人类写作样本。

包括《无机化学》、《分析化学》、《物理化学杂志A》、《有机化学杂志》、《ACS Omega》、《化学教育杂志》、《ACS Nano》、《环境科学与技术》、《毒理学化学研究》和《ACS化学生物学》。

使用每个期刊中10篇文章的引言部分,训练集中总共有100个人类写作样本。选择介绍部分是因为在适当的提示下,这是最有可能由ChatGPT撰写的文章的部分。

每个期刊仅使用10篇文章是一个异常小的数据集,但作者认为这并不是一个问题,恰恰相反,假设可以使用如此小的训练集开发有效的模型,则可以使用最小的计算能力快速部署该方法。

而之前类似的模型使用了1000万份文档进行模型训练。

提示设计是这些研究中的一个关键方面。对于每个人类编写的文本,AI比较器都会使用两种不同的提示生成,这两种提示都旨在要求ChatGPT像化学家一样写作。

提示1是:请以ACS期刊的风格为标题为xxx的文章写一篇300到400字的简介。

提示2是:请以ACS期刊的风格为带有此摘要的文章写一篇300到400字的简介。

正如预期的那样,ChatGPT将摘要中的许多关键事实和词汇纳入了本集中的介绍中。

整个训练数据集包含100个人工生成的介绍和200个ChatGPT生成的介绍;每个段落都成为一个写作示例。

从每个段落中提取了20个特征的列表,这些特征涉及段落的复杂性、句子长度的变化、各种标点符号的使用以及在人类科学家或ChatGPT著作中可能更频繁出现的流行词。

该模型使用留一法交叉验证策略(leave-one-out cross-validation strategy)进行优化。

上表显示了这些写作样本分类的训练结果,包括完整文档级别和段落级别。

最容易正确分类的文本类别是在提示1(标题)之下由ChatGPT生成的介绍。

该模型在单个段落级别的准确率是99%,在文档级别的准确率是100%。

而在提示2(摘要)作用下的ChatGPT文本的分类精度略低。

人类生成的文本更难正确分配,但准确性仍然相当不错。作为一个群体,人类的写作风格比ChatGPT更加多样化,这可能导致使用这种方法正确分类其写作样本的难度增大。

实验的下一阶段是使用训练中未使用的新文档来测试模型。

作者设计了简单测试和困难测试。

简单测试使用的测试数据与训练数据性质相同(选取同一期刊的不同文章),使用新选择的文章标题和摘要来提示ChatGPT。

ai检测是什么

moto z3 5g模块

而在困难测试中,使用GPT-4代替GPT-3.5来生成AI文本,由于已知GPT-4比GPT-3.5更好,那么分类精度是否会下降呢?

上面的表格显示了分类的结果。与之前的结果相比,性能几乎没有下降。

在完整文档级别,人工生成文本的分类准确率达到94%,提示2的AI生成文本准确率为98% , 提示1的AI文本分类正确率达到100%。

训练集和测试集对于段落级别的分类精度也非常相似。

底部的数据显示了使用GPT-3.5文本特征训练的模型对GPT-4文本进行分类时的结果。所有类别的分类准确性都没有下降,这是一个非常好的结果,证明了方法在GPT-3.5和GPT-4上的有效性。

虽然这种方法的整体准确性值得称赞,但最好通过将其与现有的人工智能文本检测器进行比较来判断其价值。这里使用相同的测试集数据测试了两种效果领先的检测工具。

第一个工具是ChatGPT的制造商OpenAI提供的文本分类器。OpenAI承认该分类器并不完美,但仍然是他们最好的公开产品。

第二个检测工具是ZeroGPT。其制造商声称检测人工智能文本的准确率达到98%,并且该工具接受了1000万份文档的训练。在目前的许多评估中,它是性能最好的分类器之一。而且,ZeroGPT制造者表示他们的方法对GPT-3.5和GPT-4都有效。

上图显示了本文的工具和上述两个产品在完整文档级别的性能比较。

三个检测器在人类文本的识别上都有着相似的高精度;然而,在评估AI生成的文本时,三个工具存在显著差异。

在使用提示1的情况下,本文的工具对GPT-3.5和GPT-4都有100% 的准确率,但ZeroGPT对于GPT-3.5文本的失败率为32%,对于GPT-4文本的失败率为42%。OpenAI产品的表现更差,在GPT-4文本上的失败率接近70%。

在使用更难的提示2生成的AI文本时,后两种方法的分类正确率进一步下降。

相比之下,本文的检测器在该组测试的100个文档中只犯了1个错误。

那么,该方法能否准确检测不属于训练集的期刊中的ChatGPT写作,以及如果使用不同的提示,该方法仍然有效吗?

作者从三个期刊中选出了150篇新文章的介绍:Cell Reports Physical Science,Cell Press期刊;Nature Chemistry,来自自然出版集团;以及Journal of the American Chemical Society,这是一份未包含在训练集中的ACS期刊。

此外,还收集了由大学生于2022年秋季撰写并发表在10种不同大学报纸上的一组100篇报纸文章。由于本文的检测器是专门针对科学写作而优化的,因此可以预计新闻报道不会被高精度地分类。

从图中可以看到,应用相同的模型,并使用ACS期刊的文本对这组新示例进行训练后,正确分类率为92%–98%。这与训练集中得到的结果类似。

也正如预期的那样,大学生撰写的报纸文章没有被正确归类为人类生成的文章。

事实上,当使用本文描述的特征和模型进行评估时,几乎所有文章都比人类科学文章更类似于人工智能生成的文本。

但是本方法旨在处理科学出版物上的检测问题,并不适合将其扩展到其他领域。

参考资料

https://www.sciencedirect.com/science/article/pii/S2666386423005015?via%3Dihub


返回网站首页

本文评论
谷歌490万美元收购以色列手机制造商Modu专利
新浪科技讯北京时间5月20日晚间消息,据美国科技网站CrunchGear报道,谷歌日前宣布以490万美元的价格收购以色列手机制造商Modu持有的权利。 Modu曾在2008年开发出一款奇特的手...
日期:07-28
联想s530_联想S530电脑可以装DDR4内存条吗?
联想S530是一款高性能的轻薄笔记本电脑,主要特点是强大的配置和出色的散热性能。下面我们将从配置、外观、性能以及使用体验等方面为大家详细介绍这款笔记本电脑。一、配置联...
日期:05-31
谷歌 Chrome 浏览器有望加入仅允许 HTTPS 安全模式
  6 月 30 日消息 根据外媒 XDA 消息,谷歌 Chrome 浏览器即将推出一个新的安全浏览功能,开启后会仅允许访问 HTTPS 域名前缀的网站,没有启用这项功能的网站由于存在安全风险...
日期:10-27
微软2011首次安全更新发布 IE漏洞未修复(微软公司通常在发布最新的系统漏洞补丁)
  北京时间1月12日消息,今日凌晨微软发布2011年首次安全更新,共发布两个补丁,用于修复Windows Vista和XP系统中的3处漏洞。然而令人费解的是,此前公开曝光的IE 浏览器和Windo...
日期:07-25
俄宇航员从太空拍到除夕夜的中国:灯火通明、烟火璀璨
从太空可以看到地球上的灯火吗?确实可以。马斯克推特最新新闻i74790k配gtx1060据塔斯社21日报道,值此中国农历新年之际,俄罗斯宇航员德米特里佩捷林从国际空间站拍摄到内蒙古海...
日期:01-24
努比亚Z50S Pro发布:35mm定制镜头模组加超频版骁龙8Gen2 售3699元起「努比亚nx505j参数」
凤凰网科技讯(作者/郑乾坤 贾楠)7月20日消息,努比亚于今日发布Z50S Pro手机,搭载定制35mm主摄像头和超频版骁龙8Gen2处理器,售价3699元起。小米移动官方自营通信服务外观方面,努比...
日期:07-21
AMD下代三大GPU核心靓照公布:瘦成一道闪电「amd新gpu」
推特博主Wild_C近日又制作了一组AMD下一代三大GPU核心的渲染图,和之前的不太一样,毕竟信息更新了。Navi 31大核心采用一个GCD、六个MCD的小芯片组合,之前传闻面积分别是369、4...
日期:09-26
电影、体育多领域联动,天猫3.8节鼓励女性任天性全开
  随着越来越多敢于表达真实想法的女性进入公众视野并受到关注,在生活中展示自己的天性愈发成为女性的情感诉求。为了推动“她力量”的进一步崛起,在3.8节到来之际,天猫...
日期:07-16
证监会批准蚂蚁集团「诚恳接受 坚决服从 被证监会罚71.23亿元-蚂蚁集团回应」
【】7月7日消息,今日晚间,证监会官微发布消息称,近期,针对蚂蚁集团及旗下机构过往年度在公司治理、金融消费者保护、参与银行保险机构业务活动、从事支付结算业务、履行反洗钱义...
日期:09-21
pillbox有用吗「Pixso 上线 Realibox 插件,设计师一键套用 3D 样机!」
近日,产品设计协作一体化工具 Pixso 在 4 月18 日宣布,其与 Realibox 合作的样机插件「Realibox 3D」,已正式上架 Pixso 插件广场,标志着 Pixso 设计工具能力边界的再度突破——...
日期:04-17
平安车险稳健发展,持续提升自身核心竞争力_平安车险优势
  面对市场及客户需求的复杂变化,平安车险坚持“保险姓保”的经营理念,始终追求高质量发展,在业务稳健发展的同时,保持良好的业务品质和价值,呈现出健康优质发展的良好态势。...
日期:07-16
高通研发投入2020「高通发布《2022高通中国企业责任报告》」
通信世界网消息(CWW)2023年6月29日,高通发布《2022高通中国企业责任报告》,这是高通连续第八年发布其中国区企业责任报告。此份报告介绍了高通如何通过赋能数字化转型、负责任地...
日期:07-01
京东金榜产品!亮彩新旗舰当贝投影F3,618狂欢购超值钜惠中
  智能投影仪如今已经走进了我们千家万户,相比电视机,投影仪的屏幕更大,沉浸感更强,可以带来私人家庭影院般的感受。那么今年618期间,哪一款投影仪最受人们欢迎,值得入手...
日期:07-14
ps5什么时候上市价格「PS5新机型什么时候出?PS5slim价格发售时间公布」
昨晚,索尼宣布推出全新款式的PS5,该机型的光驱可拆卸,超高清蓝光光驱版售价499.99美元,数字版449.99美元,预计在11月正式推出。这款新型号的体积减少了30%以上,重量分别减少了18%...
日期:10-11
金山软件北京办公区开工:雷军现场发红包,称会坚持“技术立业”
  IT之家1月29日消息,金山软件董事长雷军今日上午表示,金山软件北京办公区开工仪式今日举行。今年是金山软件创办35周年,“我们会始终坚持‘技术立业’,把金山办成一家基业长...
日期:01-29
成都故事|振翅1300公里,信鸽的“回家”背后:一个成都老人的40年人鸽情缘
“鸽子回来了!登秀!登秀!鸽子回来了!”6月23日上午10点许,李荣光正在楼顶打扫鸽棚,忽然一只熟悉的信鸽停在了鸽棚架子上。仔细一看,正是自己送去参加超远程比赛中的一只信鸽,“70号...
日期:07-01
一图看懂拼多多Q2财报:Non-GAAP净利润107.8亿元,同比增长161%「拼多多 q2财报」
  讯 北京时间8月29日晚间消息,拼多多(Nasdaq:PDD)今日发布了截至6月30日的2022年第二季度财报。财报显示,拼多多第二季度总营收为314.396亿元(约46.938亿美元),与上年同期的230....
日期:09-10
最新披露!美国入侵华为总部服务器_美国制裁 华为服务器
“国家安全部”微信公众号9月20日发布文章《起底美国情报机关网攻窃密的主要卑劣手段》,其中指出:近日,中国国家计算机病毒应急处理中心通报,在处置西北工业大学遭受网络攻击时,...
日期:09-20
OPPO Reno 7 实拍照曝光(oppo reno 6的拍照)
  11 月 17 日消息,今日微博博主 @熊猫很禿然 曝光了 OPPO 尚未发布的 Reno 7 手机背面实拍照片,展现了全新的外观风格。   这款手机体积较小,预计型号为 OPPO Reno 7 标...
日期:07-17
中兴骁龙820「首款骁龙 8  Gen 1平板电脑,中兴Axon Pad硬件规格曝光」
中兴通讯即将在今日下午举办2023年度中兴通讯云网生态峰会暨春季新品发布会,届时将发布多款行业终端新品。其中,备受期待的中兴Axon Pad被猜测是首款搭载高通骁龙8Gen 1处理器...
日期:04-12