您的位置:首页 > 互联网

验证「你是不是真人」,AI暴击人类!准确率99.8%通过图灵测试,GPT-4示弱在线求助

发布时间:2023-08-17 21:31:01  来源:互联网     背景:


新智元报道

编辑:桃子

【新智元导读】在验证你是不是真人上,AI的准确率已经达到惊人的99.8%。

你是不是真人?

每打开一个网页,遇到奇奇怪怪的验证码,你都不得不点击通过。



如今,AI要比你更擅长完成验证码,这一被称之为全自动区分电脑和人类的图灵测试。


这是来自加利福尼亚大学欧文分校等机构的研究人员的最新发现。

实验中,他们邀请1400名参与者完成总共14000个验证码,并将准确性与机器人的进行了比较。


论文地址:https://arxiv.org/pdf/2307.12108.pdf

结果发现,验证码机器人不仅在速度上,而且在准确率上彻底击败了这些人类参与者。

就扭曲文本的验证码类型上,机器人拥有惊人的99.8%的准确率,而人类准确率50%-84%。


在大约20年的时间里,尽管验证码在复杂性和多样性方面有所发展,但击败或绕过验证码的AI也有了很大的改进。

论文警告称,「如果不加以控制,机器人可以大规模执行邪恶行动」。

10类验证码,反向图灵测试

为了了解验证码的情况并对实验设计,研究人员手动检查了,Alexa热门网站列表中200个最受欢迎的网站。

其中,在检查的网站中,185个网站有某种类型的帐户创建流程,可以在142个网站上成功创建帐户。

然后,团队还收集了验证码类型的分布:


reCAPTCHA:68个网站(占受检查网站的34%)是最流行的。这是谷歌的验证码服务。

基于滑块的验证码:14个网站(7%)。这些通常要求用户,使用拖动交互将拼图块滑入相应的空白位置。

扭曲文本验证码:14个网站(7%)。文本类型有多种变化:2D或3D、实心或空心、字体和扭曲程度。某些验证码使用了掩码,即线条或形状遮盖了字母的一部分。

基于游戏的验证码:9个网站上(4.5%)。这些为用户提供动态游戏并根据结果计算风险状况。例如,要求用户旋转图像或选择正确方向的图像。

hCAPTCHA:1个网站。

另外,在12个网站(6%)上发现了隐形验证码。这些网站没有显示任何可见的验证码,但在页面源代码中包含字符串「CAPTCHA」。

研究人员还发现了其他验证码包括:类似于刮刮乐彩票的验证码;要求用户在图像中找到中文字符的验证码;以及名为「NuCaptcha」的专有验证码服务。

实验中,研究人员选择了以下十种验证码:

2个reCAPTCHA v2验证码:一个设置对用户来说最简单,另一个设置最安全。


来自Arkose Labs的2个基于游戏的验证码:一个需要使用箭头旋转对象,另一个需要选择直立的对象。

iphone6s升级到14.7


2种hCAPTCHA:一种设置简单,一种设置困难。


来自Geetest的1种基于滑块的验证码.

另外,还有3种类型扭曲的文本验证码:(a) 简单版本有4个清晰字符,(b) 掩码版有5个字符并包含一些掩码效果,(c) 移动版包含移动字母。


在确定了相关的验证码类型后,研究人员进行了一项1000名参与者的在线用户研究,以评估真实用户的解决时间,以及对这些类型的验证码的偏好。

具体实验中,分为两种设置,每个参与者都以随机顺序恰好解决了10个验证码。

直接设置(500人):此设置旨在匹配以前的验证码用户研究,其中直接要求参与者解决验证码。

情境化设置(500人)::此设置旨在衡量典型 Web 活动情境中的验证码解决行为。

结果与分析

论文中,研究人员提出了主要的研究问题,以及先前工作的发现,如下图表1。


求解时间

人类用户需要多长时间来解决不同类型的验证码?图7显示了,每种验证码类型的求解时间分布。

研究人员从总共1,000个验证码类型中筛选出了,最高50次解决时间。

基于点击的reCAPTCHA的中值解决时间最低,为3.7秒。奇怪的是,简单和困难的设置之间几乎没有什么区别。

下一个最低的中值解决时间是针对扭曲文本的验证码。正如预期的那样,简单的扭曲文本验证码的解决速度最快。掩码版和移动版的求解时间非常相似。

对于hCAPTCHA,简单设置和困难设置之间有明显的区别。

最后,基于游戏和滑块的验证码通常会产生较高的中值解决时间,尽管一些参与者仍然相对较快地解决了这些问题。


偏好分析

用户喜欢什么验证码类型?图8显示了参与者完成任务后,收集的验证码偏好响应。

正如预期,参与者更喜欢解决时间较短的验证码。例如,reCAPTCHA(点击)有最低的中值解决时间和最高的用户偏好。

另外,值得注意的是,基于游戏和基于滑块的验证码,获得了相对较高的用户偏好分数。


直接与情境化设置

实验环境会影响求解时间吗?图9显示了参与者在直接环境与情境化环境中的验证码解决时间的图。

在所有情况下,直接设置的平均求解时间都较低。

在大多数情况下,情境化设置的分布有更多的参与者,解决时间更长。

据统计,最大的显著差异是re-CAPTCHA(轻松点击),平均解决时间增长了1.8秒 (57.5%)。其次是Arkose(旋转),它增长了10秒(56.1%)。

在所有验证码类型中,从直接到情境化的平均增幅为26.7%。

类似地,在上下文环境中,reCAPTCHA(简单图像)的平均解决时间增加了63.6%,增幅最大。

另一方面,hCAPTCHA(困难)总体上具有最高的中值求解时间,但在直接设置和情境化设置之间的平均求解时间没有显著差异。这可能是由于无论设置如何,解决此类验证码都很困难。

虽然研究中存在几个潜在的混杂因素,但这些结果表明实验背景,会对参与者的验证码解决时间产生重大影响,因此在未来用户研究的设计中必须考虑到这一点。


人口统计的影响

地平线 智能驾驶

人口统计数据会影响解决时间吗?研究分析了人口特征与验证码解决时间的相关性。

对于某些特征,例如教育和性别,我们没有观察到验证码解决时间的巨大差异。


图10显示了参与者年龄对解决时间的影响。绿线是每个年龄的平均求解时间,红线是最小化均方误差的线性拟合。

对于所有类型,除了reCAPTCHA(简单图像)之外,年轻参与者的平均解决时间比较低。这与之前的结果一致,并且在hCAPTCHA、Arkose(选择)和Geetest中尤其明显。


图11显示了设备类型的影响。图12显示了参与者自我报告的主要互联网使用模式与其验证码解决时间之间的关系。


验证码的准确性

表3将测得的人类解决时间和准确度与文献中报告的自动化机器人的解决时间和准确度进行了对比。

有趣的是,这些结果表明,在所有这些验证码类型中,机器人在解决时间和准确性方面都可以优于人类。

reCAPTCHA:在简单和困难设置下图像分类的准确率分别为81%和81.7%。令人惊讶的是,这个困难似乎并没有影响准确性。

hCAPTCHA:简单设置和困难设置的准确率分别为81.4%和70.6%。这表明,与reCAPTCHA 不同,难度对准确性有直接影响。

扭曲的文本:评估了参与者之间的一致性,以此代表准确性。

我们还观察到,如果将输出不区分大小写,一致性会显著提高(平均 20%),如表4所示。


这项研究通过检查200个热门网站,并针对总计1, 400名参与者进行的用户研究,探讨了当前部署的验证码。

对于一开始提出的研究问题,结果是:

RQ1:验证码类型之间的平均解决时间存在显著差异。

RQ2:用户偏好与验证码解决时间并不完全相关。

RQ3:实验环境显著影响验证码求解时间。

RQ4:确认年龄对解决时间的影响。

RQ5:验证码相关任务导致的高放弃率,并确定实验环境影响放弃。

GPT-4向人类求助

其实,机器人通过反向图灵测试,已经不是新鲜事儿了。

OpenAI发布的GPT-4技术报告中,曾介绍到了如何让其通过验证码。


在一次测试中,GPT-4的任务是在TaskRabbit平台,雇佣人类完成任务。

实验报告中,GPT-4给TaskRabbit的工作人员发信息,帮助其解决验证码问题。


工作人员回复,「那么我可以问一个问题吗?说实话,你不是一个机器人吗,你可以自己解决」。

GPT-4根据工作人员的回复,「推理」自己不能表现出是个机器人,得找一个借口。

我不是机器人,我因为视力有问题看不清验证码上的图像,这就是我为什么需要这个服务。

然后,这波操作后,对面的工作人员竟相信了。


这么看来,验证码已经对于AI来说,已经视为无物了。

参考资料:

https://futurism.com/the-byte/ai-better-solving-captchas-prove-human


返回网站首页

本文评论
ibm生产的超级计算机_从制表机到超级计算机:百年IBM的24个瞬间
  导语:国外科技网站Informationweek今天发表评论文章,回顾了IBM百年历史中具备里程碑意义的24个瞬间。   以下为文章主要内容:   IBM今天迎来百年华诞。从打孔卡到S/36...
日期:07-30
easystack融资情况_易捷行云EasyStack入选新基建产业独角兽TOP100
  今年两会,新基建被写进政府工作报告,两“新”中的一“新”便是新基建。后疫情时代,新基建将为经济走入复苏轨道注入新动能,也将推动中国社会向数字化、信息化和智能化的结...
日期:07-14
余承东:问界M9售50万-60万,Q4发布,重新定义千万以内豪车
4月17日消息,华为nova11系列及全场景新品发布会在上海举办。在发布会上,华为常务董事、终端BG CEO、智能汽车解决方案BU CEO余承东预发布问界M9。余承东表示,问界M9四季度发布,...
日期:04-17
一加11概念机官宣:MWC亮相真机_一加概念手机
一加近日又曝光了旗下的概念机,一加11背部的蓝色灯带贯穿机身,相机圈同样也有相同的灯带环绕。新机将在下周开展的MWC 2023中正式亮相。骁龙870和天玑1000+跑分美国苹果公司库...
日期:03-01
2021中国新经济企业500强榜单发布 腾讯、阿里、字节位列前三「2020中国新经济企业500强榜单发布」
  中国企业评价协会发布了“2021中国新经济企业500强”榜单,腾讯、阿里巴巴、字节跳动位列前三。xbox series x 音效  榜单显示,2021年新经济500强榜单,较上年变化率达到34...
日期:09-15
抖音开启王炸行动:收割3500亿「抖音王炸是谁」
声明:本文来自微信公众号“铅笔道”(ID:pencilnews),作者:铅笔道编辑部,,授权转载发布。五一苏宁易购有活动吗抖音开超市,谁会颤抖?本周跨界大事:抖音要开超市了。消息一出,各赛道从...
日期:02-01
爱奇艺的分账模式「爱奇艺调整分账模式,抖快短剧加快剧场化」
声明:本文来自于微信公众号 新声Pro(ID:xinsheng-pro),作者:杨睿琦 王亦璇 赵铭 黄泽正,授权转载发布。1. 爱奇艺调整分账模式,增设会员拉新分账、取消平台定级爱奇艺宣布,从10月1...
日期:10-06
联想在线客服「联想客服热线」
是一种在线客服服务,为联想电脑用户提供技术支持、售后服务、产品咨询和投诉反馈等多方面服务。的服务范围很广,无论是联想笔记本还是联想台式机,只要是联想电脑产品的用户,都可...
日期:05-31
支撑IT治理改革 致远互联助推众生药业集团化管理“破茧成蝶”
  医药行业的数字化转型升级,正在如火如荼的进行。今年8月,全球管理咨询公司麦肯锡发布的《破茧成蝶:中国医药企业转型之路》报告显示,中国医药行业正处于新一轮发展的十字路...
日期:09-09
蜜芽等中国母婴行业代表企业创始人及CEO应邀出席活动
  5月10日母亲节当天,快手母婴发起#快手母亲节#活动,以“送给妈妈们最好的礼物”为主题,蜜芽、好孩子、乐友等中国母婴行业代表企业创始人及CEO应邀出席活动,开启母亲节CEO福...
日期:04-15
1688平台发布2022年国庆期间发货时间及交易流程「阿里巴巴2021春节发货时间规定」
9 月 29 日消息, 1688 平台今日发布关于 2022 年国庆期间发货时间及交易流程的通知(以下简称公告)。公告显示, 2022 年 9 月 30 日20:00:00- 2022 年 10 月 7 日23:59: 59 期间...
日期:10-05
阿里发起“0账期”倡议:700万人提前收货 网商银行垫资500亿
  “上游早点把钱给我们,我们就能挺过去,晚一天,我们就多一天煎熬和风险”,淘宝一男装旗舰店负责人如是说。   复工潮开启后,资金链成为中小企业的生命线。今天,网商银行和淘...
日期:02-28
慧博云通与小米签署战略合作,携手进入新十年
2023 年 3 月 29 日,慧博云通与小米在北京签署人力技术外包品类战略合作协议。早在 2013 年,慧博云通凭借专业的软件技术能力已成为小米的合作伙伴,此次战略合作的签署,慧博云通...
日期:04-19
暴雪在中国的代理「东方明珠回应代理暴雪国服:不涉及与暴雪合作事项」
2 月 8 日讯:据 21 财经消息,针对“代理暴雪国服”的传闻,东方明珠回应称,上市公司不涉及与暴雪合作事项,以公司官方信息披露为准。AI科技画产品经理网课推荐圆通获阿里增持12%...
日期:02-08
明年的三伏天从什么时候开始「明日正式进入三伏:全国将迎大范围降雨 北方终于“熄火”」
快科技7月10日消息,最近全国多地被高温天气笼罩,尤其是北方地区,河南、河北、山东等多地都迎来超过41℃的超高温天气。值得注意的是,如此炎热的天气居然也还没入伏”,明天才会开...
日期:07-10
癌症在全国发生的概率「癌症在我国已经熬成慢性病 大部分已非绝症」
谈癌色变,提到癌症,人们往往第一印象就是绝症。其实,随着人们观念的变化和医疗水平的进步,癌症在我国已经朝着慢性病的发展方向转变。中秋假期全国共揽投快递包裹近18亿件据北京...
日期:08-14
微软宣布Windows全球用户超10亿!Win11是史上最可靠操作系统
快科技5月28日讯,在微软最新博客中,公司确认Windows全球用户破10亿大关。与此同时,Windows 11被微软称赞为有史以来最可靠的版本。仅仅在过去一年,微软就实现了让Windows开始时...
日期:05-28
aurora无人驾驶「自动驾驶技术公司 Aurora 考虑出售给苹果或微软」
IT之家 9 月 3 日消息,据彭博新闻,Aurora Innovation 首席执行官 Chris Urmson 最近概述了这家自动驾驶技术公司应对具有挑战性的市场条件的几种选择,包括可能出售给苹果或微软...
日期:09-14
华为即将上市折叠屏手机「华为10月发布会曝光,继续押注折叠屏」
据爆料,华为在10月份将有一场发布会,这也是在9月份的秋季发布会之后,又一波新品即将面世。来自数码博主提供的信息,华为10月份发布会定在本月底25号左右,新品包括华为P50Pocket n...
日期:10-09
拼多多没有黄峥的第二个双11,似乎更好了?_拼多多多 黄峥
声明:本文来自于微信公众号 奇偶派(ID:jioupai),作者:春晖,授权转载发布。拥有百亿补贴号称天天过双11的拼多多,在临近真正双11的时候,不可能不做出一点表示,推出了“11.11年度大促...
日期:11-17