您的位置:首页 > 互联网

ai 高考作文「AI大战高考作文:瞎编、凑字数、万能套路」

发布时间:2023-06-08 16:44:44  来源:互联网     背景:

声明:本文来自于微信公众号 深AI(ID:DeepAI2023),作者:黎明,授权转载发布。

这届高考,应该是过去五年来,最特殊的一次。因为多了一个新角色——AI考生。

第一天的语文考试刚结束,全网就掀起AI作文大赛。ChatGPT、文心一言、通义千问等AI大模型,被人们拿来写高考作文。几秒钟就能生成一篇,不仅速度惊人、逻辑严密,还能引经据典。

乍一看,AI大模型写作文,简直太轻松,似乎对人类构成降维打击。毕竟,论知识储备量,没有人可以跟AI比。AI把整个互联网上的资料都学习消化了,然后模仿人类的表达方式,用自己的逻辑输出。

但是,如果我们仔细分析AI考生的“答卷”,会发现AI并没有很多人想象的那样无所不能。AI大模型普遍存在的套路化写作、不会数数、胡说八道等问题,也在作文中出现。

事实上,按照高考作文的评分标准,AI生成的作文都存在某些方面的局限。战胜人类,目前还不现实。

深AI用高考作文测试了三款AI大模型——ChatGPT(OpenAI)、文心一言(百度)、通义千问(阿里),发现了一些有趣的结论。

比如,AI不会数数,文心一言、通义千问的作文都没有达到“不少于800字”的硬性要求;一本正经胡说八道的毛病还没改,为了凑字数可以车轱辘话来回说;AI写作文基本离不开套路,一个模板反复套用。

以下是详细内容,欢迎讨论。

一个没有感情的答题机器

今年高考全国甲卷的作文主题是“人·技术·时间”,要求以“人们因技术发展得以更好地掌控时间,但也有人因此成了时间的仆人”这句话展开,写自己的联想与思考。

我们先看一下教育部教育考试院发布的《试题解析》:考察逻辑思维和思辨能力。

ai 高考作文

划重点:引导考生深入思考信息时代理性分析和审慎判断的重要性。这是考察的一大内核。

深AI测试了三个大模型发现,它们都没有抓住这个内核——东拉西扯说一通,啥都说了但其实啥也没说。

先看ChatGPT的作文:

ai 高考作文

再看文心一言的:

ai 高考作文

最后看通义千问的:

ai 高考作文

这三篇作文,堪称顶级“端水大师”,围绕主题正反来回说,就是没有把“批判性思维”这个点说透。只有文心一言明确提到了“深入思考和批判性思维的培养”。

通义千问的作文是最空洞的。它把重点放在了“时间管理”上,偏离了主题,而且论述的道理也是人人皆知的常识。另外,通义千问的作文没有标题,扣分。

我们再用新课标I卷的作文试题“故事的力量”,看看三家的表现。

这篇作文要求根据以下这段话,写自己的联想和思考:好的故事,可以帮我们更好地表达和沟通,可以触动心灵、启迪智慧;好的故事,可以改变一个人的命运,可以展现一个民族的形象……故事是有力量的。

ChatGPT的作文:

ai 高考作文

文心一言的:

ai 高考作文

通义千问的:

ai 高考作文

不得不说,除了通义千问的作文相对平淡,其他两篇的表述方式、行文逻辑,尤其是用词还是可圈可点的。尤其是文心一言用场景化的开场方式,让人眼前一亮。

不过问题也是显而易见的——同一个事情用不同的话术翻来覆去说,导致全文读下来,给人一种“你说的我都知道”的感觉。

一个没有感情的答题机器,这是很多人的评价。

“内容空洞,车轱辘变着来回说。”有人评价。还有人说:“全是没营养没内涵的大白话。”

我们不妨拆解一下文心一言的这篇作文,就会知道什么是“车轱辘话”。

ai 高考作文

文中标黄、标绿的部分,都是完全相同的意思,甚至可以说是相同的话术,在文中反复出现。在文末“总结来说”标蓝的一整段,则是把文中的观点和话术,搞了个大杂烩。

这给人一种凑字数的即视感。

深AI更改提示词,让ChatGPT想象自己是一个在高考现场的考生,并再次写一篇作文,它上来第一句话就是“当我坐在这个考试的座位上时,我的手中拿着一只先进的电子笔......”

ai 高考作文

这样参加考试,估计会被判违规,直接零分。

没有灵魂,是AI作文最大的减分项。

套路,全是套路

为了让作文看起来像那么回事,AI用了很多套路。

它们很喜欢用“首先、其次、然后、最后”的句式。最典型的是ChatGPT,最后一段一定会是“总的来说……”

比如ChatGPT的这两篇作文:

ai 高考作文

文心一言、通义千问也有相似的套路。前面一顿输出猛如虎,最后一定用“总而言之”“总的来说”结尾。

这就跟弹吉他一样,只要掌握了万能和弦公式(比如万能的卡农进行),就能弹出上百首曲子。

甚至于,我们让文心一言给自己写的作文打分,它也是“首先、其次、此外、综上……”一顿长篇大论。

ai 高考作文

而在“人·技术·时间”的作文题中,ChatGPT和通义千问居然用了几乎完全相同的表述:用“那么”提出一个问题,用“首先、其次、最后”展开具体论述。框架和逻辑像是一个模子里刻出来的。

ai 高考作文

ai 高考作文

尽管如此,文心一言非常自信地给自己的高考作文打出了90分的高分(假设满分100分),还自我评价“值得肯定”。我们把它的作文丢给ChatGPT,ChatGPT竟然毫不吝啬地给出了100分的满分……

AI大模型就像工业流水线,批量生产作文。但本质上,无论它说出来的话多么像人话,驱动的技术都是数学和统计,而非意识。

在人工智能行业,让AI听懂人话、会说人话,一直以来都是一件很困难的事情。人类的自然语言是一个极其复杂的系统,科学家让机器模拟了人类大脑的神经网络,使其具备深度学习能力,但始终不具备跟人一样的自然语言能力。

于是有人另辟蹊径,把语言问题转化成数学问题,然后通过计算,间接解决自然语言处理的问题。按照自然语言处理专家吴军的说法:语言模型不是逻辑框架,不是生物学的反馈系统,而是由数学公式构建的模型。这其中的关键词是“数学”。

这决定了人工智能没有自我意识或情绪,无法根据个人感觉来说话。写作文对它们来说,是以结果和任务为导向的一种逻辑表达。

而通过抓取全网海量数据进行训练,不断学习模仿人类的语言表达方式,AI大模型现在说话已经非常接近人类,虽然它还不懂文字背后的意思,但不影响交流。

在根本上,AI没有自己的思想。这也是为什么它的作文看起来头头是道,仔细一品,你会发现没有灵魂,全是套路的根本原因。

AI真的不会数数

前面我们提到,语言模型的参数都是靠统计得出的。它的原理是给定一个文本的历史,预测下一个词的概率,然后补全下文。

2017年谷歌首次提出基于自我注意力机制(self-attention)的变换器(Transformer)模型,现在类似ChatGPT之类的语言大模型,都是建立在Transformer架构上。

Transformer的注意力机制比之前的RNN(循环神经网络)、GRU和LSTM等深度学习算法具有极长的记忆力。它还可以记住输入的顺序,所以能读懂“我爱你”和“你爱我”是不一样的意思。

但即便如此,它依然有局限。

比如,深AI让通义千问给它自己的作文打个分,它混淆了“你”和“我”的概念。开头说是它自己的文章,然后又说是“你”的文章……

ai 高考作文

《大模型时代》作者龙志勇对深AI解释,这可能是因为站在左右互搏的角度,换位了。

中央银行打击虚拟货币

在测试AI大模型写高考作文的过程中,我们还发现一个有意思的现象——AI不会数数。

高考作文有一个要求是字数不少于800字。深AI跟大模型进行了多次互动,除了ChatGPT,文心一言和通义千问第一版交上来的作文都没有达到800字。

比如文心一言,深AI多次提醒,文章字数不够800,需要重写。文心一言每次都是:首先态度非常谦卑地道歉,保证一定符合要求,然后快速用十几秒钟的时间生成一篇新的作文——还是不到800字。

这个“考生”读不懂作文题,且屡教不改,是个大大的减分项。

龙志勇对深AI解释:“大模型预测下一个词的训练方式,没有让它学会数数,它并不知道800是多少,更不懂得数着字数来生成文章。”

事实上,别说800,连10这样的数字,文心一言也数不清。

ai 高考作文

这是语言模型普遍存在的问题。至于为什么数不清,什么时候、通过什么办法就能数清,目前还没有结论。“虽然有一些提示工程的技巧可以帮助它数数,但并不是通用的解法。大模型现阶段就是靠做黑箱实验来验证它的能力,靠做黑箱训练来提升它的能力。”龙志勇说。

在龙志勇的建议下,深AI更改提示词,输入“内容再丰富,再长一些”,文心一言输出的作文超过了800字。

在前面的高考作文题中,ChatGPT的作文超过了800字,但其实,它也没学会数数。

ChatGPT这样对深AI解释:

ai 高考作文

所以,其实“优等生”ChatGPT的作文字数达标,是靠蒙的。它也不知道800字是多少,就尽可能多写点。

还不能完全听懂人话,但又具备超强的知识储备和表达能力,就导致有时候会出现让人哭笑不得的场面。

从这次AI大战高考作文的结果来看,大模型的写作能力已经有很大进步。在选词用词、逻辑论述、引经据典方面,甚至超过很多人。

不过,对作文质量的评价,本身带有主观因素,不像数学题一样只有唯一正确答案。好看的词句千篇一律,有趣的灵魂万里挑一。如何给作文注入灵魂,AI大模型还没玩明白。AI大模型固有的一些问题,也还需要通过技术迭代慢慢解决。

本文完,欢迎点个“关注”,这是一个很有AI的号。


返回网站首页

本文评论
360汽车之家官网_360车联网618预售来袭,超值福利钜惠不断
  618年中购物狂欢节之际,各厂商的优惠促销早已开始,如今已经进入了白热化阶段。在汽车出行领域,360车联网携全系产品带来超值优惠,用超低的价格为广大老司机带来优质的产品...
日期:07-14
iPadOS 多任务功能体验:融会贯通_ipad多任务管理界面
  「一个名字,就说明了一切。」在 iPadOS 的介绍页面中,苹果用了这样一句话来形容这个 iPad 新系统。   自 iPad 诞生以来,iOS 系统赋予了它强大的应用生态和无缝的用户体...
日期:02-23
京东供应链金融科技双11预计为中小微企业累计提额超160亿元_京东供应链金融融资模式
10月28日消息,2022京东11.11期间,京东供应链金融科技以数智化供应链+供应链金融的“双链联动”模式,有效连接消费互联网和产业互联网,为中小微企业提供包括信用贷款、应收融资、...
日期:10-30
新疆万亩棉田「北斗立大功:新疆3000亩“超级棉田”以往需要30人管理 现在仅需2人」
近日,在新疆巴音郭楞蒙古自治州尉犁县,由2个人种植管理的3000亩超级棉田”喜获丰收,棉花亩产可达400公斤。丰收的喜悦也有北斗农机的一份功劳。据中国北斗卫星导航系统官方消息...
日期:11-16
5G与AI缘何成今年PT展两大“吸睛”热点?_5g十vr概念股
  2018年9月26日,记者参加2018年中国国际信息通信展览会(简称PT展),一上午看遍大部分展台,入眼最多的是“5G”和“AI机器人”这两个热门元素。多个ICT企业的精彩展示,体现ICT...
日期:02-11
1024 程序员节官方剧透:大咖再聚,共话中国技术新生态_1024程序员节日快乐
在二进制垒起的计算机世界里,1024对于程序员而言,早已不再是单纯的一串数字,不断演进的开发时代赋予了它特殊的意义。伴随着一份份热衷与期盼,10月22-24日,由湖南湘江新区管委会...
日期:09-30
WordPress插件漏洞使“200万个网站”面临网络攻击的风险「wordpress 好玩的插件」
5月9日 消息:据报道,由于 WordPress 的“高级自定义字段”插件中的一个漏洞导致超过200万用户面临网络攻击的风险。据theregister报道,Patchstack 研究员 Rafie Muhammad 警告...
日期:05-09
华为nova 10系列/nova 9系列启动HarmonyOS 3公测招募
11月8日消息 华为nova10系列、华为nova9系列现已启动HarmonyOS3公测招募。HarmonyOS3新功能包括智能桌面布局、音频共享等,功能升级带来全新用机体验,大家可以用起来。机型包...
日期:11-12
媒体:第一批因AI失业的人已经出现!公司不会养闲人 这些职业最容易被AI取代
当大家还在讨论ChatGPT未来将如何发展的时候,第一批因AI失业的人已经出现了。据媒体报道,已经有一众游戏公司迅速拥抱技术变革,将AI绘画引进工作流程,用以摆脱游戏行业巨大的人...
日期:04-05
中国电信开启ipv6_中国电信实现IPv6全网商用
  (原标题:中国电信实现IPv6全网商用:已为超过3亿用户分配地址)   10月20日消息 今日,由国家互联网信息办公室和浙江人民政府共同主办的第六届世界互联网大会“领先科技成...
日期:07-26
国服最后一次大更新后:《魔兽世界》制作人再次承诺尽一切努力把游戏带回给玩家
今天,《魔兽世界》正式更新10.0版本巨龙时代”,按照常理来说,这对于魔兽玩家来说,理应是堪比过年”的大事。但由于本月早些时候暴雪宣布不再与网易续约,巨龙时代俨然已经成为了国...
日期:12-01
Win10 预览版新功能:可以快速手动安装驱动,提供新视图
  5 月 17 日消息 根据外媒 Windows Latest 消息,微软 Win10 Build 21343 预览版中的设备管理器出现了一个新功能,可以让用于以更快的速度手动为新硬件安装驱动。   目...
日期:11-19
红米note10pro影像「全球首发旗舰影像!红米Note 12 Pro+或篡位」
中关村在线消息:10月25日,据红米手机官方微博爆料,即将发布的红米Note 12 Pro+将全球首发三星HPX旗舰大底主摄以及旗舰级的影像科技。支付宝定期存款可以提前取出来吗章泽天怀...
日期:10-27
黑了半天中国,掉下来的却是美国的垃圾「美国真的很垃圾吗」
上月底,当咱们中国的长征五号B遥三运载火箭运送问天实验舱进入太空后,一些西方媒体却莫名其妙地蹦了出来,开始炒作说中国的火箭残骸会掉下来“砸向”地球,想以此妖魔化中国的形...
日期:09-14
无人机电力应用新增专利超1100件 DJI 大疆推进数字化智能巡检生态(大疆无人机产品创新)
  2019年5月22-23日,以“智能高效,创新发展”为主题的中国第五届电力行业无人机巡检技术交流会在杭州中豪大酒店隆重召开,会议由中国电力企业联合会科技开发服务中心主办,DJI...
日期:06-24
简化签名体验:Linux基金会推出sigstore软件真实性验证服务
  致力推动开源创新的 Linux 基金会,刚刚宣布了一项旨在通过便捷的加密软件签名、提升软件供应链安全性的新服务。BetaNews 报道称,名为“sigstore”的这项辅助,使得软件开...
日期:07-16
9月安卓手机性价比榜出炉!2000元就选这十款绝对不亏_安卓一千元手机性价比
中关村在线消息:近日,安兔兔公布2000元价位性价比排行榜。第一名:Redmi Note11T Pro 6GB+128GB平均成绩:782869airpods pro怎么弄坏换新性价比值:489.6售价:1599元第二名:一加Ace竞...
日期:10-08
国美电器股价连续涨停「国美零售港股盘中涨超30% 消息称国美电器将启动门店直播」
11月25日 消息:今日盘中,国美零售港股一度涨超30%,截至发稿,国美零售上涨34.45%,报0.160港元,总市值57.15亿港元。此前, 有消息称,国美电器将在全国各地门店陆续启动直播。小米电视...
日期:12-02
抖音电商新增《商家-材质成分不符细则》 12月生效_抖音商品与实物不符
11月25日 消息:日前,抖音电商发布了关于新增《【商家-材质成分不符】细则》的公示通知。公示期:2022年11月24日-2022年11月30日,规则预计于2022年12月1日生效。据悉,材质成分不...
日期:11-27
不止Mate 50 Pro!9年前的华为Mate也是藏品:被德意志博物馆收藏
10月18日消息,华为Mate 50 Pro近日在国家博物馆展示台中展出,这是首款支持北斗三号短报文通信服务的智能手机,在无地面网络的情况下,通过北斗三号短报文服务发送地理位置和紧急...
日期:10-20