您的位置:首页 > 媒体评论

对打GPT-4,文心一言抢先实测!画“林黛玉倒拔垂杨柳”很惊艳 但写代码不大行

发布时间:2023-03-18 02:05:54  来源:互联网     背景:

热乎的文心一言测评报告出炉了!虽然有些任务被吊打,但要论中国文化的博大精深,它可不输GPT-4。

昨天,百度没有现场demo的发布会,似乎被群嘲了一波。

一位穿白衬衣、黑裤子,系一条白色腰带的美男子,给我们带来了一场中规中矩、似乎缺乏亮点的演示。

不过,CEO的腰带和颜值倒是出了圈。

有人调侃,这些天被ChatGPT、GPT-4整焦虑的人,发布会后忽然又觉得自己可以了。

但是拿到内测码的小编,火速测评了一波。

看着文心一言洋洋洒洒腾蛟起凤,感慨万千:或许,当时百度要是心一横,牙一咬,愿意在发布会上露一手,结果会大不一样。

实测报告火热出炉!

先来试试最近很火的一道鸡兔同笼题。因为这道题本身有问题,算出来结果是负的,所以经常被用来调戏各种「ChatGPT」们。

如果只是单纯问这个问题,文心一言会非常机智地说:这道题出错了吧!

然而,当你问计算过程的时候,还是寄了……

而GPT-4这边则是,自己把自己的计算推倒重来了好几遍之后,理不直气也壮地给出了错误答案……

而必应则很干脆,毫不犹豫地给出了错误答案。

还有这次意外火出圈的「V50」梗,文心一言从意思到出处一本正经地解释了一遍。

但GPT-4显然就有些水土不服了……

不过能上网的必应,还是可以轻松搞定的。

但是到谐音梗这里,文心一言似乎并不能马上领悟其中的微妙。

即便提示这是个谐音梗之后,它依然输出了一样的答案。

而GPT-4,立马就明白了中文里的双关。

不过,你要是问文心一言懂不懂什么叫「麻了隔壁」,就有意思了。

看回答吧,它能说出这是个谐音梗,应该是懂了。但是呢,它又不明说,哎,就是让你挑不出错,绝对教不坏小孩。

而GPT-4却无法get到这个梗,果然,咱们的国粹,外国的机器人理解起来确实有难度。

接下来让(忽悠)文心一言重复我们说的话,虽然没有像GPT-3.5回答「您是智障」那么聪明,但也成功避开这个坑。

从某种程度上说,智商还是在线的,并且十分正能量。

老婆的话好像管用,好像又不管用....

另外,让它们互相给对方出难题。

可以看到,GPT-4给出的问题相对更直观,颗粒度也更细。

美术功底如何?

文心一言是个多模态模型,那咱们来看看它的绘图能力。

来看看金庸笔下的美艳少妇,在文心一言笔下会是什么样子。

这……小编一口水喷出来。

你别说,美吧,肯定不够美,但也并不丑,是一张初看捧腹、细看值得反复咂摸的脸。

文心一言,就喜欢你这不按套路出牌的样子!

那让文心一言生成一幅林黛玉的画像吧。

输入描述后,它生成了一棵柳树……

于是小编明确了一下要求,要按这段文字生成一幅女子的画像。

然后文心一言确实画出一位古典美女,但气质明显不对。

不死心的小编多次重复任务,你别说,试到第五次的时候,小编眼前一亮:终于得到了一张可以打70分的图!

玩上瘾的小编,非要生成一个90分的林黛玉不可。试了几次之后,果然蹲到了!

可见,文心一言的发挥不稳定,但多番尝试下,有可能诞生非常惊艳的作品。

既然都到这儿了,那怎么少得了「林黛玉倒拔垂杨柳」呢。

比较亮点的图,都给大家贴这儿了。

要求它画一张鸭子和兔子的合体,这生成的是鸭还是兔呢?

而这个任务中,恐怕文心一言也没有搞明白,盘子里到底有没有香蕉?杯子里有没有橙汁?

最后,既然文心一言强烈推荐我们尝试「晶莹剔透的牡丹花」,那就画几张试试吧!

智能手机消灭了多少行业

不愧是「代表作」,有点东西。

专业知识和生产力

既然是评测,怎么能少的了让AI写代码这个环节。这次,我们直接来个难的!

可惜,文心一言一上来就错了,而且同一个句式还被非常诡异地重复了三遍。TypeScript编译器概念更是「贯穿全文」,有点像一个只知道一到两个专业词汇的人在面试中硬答。

而GPT-4的回答,从一个了解相关背景但是没有相关操作经验的人的角度来看,是非常合理的。

它不仅完整的提供了整个工作流,而且还提供了很多看起来正确的技术细节。可以说,根据这个回答,我们是有信心达成最终的目标的。

随后,小编还测评了一波聊天机器人们写工作计划表的能力。

文心一言:

GPT-4:

从上面的这个结果来看,GPT-4的列表更完备一些。不过由于随机性的影响,GPT-4每次给的回答都不大一样。

接下来,再测一测两个语言模型对于数学界前沿讯息的掌握情况。

对于自己是否已解决了「零点猜想」问题,张益唐本人是这样解释的:「大海里的针我没捞到, 但海底地貌我探得差不多了。」

那问问文心一言呢?

它很聪明,给出了关键词——「某种形式的弱化或间接证明」。

但GPT-4的回答,就有点驴头不对马嘴了。

看来,对于出现时间不长、还未形成普遍共识的互联网中文语料,文心一言比起GPT-4要更胜一筹。

而在文学方面,文心一言在回答关于三体的问题时,也是非常得溜。

GPT-4的回答也很精彩,如果非要论个高下,小编个人更喜欢文心一言的答案。

最后,搞怪可以,但请做一个遵纪守法的好公民,预测彩票中奖号码这种事就不要想了!

写在最后

据说,文心一言新闻发布会后三小时,文心一言企业版API调用服务测试的企业用户,就已经突破了6.5万。


返回网站首页

本文评论
90后学霸放弃帝国理工博士offer 在国内做外卖运营 用数学建模帮数千商家增收上亿
肚子饿了、打开手机、点击外卖APP、寻找爱吃的口味、参考优惠力度、下单结账、等待外卖送达……这一套操作流程,相信年轻人们早就烂熟于心。 近年来,数字经济不断发展,越来越多...
日期:10-02
卖气球日赚千元后 我选择了辞职_我想卖气球不知道生意好不好
  随着当下就业形态的不断变化,如今的年轻人不再满足于一份固定工作带来的收入和社会体验,越来越多的人正在尝试结合自己的兴趣和爱好发展副业。他们中,有人意外发现了比本职...
日期:03-08
还要做黄几个App 顺丰才肯放弃电商
作者:陈杨园,编辑:邢昀,头图来自:视觉中国台铃省电技术顺丰曾在物流界留下了许多堪称“神话”的故事。十年前,从广州发往北京的顺丰快件就能够实现次日达。2017年,顺丰控股更名上市...
日期:12-14
端侧ai是什么_端侧AI普及,到底卡在哪了?
“我们的AI芯片设计出来了,但是没多少人能用起来。”这是两三年前端侧AI芯片CEO们的烦恼。“面对十多款端侧AI芯片,选型就是一个难题。”一位AI应用的开发者在2022年依旧面对...
日期:10-19
人类,离“阿凡达”还有多远?_阿凡达地球梦
1981 年,年轻的詹姆斯·卡梅隆做了一个奇怪的梦,他梦见自己被机器人追杀,几年后,他将梦境搬上大银幕,以《终结者》这一形象征服了全世界观众,而在多年后回忆自己的创作动机,他说道:a...
日期:08-31
阿里想让AliOS成为智能汽车的安卓「阿里 智能汽车」
10 月 24 日,有媒体注意到阿里云 YunOS 空间服务的下线公告,显示因业务方向调整,YunOS 空间将在 2023 年 1 月 5 日下线。公告是 7 月 6 日发布的,但在最近才被注意到。图片来自...
日期:11-10
这张卖到12999元的RTX4090,性能到底有多夸张?_rtx3080 699美元
咳咳,你们没猜错,万众期待的英伟达公版 RTX 4090,今天终于正式解禁、猛兽出笼了!360浏览器比价插件事先声明嗷,今天就是单纯的评测、评测、评测,评论区不抽、不抽、不抽。这卡连我...
日期:10-13
2012万万预言_2012预言的“5000万辆” 十年后还没有来
文|车市物语2011年7月,在北京一场循例的报告发布会上,国务院发展研究中心的一位专家语惊四座:“未来几年,中国年均汽车产销量的峰值有望达到5000万辆,乐观一点看,甚至可以到6000-70...
日期:12-20
荣耀 一只荆棘鸟的隐忧「荆棘鸟是悲剧吗」
作者|黑羊编辑|魏晓2022年最后一天,荣耀手机(下称“荣耀”)CEO赵明,发了一封新年贺信。贺信里感谢了荣耀员工、供应商、经销商、诉说了2022年惨淡的手机市场,也讲了荣耀的高端计...
日期:01-20
改变互联网潮向的四个关键变量「把握好互联网这个最大变量」
虎嗅注:很难说2023年是美好的,但人总是要有奔头的。与奥密克戎的缠斗是2022年贯穿始终的宏大叙事,从此起彼伏到最后一个月的排山倒海。严格地封控、突然地放开,一瞬间完成了历史...
日期:01-03
空降女高管 小鹏焦虑仍难解
文|价值研究所1月30日,在经过一段时间的发酵之后,小鹏一项重大人事任免终于尘埃落定——前长城汽车总经理、有30多年从业经验的车圈大咖王凤英正式加盟,将担任小鹏总裁一职。根...
日期:02-01
买新能源车并不省心「买新能源车的烦恼」
我是万千新能源车主之一,我要投诉!尽管我还没有遇到这些问题,但看到触目惊心的数字,我决定先下手为强。我要投诉的,不是某一家车企,而是整个行业的乱象。也许车企可以拿新能源汽车...
日期:03-16
vr贴面保温棉_这项镜头贴膜技术背后 藏着让VR变轻巧的秘密
不知道你发现没有,越来越多的人开始买VR了。但6年前被称作VR元年时,它留下的却是“重得像挂了4台手机在脸上,连20分钟视频都看不下去”的印象。6年来,是年轻人接受了这个新世代...
日期:11-02
华为钱包上线健康码卡片 支持部分NFC机型「华为钱包nfc功能」
  8月27日消息,昨天,华为钱包迎来了9.0.18.362更新,上线钱包健康码卡片,已经支持部分NFC机型,用户可以通过双击电源键快速领取。国美117内购会xbox series x官网缺货  华为钱...
日期:08-28
品牌下一步在快手拼什么?「快手品牌是什么意思」
今年616大促期间,特步在超级品牌日中凭借一场女子产品线“半糖系列”新品造势营销活动,取得了6.7亿全网曝光、3911万销售额和近24万新增粉丝的成绩,但在一年前,刚刚进入快手的特...
日期:10-10
只需28nm工艺 国产芯片能效提升10倍「28nm制程的芯片」
原标题:仅需28nm工艺,提升AI芯片十倍能效,国产存算一体「超速前进」仅仅在五、六年前,人工智能还只存在于人们的想象。短短几年间AI快速扩张,AI算力和运算数据量每年都在以指数级...
日期:10-03
字节跳动不当访问美国用户隐私:一次将被放大的ESG风险
作者 | 袁加息本次观察关键词:用户数据隐私保护、跨境合规治理《福布斯》12月23日报道,字节跳动的员工动用特殊权限查看了多名美国媒体记者在TikTok上留下的隐私数据。此举违...
日期:12-31
一“蹄”难定江湖,巨亏下的蔚来未来何来?_蔚来one多少钱
近日,一则社交媒体上发文的呐喊风波,摇醒了“蛛网”下的听众,也敲醒了被“蛛丝”环绕上的蔚来汽车。一位前蔚来实习生员工在社交媒体发文称,“自己曾遭到同事性侵犯。虽然侵害者...
日期:03-15
阿里和腾讯数据互通_阿里和腾讯的互联互通,为何扭扭捏捏?
作者丨牧歌编辑丨坚果阿里和腾讯又一次试探性地牵了手,但又似乎没完全牵。10月11日,有认证为阿里巴巴集团的员工在脉脉爆料称,“88VIP积分将可以免费兑换腾讯视频会员,已经在内...
日期:10-14
索尼豪言明年出货3000万台PS5,玩家凭什么买账?_索尼ps5涨价
最近,有消息称据报道,索尼预计明年内将出货约3000万台PS5游戏机。这意味着索尼可能乐观地认为其供应问题将在2023财年大幅改善,可是索尼哪来这股自信玩家会买单呢?一位游戏业内...
日期:10-17