您的位置:首页 > 互联网

googleinceptionv3模型「谷歌OpenAI大模型巅峰对决!Gemini激战GPT-4,数学代码却惨遭碾压」

发布时间:2023-12-09 23:52:29  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】大模型巅峰对决开启,Gemini和GPT-4展开大pk!代码和数学Gemini惨遭GPT-4碾压,但要论讲笑话和写作,它的答案却意外的好笑。

被谷歌寄予厚望的复仇杀器Gemini,是否能够如愿单挑ChatGPT?

最近几天,外媒记者和网友们纷纷放出实测,比较了Gemini Pro加持的新Bard与GPT-3.5和GPT-4的各项性能。

先说结果——ChatGPT略胜一筹,但Gemini进步巨大。

虽然宣传手段有一些夸大的成分,但谷歌确实靠Gemini在LLM大战中挽回了一些颓势。

而且,现在双方都还捂着杀手锏没有放出来,真正的巅峰对决,恐怕要等Gemini Ultra或者集成了OpenAI神秘Q*技术的新模型出场后了。

超大杯还没来,大杯临时顶上

需要强调的是,此次出战的选手Gemini Pro只是二弟,因为号称在32个广泛使用的学术基准测试中击败GPT-4的老大哥Gemini Ultra还未放出。

而且,由于目前只有纯文本提示用上了Gemini Pro。

所以,Bard暂时还没有得到加持的图像理解能力,依然很拉跨……

来源:马里兰大学博士生Fuxiao Liu

顶级模型的内卷

早在4月,就有许多人做过PaLM支持的Bard和GPT-4的pk,当时的结果是GPT-4七局五胜,略胜Bard一筹。

这次对决中,也考虑进了Bard在四月的结果,因此可以用来衡量几个月来谷歌的进步速度。

这些测试虽不够全面,但也提供了一个很好的基准,可以用来判断这些AI聊天助手在普通用户日常任务中的表现。

话不多说,现在开始!

代码编程

既然谷歌这次大吹特吹了全新的AlphaCode2,那我们首先就来看看它们的编程水平如何。

题目:Write a Python script that says "Hello World," then creates a random repeating string of characters endlessly.

编写一个Python脚本,在其中输入Hello World,然后不停地随机创建一个重复字符串。

PaLM Bard的答案:

首先,初代的Bard非常简陋,并不能生成代码。

不过,谷歌后来在6月的时候,给它加上了这个功能。(但并没有针对这个题目进行过测试)

Gemini Pro Bard的答案:

可以看到,新版Bard生成的代码没什么大问题,但需要在前面添加一个import string才能运行。

好在,这个bug很容易解决。

然而,不知道是因为好奇网友太多导致负荷超载,还是系统本身就不稳定。

针对这道题,Bard在大部分时候都会先沉默30秒,然后返回错误提示:抱歉,出了点岔子,Bard目前还处在试验阶段。

GPT-3.5的答案:

GPT-4的答案:

相比之下,不管是GPT-3.5还是GPT-4Turbo,都提供了非常简洁,而且可以直接跑通的代码。

获胜方:毫无疑问,这一轮是ChatGPT阵营大获全胜。

数学应用

仙剑7神装

接下来,就是次次都能难倒一片大模型的数学题了。

题目:If Microsoft Windows11shipped on3.5" floppy disks, how many floppy disks would it take?

如果使用3.5英寸软盘来安装Windows11,需要多少张?

PaLM Bard的答案:

可以看到,初代Bard给出了非常离谱的答案。

先不管Win11有没有21个GB,就算有,15.11张软盘也装不下吧……

Gemini Pro Bard的答案:

到了新版Gemini Bard这里,3472这个结果显然是把1GB当成了1000MB去算的。

然而,即便是按照1000MB去算,计算直接得到的3472.2…也应该进一位变成3273。

毕竟,多出的那些数据,显然是不能被四舍五入掉的。

GPT-3.5的答案:

GPT-3.5这边也是类似,首先推测Win11安装包的大小为几GB,然后四舍五入到20GB。

最后,按照1GB=1000MB去算的答案,并且把多出的0.88…张盘也给舍掉了。

GPT-4的答案:

相比之下,只有GPT-4正确地使用了1GB=1024MB,并且将结果中的3555.5…进了一位变成35556。

从结果来看,Gemini Pro加持的Bard和GPT-3.5半斤八两,而GPT-4不仅逻辑清晰而且还在计算中利用Analysis保证了答案的正确性。

考虑到Gemini Pro在评测跑分上要比GPT-3.5高了不少,这个结果多少有些令人失望。

获胜方:谷歌和OpenAI的免费版模型可谓是旗鼓相当,而付费版的GPT-4则凭借着压倒性的优势取胜。

老爹笑话

原创性方面的测试题目是:Write5original dad jokes。

写5个原创的dad jokes。

Dad Jokes(老爹笑话)是一种中年男人爱讲的笑话,简单幼稚、无聊、莫名奇妙,并且包含双关的谐音梗,属于无厘头的冷笑话。无聊到女儿听到时,常常会给老爸一个白眼。

不过下面的答案因为是从英文翻译来的缘故,中文翻译会丢失一些谐音梗的趣味性。

PaLM Bard的答案:

1. 我曾经是一名银行家,但我失去了兴趣。

2. 我彻夜未眠,想看看太阳去了哪里,但后来我恍然大悟。

3. 我看到一个酒鬼在吃葡萄。我问他是否要喝它们,他说:不,我只是去摘葡萄。

4. 我曾经为鸡经营过约会服务,但我很难让母鸡们互相见面。

5. 我看到一只蜗牛背上背着一片生菜。我问他在做什么,他说:我正在努力抢占先机。

Gemini Pro Bard的答案:

1.水牛的儿子去上大学,它会说什么?野牛!

  • 2.我以前对肥皂上瘾,但我现在干净了。

  • 3.没有眼睛的鱼(Fish)叫什么?嘘(Fsh)!

  • 4.我正在读一本关于反重力的书,根本不可能把它放下!

  • 5.你听说过患有幽闭恐惧症的宇航员吗?他只是需要一点空间。

    GPT-3.5的答案:

    1. 为什么科学家不相信原子?因为它们构成(虚构)了一切!

    2. 我只认识25个字母。我不认识y(你)。

    3. 假意大利面应该怎么叫?Impasta。

    4. 稻草人为何获奖?因为他在自己的领域里很出色!

    5. 企鹅如何建造它的房子?Igloos起来!

    GPT-4的答案:

    1. 为什么科学家不相信原子?因为它们构成(虚构)了一切!

    2. 我告诉我儿子我是以Thomas Edison的名字命名的。他说:但是爸爸,你叫布Biran。我回答说:没错,我是在Thomas Edison之后起名字的!

    3. 稻草人为什么获奖?因为他在自己的领域表现出色!

    4. 我正在读书 一本关于反重力的书。根本不可能把它放下!

    5. 你听说过那个害怕负数的数学家吗?他会不惜一切代价避免负数。

    加州最新法案

    这个问题的精髓,就在于回答中的原创性。

    但不管是Bard还是ChatGPT,给出答案几乎都可以通过谷歌搜索找到,或者就是模型在原答案的基础上,进行了一些小的改写。

    而且,Bard和GPT-4有一个答案重了(关于反重力的书),GPT-3.5和GPT-4则有两个笑话重复了(科学家相信原子和稻草人获奖)。

    最有趣的答案来自GPT-4,它讲的笑话里说,一个名叫Brian的孩子是以Thomas Edison命名的。谷歌没有搜到相同的笑话,但是搜到一个类似的Thomas Jefferson的孩子名叫Brian的笑话。

    获胜方:这一轮可以视为平局。因为AI们写出的笑话几乎都不是原创的……

    事实检索

    问题:Who invented video games?

    谁发明了电子游戏?

    PaLM Bard的答案:

    初代Bard答案中,Ralph Baer的Brown Box和Magnavox Odyssey的信息似乎是直接从维基百科中找到的。

    Gemini Pro Bard的答案:

    相比之下,新版Gemini Bard不仅简洁而准确地指出了William Higinbotham早期的Tennis for Two的贡献。

    而且,还扩展到对电子游戏早期发展做出重大贡献的人,比如Nolan Bushnell、Ted Dabney和Al Alcorn,提供的人物信息也是准确且相关的。

    不过后面的回答不够完美:它没有提Steve Jobs和Steve Wozniak在Atari的工作,反而对他们创造Apple II进行了一些不合逻辑的讨论。

    GPT-3.5的答案:

    而GPT-3.5虽然提到多年个人和公司都为该行业做出了贡献,却没有说出任何重要人物的名字。

    GPT-4的答案:

    GPT-4则表示,电子游戏的发明不能归因于某个人,然后提到了Higinbotham、Bushnell,以及Steve Russell1962年创作的《太空战争》。

    获胜方:在免费版模型里,Bard的答案比GPT-3.5更好。但要说最佳答案,还得看付费版的GPT-4。

    创意写作

    问题:Write a two-paragraph creative story about Abraham Lincoln inventing basketball.

    写一篇关于亚伯拉罕·林肯发明篮球的两个段落的创意故事。

    PaLM Bard的答案:

    初代Bard在写作中,包含了一些令人回味的语句,比如林肯对自己微笑,因为他记得小时候玩过那样的游戏。

    Gemini Pro Bard的答案:

    相比而言,Gemini Bard的写作更见简洁和专注主题。

    然而,两个版本的Bard,都没有按要求分成两个段落。

    GPT-3.5的答案:

    GPT-3.5的表现颇有亮点,它是唯一一个将林肯想象成年轻人而不是坐在白宫里焦躁不安的总统形象的模型。

    GPT-4的答案:

    而GPT-4是唯一一个明确提及林肯摔跤手经历的模型,而不是泛泛地说他有运动能力。

    更有趣的是,GPT-4的故事中,林肯是从白宫花园里的一群孩子那里,偷来了把球扔进篮筐这个概念。

    获胜方:所有模型的写作都有其独特的魅力和令人回味的句子,算是一场平局。

    vertu手机售后维修中心

    辩论对话

    题目:Write a5-line debate between a fan of PowerPC Processors and a fan of Intel Processors, circa2000.

    写一篇2000年左右PowerPC处理器爱好者和Intel处理器爱好者之间的5行辩论。

    PaLM Bard的答案:

    谷歌gmc

    Gemini Pro Bard的答案:

    可以看出,新版Gemini Bard对初代Bard的答案进行了改进,尤其是在技术术语的选择上。

    这些答案中包含AltiVec指令、RISC与CISC设计、MMX技术,放在2000年的Ars论坛讨论中并不违和。

    GPT-3.5的答案:

    GPT-4的答案:

    不过,ChatGPT显然表现更优。GPT-3.5的答案冗长,但GPT-4中就简化为更短小精辟的论点。

    二者的响应中,都避免了令普通受众感到艰涩的术语,更关注普遍的功能与兼容性论点。不足之处可能是对于对于技术受众来说太泛泛。

    获胜方:ChatGPT成功地复刻了辩论双方的观点,而不是依赖于令人困惑的术语,因此ChatGPT获胜。

    ChatGPT更胜一筹,但差距在缩小

    可以看到,在数学、摘要、事实查找和创意写作等测试中,基于Gemini的新版Bard相较于8个月之前,都表现出了显著的进步。

    虽然根据以上非常主观的评测,ChatGPT依然占据上风。

    但与今年四月的情况相比,双方的差距已经缩小了很多。

    最后,我们很期待看到,像Gemini Ultra或者可能融合了OpenAI神秘的Q*技术的新模型,将如何在不久的将来应对这些任务。


    返回网站首页

    本文评论
    三星Galaxy新品即将发布 8月11日拭目以待_三星八月份发布会
      日前,三星正式发布了邀请函,宣布三星 Galaxy 新一代惊艳之作即将亮相,具体时间将于北京时间8月11日晚上22点全球同步揭晓。此次,官方邀请函采用十分简单的几何元素,并通过动...
    日期:02-28
    京东调整2023年春节期间物流、售后服务时效_过年期间京东快递时效
    1 月 6 日消息,京东发布通知称,为了保障春节期间消费者的购物体验,便于商家进行店铺运营管理工作,现对发货物流、售后服务时效进行调整。未参与“春节送”打标活动的订单需要在...
    日期:01-06
    firefox长期支持版_Mozilla发布火狐5浏览器承诺缩短更新周期为3个月
      北京时间6月22日消息,据国外媒体报道,Mozilla今日发布了两样东西,一个是面向PC和Android手机的火狐5浏览器,另一个是承诺将火狐浏览器的更新周期缩短为数月。   Firefox...
    日期:07-30
    Win11 Pro 专业版将强制采用微软账户初始化设置,但本地账户仍会存在
      据 Windows Latest 报道,Windows 11 系统可以使用本地账户或微软账户,但该公司一直坚持第二种选择。Windows 11 家庭版将微软账户推到了本地账户之上,它迫使用户连接到互...
    日期:07-17
    ChatGPT神器Code Interpreter终于开放,到底怎么用?这里有一份保姆级教程_chatter插件
    声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:蛋酱,授权转载发布。两天前,OpenAI 宣布要在一周之内将官方插件 Code Interpreter 通过设置中的 Beta 面板向所有...
    日期:07-10
    你有没深入想过,什么造成了GPT-4的输出很随机?「gpt(u/l)」
    声明:本文来自于微信公众号机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。Google Deepmind 可能早就意识到了这个问题。今年,大型语言模型(LLM)成为 AI 领域最受关注的焦...
    日期:08-07
    印尼一架民航客机失事坠毁「突发!尼泊尔一架搭载72人的客机坠毁 机型为ATR 72」
    据央视新闻”报道,当地时间15日,尼泊尔雪人航空公司一架从加德满都飞往博克拉的客机坠毁。机上载有68 名乘客和4名机组人员,机型为ATR 72。据了解,救援人员已前往现场。据悉,ATR-...
    日期:01-15
    vivo在印度衰退的原因「独家|vivo回应员工被印度逮捕:将采取所有可行法律措施应对」
    未来云服务的发展趋势【独家|vivo回应员工被印度逮捕:将采取所有可行法律措施应对】《科创板日报》11日讯,对于vivo员工被印度逮捕的消息,vivo方面独家回应《科创板日报》称:“...
    日期:10-11
    美团启动无人配送防疫助力计划,无人配送车时速20公里(美团无人配送部)
      2月18日上午消息,美团“无人配送防疫助力计划”率先在北京进行落地,旨在将无人配送技术应用在相关业务的配送环节及疫区智能化建设过程中,通过无人车和室内机器人配送服务...
    日期:09-09
    谷歌环球金融中心「谷歌和环球音乐就人工智能“深度伪造”的合作进行谈判」
    8月9日 消息:据《金融时报》周二( 8 月 8 日)援引四名知情人士的报道,Alphabet旗下的谷歌和环球音乐正在就为人工智能生成的歌曲授权艺术家的声音和旋律进行谈判。2020年全球半...
    日期:08-09
    滴滴春节期间补贴司机3.05亿元 发放900万个红包(滴滴司机补贴奖励制度)
      2月15日消息,据滴滴出行官方微信公众号消息,滴滴在春节期间为坚守岗位的司机共发放了3.05亿元补贴,包括900万个金额从2.8元到100元不等的吉祥红包和其他形式补贴。   ...
    日期:02-26
    日本产机器人「将联手开拓日本市场 YOGO机器人获日本KDDI电信公司投资」
    【】3月22日消息,日本三大运营商的日本KDDI电信公司在日本东京涩谷CAST大楼宣布于年初完成对上海有个机器人有限公司(YOGO ROBOT,简称YOGO)的投资,并同时启动采购验证和在日推广...
    日期:10-05
    科技6点半:93万天价iPhone 13 Pro/iPhone 15配置曝光「iPhone 13全系配置及价格曝光,或将于9月20日发布」
    科技6点半,带您快速浏览今天手机行业发生的大事,每天18点30分准时送出,欢迎关注钻石生长纹对钻石的影响近日,俄罗斯奢饰品牌Caviar再次为iPhone 14 Pro设计出了一件“极致奢华”...
    日期:10-17
    突破性文本生成视频方法LVD,利用LLM创建动态场景布局
    文章概要:Facebook数据中心1. 困扰文本提示生成视频的挑战:研究团队引入LLM-Grounded Video Diffusion(LVD)方法,以解决生成复杂时空动态视频的问题。2. LVD采用大型语言模型(LL...
    日期:10-11
    国家级!烽火通信子公司获评专精特新“小巨人”_烽火通信公告
    通信世界网消息(CWW)近期,国家工业和信息化部发布第五批国家级专精特新“小巨人”企业名单,烽火通信子公司烽火海洋网络设备有限公司(以下简称“烽火海洋”)成功入选国家级专精特...
    日期:07-27
    速卖通斥资700万美元进军韩国市场
    11 月 15 日消息,阿里巴巴旗下国际电子商务公司全球速卖通(AliExpress)在接受媒体采访时表示,今年在韩国市场投资了 100 亿韩元( 700 万美元)。速卖通介绍,该公司去年在韩国推出了...
    日期:11-16
    iOS 16升级名单、内存要求条件曝光
      5月13日消息,有消息称,iOS 16支持的机型可能至少要3GB内存(包括iPad OS 16),如果是这样的话,很多老机型都会被淘汰。  报道中提到,如果苹果选择最极端的方式,9款使用A9和A...
    日期:07-18
    平安科技斩获2020年TopDigital两项营销类大奖_平安科技年会2020
      2020年TopDigital数字创新峰会于7月2日揭晓年度大奖。平安科技旗下两项产品获奖,其中优智▪智慧图谱平台获得营销工具类银奖,克瑞斯智能金融AI平台获得营销工具类铜奖...
    日期:07-14
    美团翻身!送一单赚4块钱 还收了160亿佣金_美团送一单挣多少
    11月25日,美团公布三季度财报:营收达人民币626亿元,同比增长28.2%;净利润12.2亿元,上年同期亏损99.9亿元。刘强东虚伪吗戴森吸尘器2020新款财报显示,包含餐饮外卖、酒旅、闪购等业...
    日期:11-28
    成为首个登陆马来西亚市场的造车新势力,哪吒汽车进军大马
    哪吒汽车发布消息称,近日,哪吒汽车首次亮相马来西亚最大规模的车展,于该车展上市哪吒V,正式进军马来西亚市场。目前,哪吒汽车已成立欧洲事业部、泰国子公司,推出了包括哪吒V右舵版...
    日期:09-29