您的位置:首页 > 互联网

gemini program「谷歌被打脸!Gemini Pro被证实和GPT3.5差距不大」

发布时间:2023-12-25 17:15:23  来源:互联网     背景:

要点:

  • 在CMU的研究中,Gemini Pro被与GPT-3.5和Mistral8×7B进行了深入的比较,结果显示GPT-3.5在多个任务上几乎全面优于Gemini Pro,但差距不大。

  • 通过测试任务包括基于知识的问答、通用推理、数学问题、代码生成等领域,Gemini Pro在某些任务上表现较差,但在特定任务中超越了GPT-3.5。

  • 文章强调Gemini Pro是多模态的,通过视频、文本和图像训练,而GPT-3.5Turbo和GPT-4Turbo主要基于文本,Mixtral是开源竞争对手。

12月25日 消息:谷歌最新发布的Gemini Pro自发布以来备受瞩目,谷歌声称其优于GPT-3.5。然而,CMU的研究通过深入的实验对比,展示了GPT-3.5在多个任务上的全面优势。Gemini Pro虽然在某些任务上稍显不足,但整体表现与GPT-3.5相近,为大模型领域的竞争增添了新的火花。

google mini

论文地址:https://arxiv.org/pdf/2312.11444.pdf

什么品牌太阳镜好看

研究涉及了基于知识的问答、通用推理、数学问题、代码生成等多个领域。在基于知识的问答任务中,Gemini Pro在一些子任务上落后于GPT-3.5,尤其在多选题答案输出中显示了一定的偏见。通用推理测试中,Gemini Pro的精度略低于GPT-3.5Turbo,尤其在处理较长、复杂问题时表现不佳,而GPT-4Turbo则表现更为稳健。

米家智能空气炸锅食谱

数学问题领域的测试包括小学数学基准、稳健推理能力、不同语言模式和问题类型等。Gemini Pro在某些任务上略显不足,特别是在多样化的语言模式任务中,表现较GPT-3.5Turbo稍逊。在代码生成方面,Gemini Pro在两项任务上的表现均低于GPT-3.5Turbo,与GPT-4Turbo相比则差距更大。

总体而言,Gemini Pro作为多模态模型,尽管在某些任务上稍显不足,但在特定领域表现出色,超越了GPT-3.5。然而,在大多数测试中,GPT-3.5Turbo仍然保持领先地位,证明其在开源模型中的卓越性能。这一研究为科技领域的大模型竞争提供了客观中立的第三方对比,为未来的模型发展提供了有益的参考。


返回网站首页

本文评论
全国可用 免费领!苹果Apple Pay公交卡上线《荣耀》七周年专属卡面「苹果钱包公交卡活动」
近日,腾讯旗下手游《王者荣耀》正值七周年庆,官方推出了一系列活动,包括免费送皮肤等等,是该游戏每年最重大的活动之一。除了游戏内福利之外,《王者荣耀》还联合了苹果推出Apple...
日期:11-05
蔚来10月交付量5055台创纪录  新车型EC6交付883台(蔚来ec6月供)
11月2日,TechWeb从蔚来官方获悉,蔚来10月共交付新车5055台,创品牌单月交付数新高,同比翻番,并自今年3月以来连续第8个月实现同比增长。这是蔚来月度交付数首次突破5000台,也是中国...
日期:08-02
微信公众平台将开展违规营销内容专项治理「公众号过度营销违规4次」
4月25日 消息:微信公众平台运营中心发布公告称,近期国家市场监督管理总局发布《互联网广告管理办法》,于5月1日起实施,公众号运营者发布的营销内容需遵守相关规定。iphone13 pr...
日期:04-25
中国工程院院士 邬贺铨「邬贺铨:大模型与行业数据结合有两种模式」
通信世界网消息(CWW)11月9日上午,世界互联网大会乌镇峰会算力网络协同创新论坛在浙江乌镇举行,中国工程院院士邬贺铨出席大会并发表了题为“算网协同,赋能数字转型”的主题演讲,他...
日期:11-14
还不如我朋友的华为手机拍的 iPhone-15 Pro Max实拍样张被吐槽
来源:中关村在线智云发布新品10月16日晚,苹果公司首席执行官蒂姆·库克在成都太古里亮相。此前,在抵达太古里的大约一小时前,库克曾通过微博分享了一张他用iPhone 15 Pro Max拍...
日期:10-19
女生情人节前夕垃圾桶捡到积木城堡:捡垃圾成致富秘笈让网友不淡定
据白鹿视频,湖南长沙一位女生在情人节前一天分享视频,自己半个月前在垃圾桶就喜提”收获,居然是精美的迪士尼积木城堡。美团股票跌她在分享的短视频中介绍,自己是在宿舍楼下垃圾...
日期:02-15
苏宁抢冰洗大促开启,冰爽价引消费者点赞_苏宁清凉一夏活动
  6月27日0点,苏宁万人抢冰洗吹响狂欢号角。苏宁携手海尔、美的、美菱、LG、西门子、海信等品牌共同出击,引燃冰箱洗衣机旺季战火。本次万人抢冰洗,苏宁再度推出“苏宁价”,...
日期:09-26
贾跃亭回归:再接手法拉第未来 FF91真要来了?「贾跃亭的ff91什么时候上市」
法拉第未来的执行董事长苏珊·斯文森 (Susan Swenson)在北京时间10月8日正式宣布卸任,而随后根据协议FF创始人贾跃亭率FF合伙人公司成功重组上市公司董事会,再次接手法拉第未...
日期:10-14
《CS2》官方宣布玩家数已突破3000万 好评率仅有74%_cs online2
快科技10月3日消息,《CS2》官网最新公布了数据,在游戏正式发售一周时间后,游戏玩家达到了31466851人,顺利突破3000万。自《CS2》发布以来,Steam平台上最近收到的评价评测数155087...
日期:10-03
点一杯奶茶什么意思「点1杯奶茶被采集87条个人数据 涉及多项个人敏感信息」
上海市消保委对上海29家有名气的奶茶店、快餐店进行了调查,发现一家网红奶茶连锁品牌每接到一个订单,就能生成87条数据。调查显示,这些店铺总共产生的数据已经超过100亿条。其...
日期:06-20
荣耀首款外折手机!荣耀V Purse定档:9月19日见_荣耀首款折叠屏手机
快科技9月11日消息,荣耀今日官宣,将于9月19日19点30分在上海举办荣耀V Purse科技时尚大秀,届时新机应该在国内市场正式发布,这是荣耀首款外折手机。大众点评搜什么关键词能搜出...
日期:09-11
芯片收购案「美国芯片巨头重磅收购失败 美媒:中国反击芯片战有一重要利器」
近期,美国芯片巨头英特尔的重磅收购行动未能成功,宣布放弃对以色列芯片企业高塔半导体的收购计划。原因是无法在截止日期前获得中国监管部门的批准。这是继高通收购恩智浦失败...
日期:08-22
2020前瞻:区块链的这5个趋势不可错过_展望2021:区块链十大趋势
《2020前瞻:区块链的这5个趋势不可错过》文章已经归档,不再展示相关内容,下文是的自动化写作机器人,通过算法提取的文章重点内容。这只AI还很年轻,欢迎联系我们帮它成长:该数据与...
日期:08-01
街旁网称无组织架构变化 声明否认大规模裁员
  6月21日北京消息:街旁网就大规模裁员消息发表声明,称此消息不实,公司无裁员情况发生。   19日晚间,有消息人士爆料称国内LBS服务商街旁融资受阻,投资方有意更换现任CEO,并...
日期:07-30
抖音贺岁电影绣球_抖音贺岁片《绣球》上线,关注让社会更有温度
  2月2日,由抖音出品的贺岁片《绣球》温暖上线,影片传递关注的力量成最强吸睛点。抖音一如既往地将视角对准了你我身边的普通人,通过《绣球》关注普通人,以及普通人因为...
日期:07-10
运营商财经网康钊:美国封杀中国31家单位居然有一所高校
运营商财经 康钊/文redmi k50电竞版120hz适配游戏近日,美国商务部下属的工业与安全局公布了新的出口管制名单,共43家企业被封杀,其中31家是中国企业,还有几家外国企业也与中国有...
日期:06-17
三星最新发布耳机「双11超人气好物 三星Galaxy Buds FE耳机热销中」
万众期待的11. 11 年终庆典转眼就要临近,不少朋友都做好了万全准备。作为横跨 10 月 11 月整场活动的压轴环节,想必有不少朋友都计划着趁此机会将周身设备焕新。尤其是前不久...
日期:11-11
soul社交集团_Soul创始人带你找回社交本质 开启无压力社交之旅
  社交一直在人们日常生活中扮演着解压抒情的角色,而随着内卷时代的到来,社交也开始走向了内卷之路,社交也自此偏离了初心轨道。为给Z世代群体留下最后一片社交净土,Soul打造...
日期:02-22
苹果a14仿生芯片性能「苹果A16仿生芯片成本高达110美元 是A15芯片2.4倍」
10月8日消息,有外媒在报道中称,苹果上月新推出的iPhone 14系列中的最高端款,也就是iPhone 14 Pro Max,包括零部件在内的生产成本,增加到了501美元,高于上一代的461美元。从外媒的...
日期:10-09
卢伟冰:Redmi K70是友商无法跨越的高峰 只能找边边角角来蹭_卢伟冰红米k40
快科技12月22日消息,小米集团卢伟冰发微博表示,每一款搭载骁龙8Gen2芯片、主打性能的手机,几乎都是对K70的致敬,但又是完全无法跨越的高峰。狂暴引擎3.0的调较能力、2K屏幕的技...
日期:12-23