您的位置:首页 > 互联网

万万没想到,ChatGPT参数只有200亿?

发布时间:2023-11-01 02:50:44  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

这合理吗?

谁都没有想到,ChatGPT 的核心秘密是由这种方式,被微软透露出来的。

昨天晚上,很多讨论 AI 的微信群都被一篇 EMNLP 论文和其中的截图突然炸醒。

微软一篇题为《CodeFusion: A Pre-trained Diffusion Model for Code Generation》的论文,在做对比的时候透露出了重要信息:ChatGPT 是个只有20B(200亿)参数的模型,这件事引起了广泛关注。

距 ChatGPT 发布已经快一年了,但 OpenAI 一直未透露 ChatGPT 的技术细节。由于其强大的模型性能,人们对 ChatGPT 的参数量、训练数据等信息抱有诸多疑问和猜测。

作为行业一直以来的标杆,ChatGPT 性能强大,可以解决各种各样的问题。它的前身 GPT-3参数量就达到了1750亿,实用化以后的大模型居然被 OpenAI 瘦身了快9倍,这合理吗?

如何看待这篇论文的话题立刻冲上了知乎热榜。

论文链接:https://arxiv.org/abs/2310.17680

热水器漏电电死人是谁的责任

具体来说,微软这篇论文提出了一种预训练的扩散代码生成模型 ——CodeFusion。CodeFusion 的参数量是75M。在实验比较部分,论文的表1将 ChatGPT 的参数量明确标成了20B。

众所周知,微软和 OpenAI 是合作已久的一对伙伴,并且这是一篇 EMNLP2023论文,因此大家推测这个数据很有可能是真实的。

然而,关于 ChatGPT 参数量的猜测,人们一直认为是一个庞大的数字,毕竟 GPT-3的参数量就已经达到了175B(1750亿)。掀起大型语言模型(LLM)浪潮的 ChatGPT,难道就只有20B 参数?

大家怎么看?

这个数据被扒出来之后,在知乎和 Twitter 已经引起了广泛讨论。毕竟,200亿参数达到这样的效果十分惊人。再则,国内追赶出的大模型动则就是数百亿、上千亿。

那么这个数据保不保真?大家都有什么看法呢?

NLP 知名博主、新浪微博新技术研发负责人张俊林盲猜分析了一波,引起了大家广泛赞同:

不负责任猜测一波:GPT4是去年8月做好的,ChatGPT 估计是 OpenAI 应对 Anthropic 要推出的 Claude 专门做的,那时候 GPT4应该价值观还没对齐,OpenAI 不太敢放出来,所以临时做了 ChatGPT 来抢先发优势。OpenAI 在2020年推出 Scaling law 的文章,Deepmind 在2022年推出的改进版本 chinchilla law。OpenAI 做大模型肯定会遵循科学做法的,不会拍脑袋,那么就有两种可能:

可能性一:OpenAI 已经看到 Chinchilla 的论文,模型是按照龙猫法则做的,我们假设 ChatGPT 的训练数据量不低于2.5T token 数量(为啥这样后面分析),那么按照龙猫法则倒推,一般训练数据量除以20就应该是最优参数量。于是我们可以推出:这种情况 ChatGPT 模型的大小约在120B 左右。

可能性二:OpenAI 在做 ChatGPT 的时候还没看到 Chinchilla 的论文,于是仍然按照 OpenAI 自己推导的 Scaling law 来设计训练数据量和模型大小,推算起来训练数据量除以12.5左右对应模型最优参数,他们自己的 Scaling law 更倾向把模型推大。假设训练数据量是2.5T 左右,那么这种情况 ChatGPT 的模型大小应该在190到200B 左右。

大概率第一个版本 ChatGPT 推出的时候在200B 左右,所以刚出来的时候大家还是觉得速度慢,价格也高。3月份 OpenAI 做过一次大升级,价格降低为原先的十分之一。如果仅仅靠量化是不太可能压缩这么猛的,目前的结论是大模型量化压缩到4到6bit 模型效果是能保持住不怎么下降的。

所以很可能 OpenAI 这次升级从自己的 Scaling law 升级到了 Chinchilla 的 Scaling law,这样模型大小就压缩了120B 左右,接近一半(也有可能远小于120B,如果按照 chinchilla law,llama2最大的模型应该是100B 左右,此时算力分配最优,也就是说成本收益最合算。但是实际最大的 llama2模型才70B,而且更小的模型比如7B 模型也用超大数据集。

llama165B 基本是符合 chinchilla law 的,llama2最大模型已经打破 chinchilla law 开始怼数据了。就是说目前大家做大模型的趋势是尽管不是算力分配最优,但是都倾向于增加数据减小模型规模,这样尽管训练成本不合算,但是推理合算,而训练毕竟是一次性的,推理则并发高次数多,所以这么配置很明显总体是更合算的),再加上比如4bit 量化,这样推理模型的大小可以压缩4倍,速度大约可提升8倍左右,如果是采取继续增加训练数据减小模型规模,再加上其它技术优化是完全有可能把推理价格打到十分之一的。

后续在6月份和8月份各自又价格下调了25%,最终可能通过反复加数据减小规模逐渐把模型压缩到20B 左右。

这里解释下为何 ChatGPT 的训练数据量不太可能比2.5T 低,LLaMA2的训练数据量是2T,效果应该稍弱于 ChatGPT,所以这里假设最少2.5T 的训练数据。目前研究结论是当模型规模固定住,只要持续增加训练数据量,模型效果就会直接增长,mistral7B 效果炸裂,归根结底是训练数据量达到了8个 T,所以导致基础模型效果特别强。以 ChatGPT 的效果来说,它使用的数据量不太可能低于2.5T。

当然,还有另外一种可能,就是 ChatGPT 在后期优化(比如第一次大升级或者后续的升级中,开始版本不太可能走的这条路)的时候也不管 scaling law 了,走的是类似 mistral 的路线,就是模型大小固定在20B,疯狂增加训练数据,如果又构造出合适的 instruct 数据,效果也可能有保障。

不论怎么讲,对于6B 到13B 左右比较适合应用落地的模型,强烈呼吁中文开源模型模仿 mistral,固定住一个最适合使用的模型大小,然后疯狂增加训练数据,再加上好的 instruct 策略,是有可能作出小规模效果体验足够好的模型的。我个人认为对于开源模型来说,7B-13B 左右大小的模型应该是兵家必争之地。有心气做开源的可以再努把力,把训练数据往上再努力怼一怼。

早在 OpenAI 开放 ChatGPT API 时,0.002美元 /1k token 的定价就令人们意外,这个价格只有 GPT-3.5的1/10。彼时就有人推测:ChatGPT 是百亿(~10B)参数的模型,并且ChatGPT 使用的奖励模型(reward model)可能是千亿级模型。该推测来源于清华大学 NLP 在读博士郑楚杰的知乎回答。

原回答链接:https://www.zhihu.com/question/587083296/answer/2918080518

而国内外许多网友也都认为,200亿的参数,是完全合理的。

也有知乎网友从价格上分析,这个数据也应该是对的。

当然,也有网友认为这可能是个拼写错误,或许实际是120B(1200亿),至少120B 和 GPT-3(175B)是一个数量级。

但所有这些都是猜测,由于 OpenAI 对参数量、训练数据、方法等核心信息一直讳莫如深,因此20B 这个数据到底是不是真的根本无法求证。如果是真的,那么大型语言模型未来的改进方向还会是增加参数量吗?

再过几天,就是 OpenAI 的开发者大会了,也许我们能够了解到更多有用的信息,让我们拭目以待吧。

参考内容:

https://www.zhihu.com/question/628395521

https://twitter.com/felix_red_panda/status/1718916631512949248


返回网站首页

本文评论
美股周三:热门中概股普涨,法拉第未来跌近19%_法拉第未来a股
11月16日消息,美国时间周三,美股收盘主要股指再次全线上涨。美国10月份通胀数据疲弱提振了人们对美国经济软着陆的希望,即在经济增长持续的同时,美联储将降低借贷成本。道琼斯指...
日期:11-16
人工智能时代的「超级高产人士」: 最小化分心因素 最大化生产力
6月26日消息:Marc Andreessen 于本月早些时候撰写了一篇备受关注的宣言,阐述了为什么人工智能不会毁灭人类,而是会让世界变得更加美好。作为风险投资公司 Andreessen Horowitz...
日期:06-26
女子坐在高铁车厢的地上「女子错峰乘高铁 车厢载满快递:觉得挺有意思 就记录下来」
9月28日消息,据媒体报道,江苏苏州一女子没抢到国庆车票,所以提前回家,坐高铁时遇一节载满顺丰快递的车厢。拍摄者刘女士介绍,自己没抢到国庆节回家的车票,就提前了几天回家。在高...
日期:09-29
超逼真!普林斯顿大学推3D场景生成模型Infinigen_普林斯顿大学雕塑介绍
6月19日 消息:普林斯顿大学研究人员Alexander Raistrick日前发布了一款名为“Infinigen”的开源AI模型,可以帮助人们生成逼真的3D 场景。据了解,Infinigen 是一款基于开源建模...
日期:06-19
对话麒麟软件李祥凯:中国操作系统生态迈进3.0时代
【网易科技5月12日报道】5月11日下午,麒麟操作系统通用软件提质计划正式发布。“应用生态的丰富和多元,从根本上决定了国产操作系统的内生动力和高质量发展。”麒麟软件有限公...
日期:05-13
阿里巴巴与吉利宣布战略合作_阿里投资吉利汽车
1月13日 消息:1月13日,阿里巴巴集团与吉利控股集团签署了战略合作协议,双方分别由李东辉首席执行官和董本洪首席市场官签字,董事长李书福和阿里巴巴集团董事会主席兼首席执行官...
日期:01-13
失业潮或在路上!IBM计划用AI取代7800个岗位「ibm产业」
快科技5月2日消息,近日,IBM首席执行官阿尔温德克里希纳在接受采访时表示,公司将暂停招聘,且在未来数年间,计划使用人工智能取代约7800个工作岗位。miui 13.5什么时候发布美的集团...
日期:05-02
midjourney v5版本即将发布  支持图片上传解析prompt功能
3月14日 消息:最近,有付费用户登录midjourney 后收到官方的邀请信息。官方透露,即将发布下一代图像系统midjourney v5版本。据悉,v5版本将采用全新的模型,生成的图像将会更加细...
日期:03-14
O'Reilly调查:生成式人工智能采用速度创纪录_人工智能生成物是作品吗
**划重点:**1. 三星公司的现存问题小米手环4是彩屏吗苹果直面屏neca代理版...
日期:11-23
曲面屏也卷起来了,真我10系列新机正式发布「旗舰机都用曲面屏」
中关村在线消息:11月17日下午,真我realme举行主题为“卷出一块好曲屏”的真我10系列新品发布会,正式推出全新一代科技越级代表作真我10系列的三款新品以及真我Buds Air 3S。其...
日期:11-19
Meta:扎克伯格已致力于AI研究 马斯克暂停AI建议不切实际
【网易科技4月6日报道】今日,Meta公司的首席技术官安德鲁·博斯沃思表示,马克·扎克伯格现在把大部分的时间都用在AI上,他还表示,马斯克等人呼吁暂停AI研发的建议是“不切实际的...
日期:04-06
2020年国庆节八天是什么定的「国庆8天假期结束!今年法定节假日过完了 大家需连上7天班」
10月7日消息,国庆假期已经结束了,大家玩的怎么样?2023年的十一黄金周已在10月6日画上句号,这意味着今年的所有法定假日已经全部度过。八天假期很短,即将到来的连续七天工作日会不...
日期:10-07
华为新款5G手机出货:6.6英寸大屏 价格亮了「华为5g大屏幕手机」
在今年双11期间,华为新款5G手机开售,这款手机拥有6.6英寸高刷大屏,4000万超感光夜拍,续航方面也有40W快充,而这款手机的起步存储配置为8+128G,价格只要979元,非常的实惠。抖音电商...
日期:11-10
系误会 「自己拍的照片被视觉中国告侵权」-视觉中国回应
【】8月16日消息,8月15日,微博博主@Jeff的星空之旅 发文,称自己拍摄的173张照片,被视觉中国致电称是侵权使用,还被要求赔偿8万余元。华为新品mate50该博主在文中称,这些作品从未与...
日期:09-17
奇虎360调整投资方向:将偏重移动互联网小团队(奇虎360调整投资方向:将偏重移动互联网小团队创新)
  9月21日下午消息,奇虎360正在加强其在移动互联网的布局,据奇虎360总裁齐向东介绍,360将投入最大的精力去发展移动互联网,同时360投资的重点也将转移至移动互联网,会在市场上...
日期:07-23
普渡食品有限公司_普渡科技荣获“东北亚餐饮影响力供应链企业”称号
  6月25日,由世界中餐业联合会主办,世界中餐业联合会东北亚餐饮产业委员会承办的第三届东北亚餐饮产业颁奖盛典隆重举行。普渡科技凭借不俗的实力,经过层层筛选,在一众参赛的...
日期:02-26
b站最火的番2020「2023开年爆火,B站UP一周内涨1600w播放洗脑全网!」
声明:本文来自于微信公众号 飞瓜轻数(ID:feiguabili),作者:春桃,授权转载发布。2022年,B站举办了第四次跨年晚会《最美的夜》,艾薇儿登台唱起《Complicated》的瞬间,B站跨晚的直播间人...
日期:01-11
九号电动车为何不用彩屏仪表?CEO王野:安全骑车更重要
12月1日消息,据亚布力企业家论坛CEF”公众号,日前,九号公司CEO王野在对话亚布力”采访中,谈到了电动滑板车、两轮电动车、出海、创新等话题。在谈到两轮电动车智能化的问题时,王...
日期:12-03
中国第一次一箭双星发射时间「2023 中国航天开门红,我国再次成功发射一箭三星」
IT之家 1 月 9 日消息,据中国航天科技集团消息,1 月 9 日 6 时 00 分,我国在文昌航天发射场使用长征七号改运载火箭,成功将实践二十三号卫星和搭载的试验二十二号 A / B 星发射...
日期:01-09
哪些职业最可能被AI取代?白领工作岌岌可危!_将被ai取代的职业
**划重点:**华为p60最新官宣消息英特尔i5-13400处理器有两个版本1. 京东抢购采购中毛豆新车网为什么还存在...
日期:12-04