您的位置:首页 > 互联网

ChatGPT模型中的1750亿参数,到底啥意思?

发布时间:2023-12-31 18:22:14  来源:互联网     背景:

声明:本文来自于微信公众号AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权转载发布。

我们经常会看到在介绍大语言、扩散等模型时,会在后面或前缀加上100亿、500亿、2000亿等各种参数,你可能会纳闷这到底是个啥呀,是体积大小、内存上限、还是使用权限?

在ChatGPT发布一周年的日子,AIGC开放社区用通俗易懂的方式为大家介绍一下这个参数的含义。由于OpenAI没有公布GPT-4的详细参数,我们就用GPT-3的1750亿来说说。

OpenAI曾在2020年5月28日发布了一份名为《Language Models are Few-Shot Learners》的论文,就是GPT-3,对模型的参数、架构、功能进行了详细的阐述。

论文地址:https://arxiv.org/abs/2005.14165

极米投影哪一款最好

大模型的参数含义

按照该论文的说法,GPT-3的参数达到了1750亿,而GPT-2只有15亿,整整提升了100多倍。

参数的大幅度提升主要体现在存储、学习、记忆、理解、生成等能力全面得到增强,这也是为什么ChatGPT可以无所无能。

所以,大模型中的参数通常指的是模型内部用于存储知识和学习能力的数值。这些参数可以被看作是模型的“记忆细胞”,它们决定了模型如何处理输入的数据、如何做出预测和生成文本等。

在神经网络模型中,这些参数主要是权重和偏置,在训练过程中通过不断的迭代来优化。权重控制着输入数据之间的相互影响,而偏置则是添加到最终计算中以调整输出的数值。

权重是神经网络中的核心参数,它们表示输入特征与输出之间的关系强度或重要性。在网络层之间的每个连接上都有一个权重,决定了一个节点(神经元)的输入在计算下一个层的节点输出时的影响程度。

库克社交网站

偏置则是另一种类型的网络参数,它们通常与每个节点的输出相加以引入一个偏移量,使得激活函数能够在零附近有更好的动态范围,从而改善和调整节点的激活水平。

简单来说,可以把GPT-3看作是一间超级大办公室的助理,里面有1750亿个抽屉(参数),每个抽屉里都放着一些特定的信息,包括单词、短语、语法规则、断句原则等。

当你向ChatGPT提问时,例如,帮我生成一个用于社交平台的鞋子营销文案。GPT-3这个助理就会去装有营销、文案、鞋子等抽屉中去提取信息,然后按照你的文本要求进行排列组合重新生成。

在预训练过的程中,GPT-3会像人类一样阅读大量的文本来学习各种语言和叙述结构。

每当它读到新信息或尝试生成新的文本方法时,都会打开这些抽屉查看里面的信息,并尝试找出最好的信息组合来回答问题或生成连贯的文本。

当GPT-3在某些任务上表现得不够好时,会根据需要调整抽屉里的信息(更新参数),以便下次能做得更好。

所以,每个参数都是模型在特定任务上的一个小决策点。更大的参数意味着模型可以有更多的决策能力和更细致的控制力,同时可以捕捉到语言中更复杂的模式和细节。

模型的参数越高,性能就一定越好吗

从性能上来看,对于ChatGPT等大型语言模型而言,参数量多通常意味着模型有更强的学习、理解、生成、控制等能力。

但随着参数的增大,也会出现算力成本高,边际效应递减,过拟合等问题,尤其是对于没有开发能力、算力资源的中小企业和个人开发者来说非常困难。

更高的算力消耗:参数越大,所消耗的算力资源就越多。这意味着训练更大的模型需要更多的时间和更昂贵的硬件资源。

边际效应递减:随着模型规模的增长,从每个新增参数获得的性能提升越来越少。有时候,增加参数量并不能带来显著的性能改进,而是带来更多的运营成本负担。

优化困难:当模型的参数量极大时,它可能会遇到“维度的诅咒”,即模型变得如此复杂以至于很难找到优化的解决方案,甚至在某些区域出现性能退化。这一点在OpenAI的GPT-4模型上体现的非常明显。

推理延迟:参数量大的模型在执行推理时通常响应较慢,因为他们需要更多的时间找出更优的生成路径。相比GPT-3,GPT-4同样有这个问题。

所以,如果你是在本地部署大模型的中小型企业,可以选择那些通过高质量训练数据打造的参数小性能强的模型,例如,Meta发布的开源大语言模型Llama2。

如果你没有本地资源希望在云端使用,那么就可以通过API使用OpenAI的最新模型GPT-4Turbo、百度的文心大模型或者微软的Azure OpenAI等服务。


返回网站首页

本文评论
IoT Analytics:预计2023全球物联网连接数量同比增长16% 达到160亿
2023/5/29 16:00 IoT Analytics:预计2023全球物联网连接数量同比增长16% 达到160亿  颜翊 C114讯 5月29日消息(颜翊)近日,市场研究机构IoT Analytics发布了报告显示,2022年...
日期:05-29
百融云创开放布局AIGC领域 助力共建数字化发展新引擎_百融云创计划赴香港ipo
新一代信息技术体系AIGC,正在深刻改变全球经济的形态和我们生活的方式。在这个颠覆性的变革中,百融云创以开放创新的姿态,加大对AIGC领域的投入和布局,助力企业实现数字化转型和...
日期:12-11
小红书暗藏玄机「小红书秘密筹备大模型团队 此前曾上线AI绘画工具“Trik”」
5月8日 消息:据36氪今日报道,从3月份开始,小红书就成立了一个独立的大模型团队,该团队的核心员工来自广告业务的NLP技术团队。目前,该部门在内部保密,并且在员工系统中直接隐藏。...
日期:05-08
AMD 3D缓存大杀四方!笔记本会上吗?官方回应「amdl3缓存」
锐龙9 7950X3D、锐龙7900 X3D解禁上市后,不少玩家、网友提出,3D V-Cache缓存这么好用,能不能放在笔记本上?凡态智能锁好不好从理论上讲,这完全是可以的,就看AMD怎么选择了。苹果14...
日期:03-10
12 Pro正式开售 搭载骁龙8 Gen3售价4999元起 iQOO_viipoo 12pro骁龙888
来源:中关村在线彭州狂风暴雨iQOO 推出了最强旗舰手机 iQOO 12 Pro,售价从 4999 元起。这款手机在性能、显示和拍照等方面都表现出色,被认为是 iQOO 品牌史上最杰出的产品之一...
日期:11-15
全国铁路将实行第四季度列车运行图「今日起 全国铁路实行第四季度运行图:优惠、退票政策大变化」
根据中国铁路官方消息,今日零时起,全国铁路将实行第四季度列车运行图,调图后,全路开行旅客列车5286对,较现图增加21对;开行货物列车10829对,较现图增加41.5对。拍景的视频铁路方面...
日期:10-26
数智细分产业按下科技创新“加速键”,2023高交会看点不断_数智科技是什么
(原标题:数智细分产业按下科技创新“加速键”,2023高交会看点不断) 11月15日,为期5天的第二十五届中国国际高新技术成果交易会(下...
日期:11-16
三部门:延续和优化新能源汽车车辆购置税减免政策「新能源汽车车辆购置税优惠政策再延长三年」
6月21日 消息:财政部、税务总局、工业和信息化部联合发布《关于延续和优化新能源汽车车辆购置税减免政策的公告》称,对购置日期在2024年1月1日至2025年12月31日期间的新能源...
日期:06-21
饿了么“饿管家”服务上线半年 助力商家提升外卖运营能力_饿了么配送管理
10月14日消息,饿了么今年4月上线试运营“饿管家”服务,依托平台数字化能力免费帮助商家诊断外卖经营短板,并以“店铺分”的方式在商家端给出诊断结果以及整改建议。上线半年,“...
日期:10-15
俄媒:智能手机新算法可识别中风症状_手机中风是什么意思
参考消息网10月9日报道据今日俄罗斯电视台网站近日报道,俄罗斯国家技术首创计划平台发布消息称,其研发人员推出一种基于计算机视觉的中风症状识别算法,可内置于智能手机。一旦...
日期:10-10
第九届中国云计算标准和应用大会盛大召开_中国云计算生态发展峰会
  2019年12月16日,中国电子技术标准化研究院主办的“第九届中国云计算标准和应用大会”在京盛大召开。本次大会以“创新驱动 开源引领”为主题,会期两天,涵盖两个主论坛、六...
日期:07-04
零跑2023第三季度财报出炉:毛利率转正,营收、交付双双创新高_零跑汽车ipo进展
通信世界网消息(CWW)10月16日,浙江零跑科技股份有限公司(9863.HK以下简称零跑汽车)发布2023年第三季度财报。港股上市一年之际,零跑汽车首次实现毛利率转正,企业运营多项指标增势强...
日期:10-16
荣耀Play6C正式发布 起售价1099元「华为play6+128多少钱」
中关村在线消息:今日荣耀高性价比机型荣耀 Play6C正式发布,并且已经开启预售,起售价为1099元,将于10月13日正式发布。蓝牙耳机哪家的性价比高刘涛直播嘉宾鲍尔默对微软的贡献硬...
日期:10-10
马云前助理陈伟朋友圈:马家厨房不做预制菜
鞭牛士报道,11月26日消息,针对马云注册食品公司可能会做预制菜的传闻,马云前助理陈伟昨天在朋友圈称,马家厨房不做预制菜。手机处理器高通710五菱星辰灵犀系统下载美股三大指数...
日期:11-27
特斯拉绕过新墨西哥州法律,在部落土地上开设第二个展厅
特斯拉和圣安娜普韦布洛领导人宣布,一个新的特斯拉展厅将很快来到新墨西哥州。据报道,该展厅将在圣安娜明星赌场的西边,施工将在2023年3月结束。 目前,特斯拉被禁止在新墨西哥州...
日期:10-11
中国联通支付公司名称已确定为“联通沃易付网络技术有限公司”
  通信世界网(CWW)4月15日消息 日前,在某业内会议上,中国联通支付公司筹备组组长戴任飞透露,中国联通支付公司名称已确定为“联通沃易付网络技术有限公司”,预计最快4月15日会...
日期:07-27
Qcon北京站召开 中国互联网彰显技术力量(QCon全球软件开发大会)
  2011年4月8日至10日,为期三天的全球技术领域的顶尖盛会Qcon(全球企业开发大会)在北京举办,Erich Gamma、Jim Webber、Douglas Crockford等享誉国际的技术专家受邀与国内...
日期:07-27
阿里巴巴在新加坡「阿里回应海外建全球总部:始终在杭州 搬到新加坡纯属谣言」
凤凰网科技讯 1月27日消息,据《钱江晚报》报道,位于杭州市余杭区未来科技城的阿里巴巴杭州全球总部项目历经十年持续建设,已正式进入收官阶段,将于2023年底全面建成并投入使用。...
日期:01-27
“东南亚小腾讯”Sea第二季度营收29亿美元 同比增长29%(腾讯有多少sea股份)
查看最新行情   讯 北京时间8月16日晚间消息,据报道,新加坡互联网巨头Sea(NYSE: SE)今日发布了截至6月30日的2022年第二季度财报。财报显示,Sea第二季度总...
日期:08-19
中国空间站神舟十二号「神十六任务圆满成功!中国空间站第五批实验样品交付」
10月31日消息,据中国载人航天工程办公室消息,今早8时11分,神舟十六号载人飞船返回舱在东风着陆场成功着陆。现场医监医保人员确认航天员景海鹏、朱杨柱、桂海潮身体健康状况良...
日期:11-01