您的位置:首页 > 互联网

贾扬清:大模型尺寸正在重走CNN的老路;马斯克:在特斯拉也是这样

发布时间:2024-08-02 14:22:40  来源:互联网     背景:

声明:本文来自微信公众号“量子位”,作者:关注前沿科技,授权转载发布。

Transformer大模型尺寸变化,正在重走CNN的老路!

看到大家都被LLaMA3.1吸引了注意力,贾扬清发出如此感慨。

拿大模型尺寸的发展,和CNN的发展作对比,就能发现一个明显的趋势和现象:

在ImageNet时代,研究人员和技术从业者见证了参数规模的快速增长,然后又开始转向更小、更高效的模型。

听起来,是不是和GPT哐哐往上卷模型参数,业界普遍认同Scaling Law,然后出现GPT-4o mini、苹果DCLM-7B、谷歌Gemma2B如出一辙?

贾扬清笑称,“这是前大模型时代的事儿,很多人可能都不咋记得了:)”。

而且,贾扬清不是唯一一个感知到这一点的人,AI大神卡帕西也这么觉得:

大模型尺寸的竞争正在加剧……但是卷的方向反着来了!

苹果手机闪存TLC

模型必须先追求“更大”,然后才能追求“更小”,因为我们需要这个过程,帮咱把训练数据重构成理想的、合成的格式。

他甚至拍着胸脯打赌,表示我们一定能看到又好、又能可靠地思考的模型。

而且是参数规模很小很小的那种。

连马斯克都在卡帕西的评论区连连称是:

以上,大概可以称之为“大佬所见略同”。

展开说说

贾扬清的感慨,要从只在最强王座上短暂待了一天的LLaMA3.1说起。

那是首次实现“最强开源模型=最强模型”,不出意外,万众瞩目。

However,贾扬清在这个时候提出了一个观点:

“但我认为,行业会因小型垂直模型而真正蓬勃发展。”

至于啥是小型垂直模型,贾扬清也说得很清楚,比如以Patrouns AI的Iynx(该公司的幻觉检测模型,在幻觉任务上超过GPT-4o)为代表的那些很棒的中小模型。

贾扬清表示,就个人喜好而言,他本人是非常喜欢千亿参数模型的。

但现实情况里,他观察留意到,7B-70B参数规模之间的大模型,大家用起来更顺手:

  • 它们更容易托管,不需要巨大的流量即可盈利;

  • 只要提出明确的问题,就能得到质量还不错的输出——与和之前的一些看法相反。

与此同时,他听说OpenAI最新的、速度很快的模型也开始变得比“最先进的”大模型尺寸更小。

“如果我的理解是正确的,那么这绝对表明了行业趋势。”贾扬清直接表明了自己的观点,“即在现实世界中,使用适用的、具有成本效益、且仍然强大的模型。”

于是乎,贾扬清简单梳理了CNN的发展历程。

首先,是CNN的崛起时代。

以AlexNet(2012)为起点,开启了大约三年的模型规模增长时期。

2014年出现的VGGNet就是一个性能和规模都非常强大的模型。

其次,是缩小规模时期。

2015年,GoogleNet把模型大小从“GB”缩小到了“MB”级别,即缩小了100倍;但模型性能并没有因此骤减,反而保持了不错的性能。

遵循类似趋势的还有2015年面世的SqueezeNet模型等。

然后的一段时间,发展重点在追求平衡。

后续研究,如ResNet(2015)、ResNeXT(2016)等,都保持了一个适中的模型规模。

值得注意的是,模型规模的控制并没有带来计算量的减少——其实,大伙儿都愿意投入更多的计算资源,寻求一种“同等参数但更高效”的状态。

宾利cross

紧接着就是CNN在端侧起舞的一段时期。

举个例子,MobileNet是谷歌在2017年推出的一项有趣的工作。

有趣就有趣在它占用的资源超级少,但是性能却非常优异。

就在上周,还有人跟贾扬清提到:“Wow~我们现在还在用MobileNet,因为它可以在设备上运行,而且在出色的特征嵌入泛化(Feature Embedding Generality)。”

最后,贾扬清借用了来源于Ghimire等人的《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》里的一张图:

并再一次发出自己的疑问:

大模型尺寸,会遵循与CNN时代相同的趋势来发展吗?

网友怎么看?

其实GPT-4o mini这样走在大模型发展道路上“不大反小”的例子不在少数。

当上述几位表达出这样的观点后,立马有人点头如捣蒜,还拿出了一些别的类似例子,证明他们看到了相同的趋势。

有人立马跟上:

我这儿有个新的正面例子!Gemma-2就是把27B参数大小的模型知识蒸馏成更小的版本。

还有网友表示,开发更大的模型,意味着能给后续几代更小、更垂直的模型的训练“上强度”。

这个迭代过程最终会产生所谓的“完美训练集”。

这样一来,较小的大模型在特定领域,能与现在参数巨大的大模型一样聪明,甚至更聪明。

一言以蔽之,模型必须先变大,然后才能变小。

最具设计感的金属后盖手机

大多数讨论此观点的人,还是对这个趋势比较认同,有人直言“这是一件好事,比‘我的模型比你的模型大’参数竞赛更实用和有用。”

但是,当然了!

翻遍网络评论区,也有人发出不同的声音。

比如下面这位朋友就在贾扬清推文底下留言:

Mistral Large(背后公司Mistral AI)、LLaMA3.1(背后公司Meta)和OpenAI,持有最强竞争力模型的公司,目前可能都正在训练更大的模型。

我没发现有“更小型号模型搞定技术突破”的趋势哟。

面对这个问题,贾扬清倒也及时回复了。

他是这么说的:“没错!我说大模型尺寸可能在走CNN的老路,绝对不意味着号召大家停止训练更大的模型。”

他进一步解释道,这么说的本意是,随着技术(包括CNN和大模型)落地实践越来越广,大家已经开始越来越关注性价比更高的模型了。”

所以,或许更高效的小·大模型,能够重新定义AI的“智能”,挑战“越大越好”的假设。

你赞同这个观点不?

稀土可以说是工业维生素,是极其重要的战略资源

请在手机微信登录投票

你赞同Transformer大模型尺寸会按CNN时代趋势发展,“先大后小”吗?单选我赞成我反对我就看看


返回网站首页

本文评论
西安 不倒翁姐姐「西安不倒翁小姐姐回应生娃后变憔悴:少贩卖焦虑」
近日,西安大唐不夜城的演员冯佳晨成为网络热议的焦点。一段“大唐女子绝美牵手”的短视频中,她扮演的“唐妞”宛如随风摇摆,轻舞罗扇,将中国唐朝美人的妩媚娇羞演绎得淋漓尽致。...
日期:02-08
希捷被重罚3亿美元后!消息称华为不缺硬盘、SSD了:西数持续供货中
快科技6月13日消息,对于华为来说,其所需的硬盘、SSD这些,不会因为没有供应商而短缺了。据日本共同通信社报道称,多位关系人士透露,美国存储芯片大厂西部数据自2022年起就已经获得...
日期:06-13
苹果将在韩国开设第四家Apple Store零售店_韩国苹果直营店
IT之家 9 月 14 日消息,Apple Jamsil 将于 2022 年 9 月 24 日在韩国松坡区,并将在乐天世界购物中心开业。而 iPhone 14 / Pro 系列新品手机将于 9 月 16 日上市。便携轻薄笔...
日期:09-17
大厂秋招又起:为什么“ATMD”成第一梯队
声明:本文来自于微信公众号 三言Pro(ID:sycaijing),作者:DorAemon,授权转载发布。未成年网络游戏一小时前不久,三言科技曾写过各互联网大厂陆续开启了2024届校招进程,伴随着AI大模...
日期:08-16
2022国庆档首日票房破亿!《万里归途》领跑 评分9.6_国庆档首日票房突破7亿元
今天是国庆假期首日,据灯塔专业版数据,截至10月1日11时54分,2022国庆档首日(10月1日)票房突破1亿。目前,《万里归途》以5672.5万票房领跑,第二、第三名分别为《平凡英雄》1477.6万...
日期:10-02
北欧极简风格打造 提供四驱可选 新款沃尔沃C40上市 28.9万起「沃尔沃c40价格多少」
快科技9月14日消息,日前,款沃尔沃 C40 RECHARGE正式上市,作为一款纯电动紧凑型SUV,该车提供530公里和550公里两种续航版本可供选择。其指导价区间为28.9万-33.9万元。外观方面,新...
日期:09-15
亚马逊推出 Titan 图像生成器:内置保护机制_亚马逊变体主图
**划重点:**iqoo z6系列新品官宣搭载80w闪充小米手机怎么换电量图标古巴现在如何1. 雷克萨斯 特斯拉...
日期:11-30
Meta前COO桑德伯格再结连理,与相恋三年男友成婚
  Facebook母公司Meta的首席运营官谢莉尔·桑德伯格(Sheryl Sandberg)于上周六在怀俄明州与相恋三年的男友汤姆·伯恩索尔(Tom Bernthal)举行了婚礼。  50岁的伯恩索尔和52...
日期:08-23
全球 国产全频段通信芯片AR8030发布:干掉Wi-Fi痛点
提到Wi-Fi芯片,很多人都知道它的主要频段是2.4GHz及5GHz,但存在着抗干扰性差、传输距离近等痛点,国内的芯片企业酷芯微电子今天发布了一款AIoT芯片AR8030,是全球首款150M-7GHz全...
日期:12-03
OPPO Find N3或将突破隐私安全难题?自研代号“孤岛”安全技术曝光
凤凰网科技讯10月10日,OPPO即将在近日发布旗下第三代折叠屏Find N3,将会调整市场定位。同时,Find N3将会主攻隐私安全等商务人群关注的核心功能。据悉,OPPO已在Find N3上申请并...
日期:10-10
大妈忘记银行卡密码打拍子唱歌回忆:柜员努力压抑嘴角笑意_大妈忘记密码5万变500万
近日,在陕西某银行,一位大妈在办理业务时遭遇了尴尬的一幕——她竟忘记了银行卡的密码。然而,这位大妈并没有因此感到沮丧或慌乱,反而选择了一种出人意料的方式来尝试找回记忆—...
日期:03-14
SSD价格要崩盘了!闪存库存堆积如山 预期大跌35%「内存ssd涨价」
SSD的价格很可能要失守了。恒大汽车现阶段规划的生产基地win10开始菜单没有所有程序来自调研机构TrendForce(集邦咨询)的最新调查指出,进入第三季度下旬,结果旺季不旺,沉重的库存...
日期:09-09
firefox是什么浏览器_Mozilla微软推出采用必应搜索的火狐浏览器
  10月27日消息,在Mozilla与谷歌之间的数十亿美元的合同在11月续约之前,Mozilla推出了使用竞争对手微软的必应搜索引擎的客户化版本的火狐浏览器。   微软也赞扬这个新的...
日期:07-24
微步在线携新产品亮相2023服贸会 :以新技术、新体验助力网络安全高质量发展
通信世界网消息(CWW)2023年中国国际服务贸易交易会9月2日-6日在北京举行,作为服贸会重要的科技板块,本届电信、计算机和信息服务专题展在北京市经信局指导下,携手北京市中小企业...
日期:09-05
瑞欧盈-埃非索2021年工业4.0奖正式启动 源自德国的行业标杆
  欧洲知名管理咨询集团瑞欧盈-埃非索近日启动了2021年度工业4.0奖的申报窗口,成为了最近工业届热门议题。   工业4.0 奖是由德国瑞欧盈-埃非索管理咨询公司(ROI Cons...
日期:12-15
比亚迪5月在英国暴涨近2700%!中国汽车销量全面提升_比亚迪英国市场分析
快科技6月7日消息,根据英国汽车制造商和贸易商协会(SMMT)最新数据,中国汽车品牌在英国市场5月销量实现全面增长。马斯克 推特ceo其中比亚迪表现尤为突出,注册量达到596辆,同比去...
日期:06-08
巴菲特再次减持比亚迪 持股比例降至17.92%_巴菲特比亚迪股权占比
11月4日 消息:港交所文件显示,11 月 1 日,巴菲特旗下伯克希尔哈撒韦以169.87港元的价格卖出329.7万股比亚迪H股,持股比例降至17.92%。马斯克今天在推特说什么此前,巴菲特曾多次...
日期:11-10
曾大力进行维护:Chrome突然计划放弃JPEG-XL图片格式
如果曾查看过Chrome的开发者Bug清单的话,你会发现,在过去的一年时间里,Chorme对于JPEG-XL这一图片格式青睐有加,一直在改进对该格式的支持。ios14充电异常但在近日,Chrome开发者...
日期:10-31
理想 智能驾驶「没引入外援!理想澄清:高阶智驾100%由自家智能驾驶团队自研」
快科技7月5日消息,理想汽车将于今晚举办智能驾驶夏季发布会”,而就在这个档口,今日一篇有关理想智能驾驶的报道流出。文章中声称目前,理想的端到端产品继续由轻舟开发中,并未正式...
日期:07-05
长城哈弗回敬上汽集团仗义执言:守住底线!_上汽长城汽车
快科技6月21日消息,这两天,汽车圈儿又开始热闹了起来,围绕着相关话题不少人展开了唇枪舌战。三星Galaxy S23系列被曝昨日,哈弗SUV官方就上汽集团的仗义执言进行回敬,其表示:哈弗...
日期:06-21