您的位置:首页 > 互联网

开源dap「开源大模型正在“杀死”闭源?」

发布时间:2023-10-07 14:10:36  来源:互联网     背景:

声明:本文来自于微信公众号 光锥智能(ID:guangzhui-tech),作者:郝 鑫,授权转载发布。

“OpenAI不足为惧,开源会慢慢赶上来。”

彼时Hugging Face创始人Clem Delangue的一句预言,正在迅速成为现实。

ChatGPT横空出世7个多月后,7月19日,Llama2宣布开源,并且可直接商用。

如今回看,这一天也成为了大模型发展的分水岭。在此之前,全世界开源的大模型不计其数,可只是停留在开发研究层面。“可商业”短短三个字,犹如一颗重磅炸弹引爆了大模型创业圈,引得傅盛连连感叹,“有的人哭晕在厕所,而有的人在梦中也能笑醒”。

AI大模型圈一夜之间变了天,同时也宣告着大模型加速商业化时代的到来。

自Llama2后,开源逐渐成为主流趋势。以Llama架构为首,先掀起了一波以其为核心的开源,如Llama2低成本训练版、Llama2最强版、微调版等等。截至发稿前,以“LLama2”为关键词在国外最大的AI开源社区Hugging Face检索模型,有5341条结果;在全世界最大的开源项目托管平台Github上,也有1500个词条。

(图源:Hugging Face官网)

(图源:Github官网)

之后,创业者们的目光从解构、增强Llama2转向了构建行业专有大模型,于是又掀起了一波Llama2+司法、Llama2+医疗等一系列的行业开源大模型。据不完全统计,Llama2开源后,国内就涌现出了十几个开源行业大模型。

国内头部厂商和创业公司纷纷加入开源浪潮中,阿里QWEN-7B开源一个多月下载量破100万,9月25日升级了QWEN-14B;百川智能开源的Baichuan-7B、13B两款开源大模型下载量目前已经突破500万,200多家企业申请部署开源大模型。

与此形成强烈对比的是,短时间内,Llama2对一些闭源的大模型厂商造成了致命性的打击。闭源大模型多采用调取API的方式使用,数据需要先上传至模型厂商,按照调用次数收取费用;而开源则可以在本地部署,且完全免费,可商用后产生的利润也可以收归己有。

行业内人士告诉光锥智能:“在这种情况下,基于成本的考虑,已经开始有许多企业选择放弃支付上千万元的费用,转而部署和微调Llama2”。

以上种种,共同揭开了大模型开源闭源之争,发展重心的转移也让人疑惑:开源大模型是否正在“杀死”闭源?

大模型开源,开的是什么?

开源daw

开源模型百度百科

光锥智能梳理后发现,目前,大模型厂商和创业公司在开源和闭源的选择上,一共有三条路径:

小灵通号码现在能卖多少钱

一是完全闭源,这类代表公司国外有OpenAI的GPT-3.5、GPT-4,国内有百度的文心大模型;

二是先闭源再开源,这类代表公司有阿里云的通义千问,智谱AI开源GLM系列模型;

三是先开源再闭源,这类代表公司有百川智能的Baichuan-7B、Baichuan-13B。

现在中国市场上能够主动开源大模型,且提供商业许可的企业数量还比较有限,主要公司包括了以开源为切入的百川智能、大模型厂商代表阿里、大模型初创公司代表智谱AI以及走精调Llama2路线的虎博科技。

这从侧面也说明了一个问题,大模型开源并不是没有门槛,相反开源对一家企业的基础技术能力要求十分高,比如智谱AI的GLM-130大模型是去年亚洲唯一入选斯坦福大学评测榜的大模型;阿里通义千问大模型在IDC的“AI大模型技术能力评估测试”中获得了6项满分。

如果再进一步将以上的公司分类,可以归为两类,一类是走自研大模型开源路线,一类是走Llama2路线。

这两条路线在国际上也十分典型,譬如走自研模型开源路线的Stability AI,已经陆续开源了Stable DiffusionV1、StableLM、Stable Diffusion XL(SDXL)1.0等模型,凭一己之力撑起了文生图开源领域;另一类如中东土豪研究院就死盯住Llama2,在其基础上继续做大参数、做强性能, Llama2开源50天后,地表最强开源模型Falcon180B横空出世, 霸榜Hugging Face。

不过,这两条路线也不是完全泾渭分明,Llama2的开源也进一步促进了许多自研开源大模型的更新升级。8月Stability AI迅速推出类ChatGPT产品——Stable Chat,背后的大语言模型Stable Beluga就是其在两代Llama的基础上精调出来。更开放,更快迭代发展,这或许也是开源的意义。

除了逆天的Falcon,目前开源模型的参数基本都控制在7B-13B左右。大模型厂商告诉光锥智能,“目前7B-13B亿参数量是一个较为合理的开源规模”。这是基于多重因素所得出的参数量规模,如计算资源限制、内存限制、开源成本考量等。

阿里云CTO周靖人基于云厂商的角度考虑道:“我们希望企业和开发者,在不同的场景可以根据自己的需求选择不一样规模的模型,来真正地应用在自己的开发环境。我们提供更多可能性。”

谈起为何开源大模型,周靖人强调了安全性,“我们不单单只是开源大模型,更重要的是要能够呈现出各项指标的表现效果,基于此,才能够让大家去评估其中的使用风险,更加有效地进行模型应用。”

“重要的是,随着参数量的增加,模型效果提升会逐渐收敛。当模型达到一定规模后,继续增加参数对效果提升的边际效益只会下降,70-130亿参数量一般已经接近收敛状态了。”上述大模型厂商道。

开源daw

光锥智能发现,除了阿里云在视觉语言模型的细分领域发布了开源大模型外,其余公司皆提供的是通用能力的大模型。这或许与大模型开源仍处于非常早期阶段有关系,但考虑到开源大模型也要落地到场景中,太过于同质化的通用大模型对企业来说也容易沦为“鸡肋”。

如何避免开源大模型重蹈覆辙,体现出开源的价值,回顾Meta接连祭出的“大招”,一条开源的路径似乎逐渐显现——构建开源大模型生态。

  • 2月份,Meta凭借开源的Llama大模型回到生成式AI核心阵列;

  • 5月9日,开源了新的AI 模型ImageBind,连接文本、图像 / 视频、音频、3D 测量(深度)、温度数据(热)和运动数据六种模态;

  • 5个月后,Llama2开源可商业,含70亿、130亿和700亿三种参数规模,其中700亿参数模型能力已接近GPT-3.5;

  • 8月25日,Meta推出一款帮助开发人员自动生成代码的开源模型——Code Llama,该代码生成模型基于其开源大语言模型Llama2;

  • 8月25日,发布全新AI模型SeamlessM4T,与一般AI翻译只能从文本到文本不同,这款翻译器还能够“从语音到文本”或者反过来“从文本到语音”地直接完成翻译;

  • 9月1日,允许开源视觉模型DINOv2商业化,同时推出视觉评估模型FACET。

可以看到,Meta开源的思路是在各个AI领域遍地开花,通过发布该领域最先进的AI开源模型,吸引更多开发者的关注和使用,壮大整个AI开源生态后来反哺业务、巩固行业地位,这就如同当年的英伟达推动GPU计算的开源策略。

当年英伟达推动GPU计算的开源化,不仅吸引了大量研究人员在Caffe、TensorFlow等框架上进行创新,也为自身GPU产品积累了大量优化经验,这些经验后来也帮助英伟达设计出了更适合深度学习的新型GPU架构。

另一方面,GPU计算的开源生态越来越繁荣后,也为其带来了巨大的市场空间,Nvidia DGX企业级的深度学习训练平台概念应运而生,为英伟达的显卡和平台销售创造了千亿级市场。

国内阿里云也在通过建设完善生态的方式,试图帮助开发者更好的用好大模型,据周靖人介绍,目前阿里云不仅有自研开源大模型,也接入了超过100个开源模型,同时打造了开源社区魔搭,更好地服务开发者和企业用户,用好、调好大模型。

开源闭源不矛盾

是手段而非目的

据外媒爆料,Meta正在加紧研发全新的开源大模型,支持免费商用,能力对标GPT-4,参数量比Llama2还要大上数倍,计划在2024年初开始训练。

国外大模型格局看似是OpenAI“一超多强”,实则是众多公司环伺,可以预见,开源大模型对闭源的围剿,越来越步步紧逼。

国外一份研究报告称,大模型前期的发展创新由OpenAI、微软、谷歌等大公司闭源模型主导,但越到后期开源模型和社区的贡献值就越大。

光锥智能也了解到,在国内开源大模型也成为了企业的“新卖点”,有企业甚至通过对外宣称已使用了“史上最强大模型Falcon180B”,来展现其底层模型技术能力的强大,顶着“史上最强”的称号,又收割了“一波韭菜”。

现阶段,开源大模型已经证明了几点重要的事实。

首先,在非常大的数据集上进行训练,拥有几十亿个参数的大模型在性能上就可以与超大规模大模型相媲美;其次,只需要极少的预算、适量的数据以及低阶适应(Low-rank adaptation,LoRA)等技术就可以把小参数的大模型调到一个满意的效果,且将训练成本降低了上千倍。开源大模型为现在的企业提供了闭源的替代方案,低成本成为最吸引他们的地方;最后,我们也看到开源大模型的发展速度也远快于封闭生态系统。

开源固然“迷人”,但更为关键的是,既不能为了开源而开源,也不能为了闭源而闭源。开源与闭源只是形式上的区别,并不矛盾,开源本身不是目的,而是手段。

小米13资讯

以开源切入大模型赛道的百川智能,在发布完Baichuan-7B、Baichuan-13B开源大模型后,王小川拿出了Baichuan-53B闭源大模型。在问到为什么没有继续开源时,王小川回答称:“模型变大之后没有走开源的这样一种方式,因为大家部署起来成本也会非常的高,就使用闭源模式让大家在网上调用API”。

由此可见,是否开源或闭源并非完全没有参考,能够闭源一定是其能够提供价值。在当前,这个价值的集中体现可能是替用户完成高性能的大模型训练、推理和部署,通过调用API的方式来帮助降低门槛,这也是OpenAI闭源的思路,但因为其自身技术的绝对领先优势,使得其价值也非常得大。

如果回顾红帽子公司的开源,也能探寻到同样的逻辑。过去十多年间,红帽从销售企业Linux操作系统,扩展到现在的存储、中间件、虚拟化、云计算领域,靠的就是“筛选价值”的逻辑。在最上游的开源社区,参与开源技术贡献,做大做强生态;提取开源社区中的上游技术产品,沉淀到自己小开源社区;再将其认为最有价值的技术检验、测试、打包,形成新的产品组合,完成闭源出售给客户。

腾讯云数据库负责人王义成也曾对光锥智能表示:“开源的本质也是商业化,要从宏观层面看是否能满足一家公司的长期商业利益。开源的本质还是扩大生态,扩大你的影响力。开源还是要找清楚自己的定位,目标客户群。开源能否帮助产品突破,帮助公司完成阻击,还需要具体问题具体分析。”

结尾

事实上,开源还是闭源,二者并不是完全对立的关系,只是在技术发展的早期,路径选择的不同。

这也并不是科技领域第一次面对这样的分叉路,参考数据库发展的路径,早期需要培育土壤,培植生态,以MySQL为主的开源数据库获得了爆发式的用户增长,但走过第一阶段后,更多企业用户发现开源数据库在面对业务时的短板,毕竟术业有专攻,谁也没办法一招打天下。

为此,数据库厂商开始根据不同的企业需求针对性的研发闭源数据库,如在分布式数据库、流数据库等细分类别进行长足的创新。

周靖人也认为:“未来,一定不是one size fits all”,不同的场景适配不同的参数,不同的形式,届时大模型将走过野蛮生长阶段,来到精耕细作。

这也足以说明,开源还是闭源,或许只是阶段和位置的不同,但可以肯定的是,大模型时代,已经加速进入下一赛段。


返回网站首页

本文评论
中央电视台:“两节来临,网购机票需谨慎”
  据最新一期中央电视台《中国新闻》栏目报道,上周互联网安全威胁以购物类钓鱼网站最为严重。随着两节的临近,以“订购机票”为幌子的钓鱼网站尤其活跃,消费者一定要多加注...
日期:07-22
小米13 Ultra曝光:摄像头巨大 售价接近8000元「小米11 ultra几个摄像头」
此前小米12s Ultra就有着不错的拍照性能,口碑方面也直接拉满,而小米13系列目前临近发布,此次将发布小米13和小米13 Pro,而小米13 Ultra虽然不会在此次发布,但今早也曝光了配置等...
日期:12-06
「购魅族20系列至高暴省500元-魅友节惊喜开启,魅族20独白加码返场」
来源:中关村在线2023年9月4日,魅族宣布2023魅友节活动正式开启。魅友节旨在回馈广大用户对于魅族一直以来的热爱和支持,并为魅友们带来一系列的超值优惠福利。魅友节活动时间将...
日期:09-04
苹果市值蒸发5000亿「苹果市值一夜蒸发7160亿元:除了研发不招人」
中关村在线消息:美股连续第四个交易日下跌,大型科技股再度领跌,谷歌跌4.07%,亚马逊跌3.06%,奈飞跌1.44%,微软跌2.66%。苹果跌4.24%,市值一夜蒸发977亿美元(约合人民币7160亿元)。目前...
日期:11-09
迅雷公司市值_迅雷:第二季度营收7830万美元 同比增长41.9%
查看最新行情   讯8月16日晚间消息,今日,迅雷公布了截至2022年6月30日第二季度未经审计的财报。据财报显示,迅雷第二季度总营收为7,830万美元,同比增长41....
日期:08-19
红米note13pro「专属淡金色星耀双眸!Redmi Note 13 Pro AAPE潮流限定图赏」
快科技9月25日消息,Redmi日前发布了Redmi Note 13系列,包括Redmi Note 13、Redmi Note 13 Pro、Redmi Note 13 Pro 三款机型。为什么蔡司摄像头只给诺基亚同时,还发布了Redmi N...
日期:09-26
潜望长焦加持 哈苏Logo瞩目 OPPO-Find X6 Pro镜头模组细节曝光
早在去年的Find X5系列上,该机就凭借极具辨识度的外观设计和极为出众的影像方面受到了不少用户的广泛好评,而随着新的一年的到来,全新一代的OPPO Find X6系列也再次吸引了外界...
日期:09-20
动视暴雪首席合规官离职,曾因回应公司性骚扰指控惹争议_动视暴雪与暴雪关系
  讯 北京时间10月1日上午消息,据报道,动视暴雪(Activision Blizzard)首席合规官弗朗西丝·汤森德(FrancesTownsend)因去年对公司性侵指控的回应而受到密切关注,如今,随着动视暴雪...
日期:10-03
真有人买!拥抱梅西球迷同款球鞋搜索量暴涨:淘宝卖到热销第一
6月16日消息,日前,北京工体迎来了阿根廷男足国家队和澳大利亚男足国家队的比赛,毫无疑问,球王”梅西自然是此次比赛的焦点人物。梅西的球迷有多狂热?在比赛进行当中,一位梅西球迷...
日期:06-17
最轻薄潜望手机!OPPO Reno10 Pro 亮相_oppo比较轻薄的手机
快科技5月24日消息,OPPO Reno10系列亮相,这一代Reno系列标配长焦镜头,其中超大杯版本Reno10 Pro 配备了大底潜望长焦镜头。和其它潜望长焦手机相比,OPPO Reno10 Pro 的优势在于...
日期:05-24
德电CTO Abdu Mudesir:实现自智网络是德电的长期目标「德电能源科技有限公司」
通信世界网消息(CWW)近日,在德国电信的Telekom Campus Fair2023 活动中,德电CTO Abdu Mudesir表示,实现自智网络是德电的长期目标,也是Telekom平台战略不可或缺的一部分,自智网络...
日期:08-02
2021 雷军年度演讲定档 8 月_2021雷军年度演讲回放
      原标题:,小米手机、平板新品明日上午公布新消息   8 月 2 日消息 小米今晚进行了《小米直面会》活动直播,小米创始人雷军宣布,将于 8 月举行 2021 雷军年度演讲,小米...
日期:05-16
中国电信北京公司“天翼星期三”惠民日活动正式上线 诚意十足助力用户全新体验
  4月29日,中国电信北京公司(以下简称北京电信)“天翼星期三”惠民日活动正式启动。此次活动面向线上渠道新装订购融合业务的宽带用户,多重惊喜优惠助力用户全新体验。  ...
日期:05-21
ChatGPT答案:如何评价OpenAI的对话模型ChatGPT?
苹果电脑火狐浏览器兼容性OpenAI 的超级对话模型 ChatGPT 是一种最先进的语言模型,它在人类对话的大型数据集上进行训练,可以对给定的输入生成类似人类的响应。要评估 ChatGPT...
日期:12-08
精英在线入驻华为云严选商城   在线教育与智慧党建齐头并进
  精益求精,不断前行。   近日,杭州精英在线教育科技股份有限公司(以下简称“精英在线”)受邀成为华为云严选服务商,发布了面向政府、高校和大型国企的在线教育和智慧党建...
日期:11-20
微软首次利用Facebook平台研究游戏理论(facebook发展史)
  10月13消息,据国外媒体报道,在过去数周内,微软的研究者首次将Facebook用作一个巨大的全球实验室,研究了几百个玩家玩战略游戏的方式。他们研究的结果将会让他们对游戏理论...
日期:07-23
三星gti9000「三星gti9000配置参数」
三星GT-i9000,是一款由三星电子所设计和生产的智能手机,于2010年6月在全球范围内发布,是三星旗舰机型Galaxy S系列的首款产品。三星GT-i9000采用了当时最先进的技术,搭载了一颗...
日期:05-30
美股一直创新高「美股周五:三大股指连跌三周,英伟达再跌逾2%,拼多多5天涨25%」
美国时间周五,美股收盘主要股指全线下跌,三大股指本周均下跌3%以上,且连续第三周下跌。此前美国公布了8月非农就业数据,并未改变美联储将在9月底大幅加息的预期。道琼斯指数收于...
日期:09-28
科旭威尔科视星®,引领视听新潮流
随着信息技术和科技的发展,摄像技术也不断发生着更迭,特别是在节目录制、舞台活动、演播室录像等方面,融入了AI、5G、超高清、大数据等技术的智能拍摄,逐渐取代了人工拍摄,其中,“...
日期:07-17
UCloud季昕华:做“不和用户竞争的云”、以云计算核心能力赋能产业
  5月28日,国内领先的中立云计算服务商UCloud优刻得(以下简称“UCloud”)在北京召开以“中立安全、赋能产业”为主题的UCloud用户大会暨Think in Cloud北京大会。UCloud在...
日期:01-19