您的位置:首页 > 互联网

开源模型训练平台「国产开源大模型,起风了」

发布时间:2023-12-04 20:52:20  来源:互联网     背景:

声明:本文来自于微信公众号 蓝洞商业(ID:value_creation),作者:于玮琳,授权转载发布。

科技的浪潮几十年一个轮回,不同的剧本却总是响起相似的鼓点。

如果说,一年前ChatGPT的惊艳现身,是属于大模型时代的iPhone时刻;那么,7月间Meta将Llama2开源,则被认为是拉开了大模型时代的IOS与安卓之争。

但区别于移动互联网时代,大模型的起跑线上,不是寡头的一枝独秀,而是各国厂商的百家争鸣。在Open AI上演奥特曼去哪儿的大戏时,越来越多国产厂商磨刀霍霍,酝酿着一场开源大模型时代的飓风。

苹果ios16系统更新好还是不更新好

图源备注:图片由AI生成,图片授权服务商Midjourney

正如今年9月百川智能宣布开源大模型Baichuan2-7B等版本时,创始人王小川的自信发言:从今天开始,当我发布Baichuan2之后,再用LLaMA2作为一个开源模型的时代已经过去了。

加速奔跑的远不止百川一家,如阿里云、智谱AI和清华EKG都选择了开源路线。就在12月的第一天,作为国内首家开源的科技大厂,阿里云再次向行业投出了一枚重磅炸弹,其宣布开源通义千问720亿参数模型Qwen-72B、18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。

这意味着,通义千问的开源大模型矩阵再次扩容,真正实现了全尺寸、全模态开源。

不难看出,开源、开放是近期阿里云频频强调的关键词。就在一个月前的云栖大会上,阿里巴巴集团董事会主席蔡崇信曾强调,随着大模型技术的迅速发展,智能化时代正在开启,阿里云要打造AI时代一朵最开放的云。

全尺寸参数大模型的开源印证了这一决心,这对于创业者和开发者而言带来的影响是巨大的。性价比、性能、生态繁荣,已经依稀让他们看到了属于自己行业的奇点一角。

正如业内人士普遍认同的,未来90%的企业会倾向基于开源大模型发展。从科研到创业再到千行百业的开发者,依托于开源生态,迎来属于这个时代的智能涌现。

1

开源闭源,谁是终局?

想努力学习,又控制不住想玩游戏。

看起来你对学习有热情,但也有些迷茫,有没有制定一个学习计划呢?

以上酷似心理咨询的对话,发生在一款心理健康大模型MindChat漫谈上,其研发团队为华东理工大学·X-D Lab(心动实验室)。

孤独是一种普遍的社会情绪,团队成员颜鑫说,心理服务在整个社会有很大的需求空间,但供给匮乏。

而依托大模型应用的落地,科研工作者正在把心理咨询变得普惠,从奢侈品变成常用品。其驱动力,按照颜鑫的话说,是为场景找技术,而非为技术找场景。

无论开源还是闭源,大模型技术路径的选择如何,都离不开场景落地的终局挑战。正如阿里云CTO周靖人所言今天闭源、开源都是一种手段,关键是今天怎么能够让这些模型,快速应用在各种各样的场景里面。

不可否认的是,虽然开源闭源并非单选题,但对于开发者和行业创业者等B端用户来说,开源的优势显而易见。

从颜鑫团队的应用来看,在注重隐私的医疗、心理场景,开源大模型更符合私有化部署的需求,而对于有鹿科技所在的具身机器人领域来说,开源意味着可以随着行业发展、需求变化而灵活调整的可能性。

作为专注于大模型+具身智能领域的科技创新企业,有鹿当前的客户主要集中在清洁领域和新能源领域。

拿清洁机器人来说,市面上绝大多数的相关机器人只能进行机械化的全覆盖清扫。但搭载了大语言模型的机器人,则可以对物理世界有着更清晰的理解,这带来的是真正的智能响应。

举个例子,当物业经理说:一号楼门前有个可乐瓶,你来扫一扫。看似简单的指令需要机器人理解什么是门前,能够区分水瓶、矿泉水瓶和可乐瓶,最后在精准作业目标的指引下,规划出清晰的作业轨迹。

当机器人没有办法理解人类这一串描述代表什么时,它就没有办法实现我们所希望它在物理世界达到的智能性水平,这是有鹿机器人和通义的最大结合点。有鹿创始人陈俊波说,我们需要的不是一个一成不变的、智能性水平的大语言模型,而是随着数据的积累,能变得越来越聪明的大语言模型。闭源大模型显然做不到这一点。在我们的业态里面,终局一定是开源模型。

从PC时代的Windows和Linux,到移动互联网的安卓和IOS,再到SaaS发展史上的开源闭源之争,历史总是反复上演。

闭源的阵营高举着简单易用的旗帜,ChatGPT挺身站在阵前,成为大众知名度的代表。而在开源的阵营里,是无可否认的开放性生态优势,以及更低的使用成本,成为各行各业触摸时代脉搏的捷径所在。

最直观的例子是OpenAI,业内人士透露,大模型训练和运行耗费巨大的算力资源和数据,仅在2022年,OpenAI 总计花费就达到了5.4亿美元,而其产生的收入只有2800万美元——这是行业应用者无法接受的投入产出比。

鲜明的对比是,在12月1号的通义千问发布会上,一位个人开发者土土表示,他在用一种很省钱的方式玩开源模型。在家里买个服务器、扔三四块显卡上去,下载Qwen、让它在服务器上运行,再搞个FRP反向代理,从阿里云上买最便宜的30多块钱一个多月的服务就行,这样就能通过外网访问家里的服务器,在单位里也能用通义千问做实验。

2

开源,不是一味求大

7月19日,Meta的Llama2宣布开源,可商用三个字引爆了大模型创业圈,开源渐成主流趋势,猎豹移动CEO傅盛甚至感叹,有的人哭晕在厕所,而有的人在梦中也能笑醒。

大模型加速商业化时代到来,海内外风云搅动,但胜负远未揭晓。

据深网腾讯新闻报道,越来越多创业者认为,相比Llama2尤其是Llama2的汉化版本,国内开源大模型的水平和能力其实不相上下。而虽然Llama2的预训练数据相比第一代扩大了一倍,但中文预训练数据的比例依然少的可怜,仅为0.13%。

中文能力之外,另一个现实是,训练Llama2并不便宜,HuggingFace机器学习科学家内森·兰伯特估算,Llama2的训练成本可能超过2500万美元,不比OpenAI三年前训练GPT-3的花费少。

以上种种,都给国产厂商的开源大模型留下了机会窗口。性能参数、性价比、可靠性,正成为抢占先机的关键词。

仅仅在过去的一个月内,国内最大开源模型的参数纪录就被刷新了N次。

从元象XVERSE开源650亿参数高性能通用大模型XVERSE-65B;到浪 潮信息发布完全开源且可免费商用的源2.0基础大模型,包含1026亿、518亿、21亿不同参数规模;再到阿里云正式开源了通义千问720亿参数的大模型Qwen-72B。

其中,Qwen-72B延续通义千问预训练模型一贯以来的强势表现,在10个权威测评集夺得开源模型最优成绩,在部分测评中超越闭源的GPT-3.5和GPT-4。

国产大模型厂商疯狂向上摸高,但参数尺寸远不是开源大模型的最关键指标。对于行业客户而言,他们要考虑的更多。

以颜鑫所在的心理学科研团队来说,在做模型选型时,至少要考虑三个问题:是否可持续?是否有生态?以及是否满足场景需求?

科研团队没有资源从头训练基础模型,但科研需要持续投入,为跟风、吃红利而生的大模型不可持续。而主流的、稳定的模型架构,能最大限度发挥生态的力量,匹配上下游的环境。而从这两点出发,背靠阿里生态的通义千问成为了高分候选者。

此外,心理领域需要温柔、知性、能共情的大模型;教育大模型要有丰富的知识、优秀的计算能力和调用外部工具的能力。颜鑫告诉我们一个有趣的现象,作为人工智能的代表,不同厂家的模型性格各异,从知识结构来说,有的模型像文科生,而通义千问更像理科生。这也成为他们最终建立合作的关键因素。

事实上,大模型从来不是越大越好,而是越合适越好,正如周靖人此前所说,未来,一定不是one size fits all,不同的场景适配不同的参数,不同的形式,届时大模型将走过野蛮生长阶段,来到精耕细作。

开源模型有各种尺寸,总有一款适合你,如果试过以后发现所有的模型都不行,那可能这个需求本来就不成立。未来速度创始人秦续业的创业方向是分布式推理框架。

在服务客户的过程中,他发现,目前用户大部分都是用13B以下较小尺寸的模型。如外接知识库做问答应用等,完全够用;如果需要具备一定的逻辑推理能力的模型,20-30B的中等尺寸模型是比较好的选择。在Agent或者需要强大推理能力的场景中,70B+大模型更有优势。

开源模型训练平台

大模型百花齐放,而创业者各取所需。这一定程度上解释了为什么通义千问发布会强调的是全尺寸、全模态,Qwen-72B向上摸高,Qwen-1.8B则向下探底,成为市面上尺寸最小的中国开源大模型,这意味着其推理所需的最小显存不到1.5GB,实现了在手机等消费级终端部署。

另一个维度则是在感官上实现能看也能听。

继今年8月,通义千问开源了视觉理解大模型Qwen-VL之后,本次除LLM之外,通义千问团队首次开源了音频理解大模型Qwen-Audio。不同于仅能处理人声信号的传统语音模型,也能够感知和理解人声、自然声、动物声、音乐声等各类语音信号。

3

成就最开放的一朵云?

被誉为开源运动的圣经,埃里克·斯蒂芬·雷蒙所撰写的《大教堂与集市》中有这样一段表述:

Linux具有颠覆性。五年前(1991年),谁曾想过一款世界级操作系统会以如此神奇的方式诞生,它由遍布全球、仅通过脆弱的互联网纽带连接的数千名兼职开发人员的努力构建而成。这完全出乎我的意料。

而这出乎意料的故事,在每一个科技浪潮中都反复上演。

此前在一份被认为是意外泄露的文件中,一位谷歌的内部研究人员表示我们没有护城河,OpenAI也没有。

而之所以会有这样的觉悟,就在于一股不可小觑的第三方力量开源社区,以其中的顶流Hugging Face为例,其提供的高质量开源模型与工具,最大限度地普惠了开发者,降低了大模型的技术门槛。

开放生态是不可逆的潮流趋势,典型的印证是,今年8月,Hugging Face获得了2.35亿美元的新一轮融资,其背后的投资者是谷歌、亚马逊、英伟达、Salesforce、AMD、英特尔、IBM 和高通。

而在国内,阿里云是将开源生态进行的最为彻底的大模型厂商。

事实上,本次已经是阿里云第四次推出免费的开源模型。而在9月份,阿里云在开源通义千问140亿参数模型 Qwen-14B以及其对话模型Qwen-14B-Chat的同时,一并开放了相关的数据报告,包括与预训练、对齐等一系列模型训练过程有关的数据、方法都在报告中得以详细呈现。

不单单开源我们的模型,把报告也分享给大家,能够让大家体验到模型各式各样的表现,更有效地帮助大家进行模型的应用。周靖人表示。

早在去年11月,阿里云首次在业界提出Model as a Service理念,并推出国内首个AI模型社区魔搭,开发者可以在社区上下载开源AI模型,并直接调用阿里云的算力和一站式的AI大模型训练及推理平台。

仅仅在一年后,云栖大会上阿里云给出的数据显示:魔搭社区已有超过2300个模型,开发者超过280万,模型下载次数也超过了1亿多次。

在阿里云的愿景中,魔搭社区应是一个自由市场,模型生产者可以在这里上传模型、验证技术能力,探索应用场景和商业化模式。

而这样的模式下,国产模型厂商之间不再是彼此竞争的孤岛,据了解,百川智能的第一款70亿参数规模的中英文语言模型 Baichuan-7B,和130亿参数通用大语言模型Baichuan-13B-base和对话模型Baichuan-13B-Chat,均在发布当天上架了魔搭社区,属于国内首发。

合抱之木,生于毫末,九层之台,起于垒土。

高质量开源的基础大模型,在开放生态的推动下不断迭代优化,进而推动AI应用的创新涌现,这一整条清晰的商业路径正悄然形成增长飞轮,让AI普惠不再是一句虚言。


返回网站首页

本文评论
“超品”百斯腾:珠三角小家电产业的制造样本
  “你们是来买设备的吧?”临走时,餐馆老板看着背着包、拖着行李箱的我们,好奇地问道。   这里是广东顺德工业大道上的一家普通饭馆,餐馆周围密布着大量的数控设备、耗材...
日期:09-27
奇妙的拜年方式增加了!人民日报新媒体中心喊你来玩“AI云拜年,舞福临门”活动
  它来了它来了,2021年春节就在全网呼喊“牛转乾坤”的期待中走来了!特别的新年,特别的时间,特别过大年怎么能让拜年“一般般”?当人们纷纷响应着过年不返乡的号召时,便...
日期:07-16
远程审计 助力抗疫—用友推出远程审计信息化集成平台(远程联网审计)
  → 2018年:   “要坚持科技强审,加强审计信息化建设!”   →2019年:   审计署印发的《2019年度内部审计工作指导意见》要求:努力做到“一审多项”“一审多果”“一...
日期:08-06
YouTube 计划开发新 AI 工具:允许用户模仿音乐家的声音_仿youtube模板
10月20日消息:据彭博社报道,视频流媒体巨头 YouTube 目前正在开发一种 AI 驱动的工具,允许用户在录制音频时模仿著名音乐家的声音。报道称,YouTube 已经接触音乐公司,以获取训练...
日期:10-22
比Windows更好用!开源优麒麟20.04 LTS发布:支持5年_优麒麟20.04 LTS
  优麒麟团队宣布,优麒麟(UbuntuKylin)开源操作系统20.04 LTS正式版已经发布,代号Focal Fossa,全球同步发布的还有Ubuntu 20.04、Lubuntu 20.04、Xubuntu 20.04、Ubuntu Mat...
日期:12-16
经济日报:乐见中国网络文学“走出去”_网络文学人民日报
  来源:经济日报  据外媒报道,中国网络文学作品首次被收录至英国国家图书馆的中文馆藏书目。英国国家图书馆是世界上最大的学术图书馆之一,一般会根据书籍的价值选择藏品,这...
日期:10-02
realme真我gt5g骁龙888「2999元起!真我GT5发布:骁龙8 Gen2超窄边框直屏 240W/150W快充」
真我GT5正式发布,售价方面分为两个版本。150W闪充版本拥有12GB 256GB和16GB 512GB两种配置,售价分别为2999元和3299元。而240W闪充版本则是24GB 1TB配置,售价为3799元。作为安...
日期:08-28
天猫开宝箱「淘宝天猫开启“宝藏人气店铺”内测 计划邀请5万商家参与」
6月9日 消息:千牛头条官方账号透露,淘宝天猫4月底开启“宝藏人气店铺”计划的内测,鼓励商家加大在私域的投入,让不断为消费者提供更好消费场景的商家,得到更多的支持回报。官方...
日期:06-09
谷歌预计在线展示广告市场规模可能突破1000亿美元(谷歌广告数据分析)
  3月1日消息,据报道,谷歌产品管理副总裁尼尔·莫汉(Neal Mohan)周一预计,几年以后在线展示广告市场规模可能突破1000亿美元,这是谷歌应抓住的“非常巨大的机会”。   在旧金...
日期:07-26
利用BlueKeep 漏洞攻击被观察到,但它似乎没那么可怕_bluekeep漏洞是什么
  利用BlueKeep漏洞进行攻击的实例真的出现了。   (来源:fossbytes.com)   BlueKeep是今年5月份被发现的高危漏洞,它可以利用Windows远程桌面服务(RDS)传播恶意程序,方...
日期:11-26
网友建议比亚迪推出类似理想L9的奶爸车 官方回应「类似理想one的车」
快科技6月20日消息,理想汽车最近非常火,像L7/L8/L9三款都精准定位奶爸群体,在这个细分市场可以说一个能打的都没有,很多BBA车主都转投理想。昨天,就有网友在投资者互动平台提问,比...
日期:06-20
运营23年的易趣宣布关停背后,藏着一个关于商业的真相_易趣成立时间
作者/陈根   近日,易趣网运营主体上海盈实信息技术有限公司发布公告称,由于公司调整运营策略,决定停止易趣网络平台运营,关闭易趣网站。2022年8月12日24时前,易趣网将关闭网站...
日期:07-31
仅990g!华硕发布ExpertBook B9 OLED商务本:镁锂合金打造
快科技6月6日消息,华硕ExpertBook B9 OLED商务笔记本今日正式发布,仅重990g。据介绍,新款笔记本采用镁锂合金打造,其超轻耐用的框架和独特的饰面,比市场上的许多13英寸笔记本电脑...
日期:06-07
宠物消费持续爆发,天猫国际猫狗主粮半年增长79%_天猫国际问题猫粮
  12月13日,天猫国际公布的一组数据显示,近半年来,宠物行业成为销量增速最快的行业,其中宠物美妆销量同比增长超100%。从爱宠的眼睛、耳朵、嘴巴到爪子美妆,从耳部清洁用品、...
日期:10-09
WWDC23总结:苹果重启元宇宙
   6月6日凌晨消息,苹果公司今日召开2023年全球开发者大会(简称WWDC23),推出iOS 17,iPadOS 17,macOS等软件系统; 传闻多年的苹果虚拟现实设备Apple Vision Pro也终于登场。  WW...
日期:06-06
净利大涨168%,唯品会活得很滋润「唯品会盈利了吗」
声明:本文来自于微信公众号 电商头条(ID:ecxinwen),作者:李松月,授权转载发布。唯品会连续10年盈利你可以质疑唯品会日益收窄的规模,但无法否认它赚钱的能力——这已经是唯品会连...
日期:11-25
用友BIP助力中国领先企业数智化国产替代「用友股份」
随着数字经济的快速发展,软件的重要性日益凸显。软件是新一代信息技术的灵魂,已经成为数字中国、制造强国、网络强国建设的关键支撑。面对全球竞争新格局,关键软件自主创新与国...
日期:04-21
京东618正式启动!京东:让利力度达到历史最高「京东618盈利」
5月22日消息,今日,京东正式启动“多快好省与沸腾烟火气”京东618。据京东介绍,今年京东618无论是在让利消费者的力度上,还是在让利合作伙伴的力度上,都达到了历史最高。京东宣布,...
日期:05-22
The Trade Desk™公布2023财年第 一财季业绩
全球领先的广告科技公司The Trade Desk™(纳斯达克:TTD,以下简称TTD)于近日公布了截至 2023 年 3 月 31 日的第 一财季业绩。TheTrade Desk创始人兼首席执行官Jeff Green表示...
日期:05-16
奈雪的茶回应换Logo:品牌升级动作「奈雪的茶创意logo」
11月25日 消息:针对“更换logo”的情况,奈雪的茶官方回应称,这是奈雪七周年的品牌升级动作,之后会在全国范围内进行更换。此前,有网友表示,奈雪新店logo将原本的NAYUKI改成了拼音...
日期:11-27