您的位置:首页 > 互联网

模型好看又好玩的桌游「大模型牌桌最后能剩下谁?」

发布时间:2023-09-14 14:33:04  来源:互联网     背景:

声明:本文来自于微信公众号 新莓daybreak(ID:new-daybreak),作者:史圣园,授权转载发布。

腾讯混元大模型终于亮相。

用腾讯自己的话说,之前是「不急于把半成品拿出来展示」。但此次发布,他们却也坦陈,目前「只是可用、可实践」。

早在3月,百度文心一言就启动了内测邀请;4月,阿里通义千问紧随其后。连姗姗来迟的字节,也在8月17日对外测试 AI 对话产品「豆包」。

在「百模大战」中,先发优势重要吗?

模型桌子

似乎没那么重要。大模型是一种非常标准化的产品,无论是个人、企业还是开发者,都可通过 API 即可接入,切换模型的成本相当低。最终,还是产品的效果和体验决定一切。

但也有点作用。用户真实的提问,是最宝贵的数据资产。先跑起来,就能积累更多数据,帮助大模型在充满噪音和歧义的真实场景中训练、学习、增强能力。

8家首批通过《生成式人工智能服务管理暂行办法》的大模型产品,已经陆续开放注册,普通用户终于可以上手体验了。不过,聊上几轮,就会有种大模型产品「还没成年就出来打工挣钱」的感觉 —— 闲聊可以,但不能细究。

这也不免让人担心,生成结果的不稳定性,会成为实际部署的掣肘,且优化周期较为漫长。

真正能留在牌桌的大模型玩家,一定是少数。

同质化竞争?

从各个厂商公布的大模型产品和解决方案来看,同质化的情况比较严重。

在 toB 办公场景,主要聚焦在文档和会议场景,充当创作助理、会议秘书、设计助手的角色;toC 个人场景,打出的牌也都是情感陪伴、生活向科普(菜谱、旅游策划)。

目前,百度文心、字节豆包、智谱 AI、百川智能均全面开放注册使用;中科院紫东太初正在维护中,商汤日日新需要邀请码,MiniMax 仅面向开发者,上海人工智能实验室的书生通用大模型还未开放注册。

此外,讯飞星火大模型也开放了全面注册,腾讯混元大模型暂时还是邀请制,需要申请并排队。

小米造车属于什么创新

开放注册的5款产品都是 chatbot 形式,也都加入了不同程度的提示语引导、使用场景提示。有的是在对话中推荐问题,有的预设了助手角色。有的做得更深入一些,制作了提示语模板、社区或插件,能隐隐约约看到搭建生态的野心,向用户和开发者创造力借智,但目前都处于较为初期的阶段。

但用户感知上的相似,并不等于业务逻辑的相似。

各家大模型厂商无一例外,都想借力公司既有业务,进行差异化竞争。

百度是最强调「生态」的大厂,结合最深的业务场景也是「搜索」。在文心一言首页的显著位置,就放置了插件市场入驻申请的链接。在连接开发者和创业者上,百度也尤为积极,抢先举办了文心杯创业比赛。而在百度搜索引擎中,AI对话助手也已经上线,并开放使用。

阿里通义千问最先落地的场景是钉钉,钉钉总裁叶军曾表示,「要用大模型把钉钉重做一遍」。

腾讯发布混元大模型时,也同步表示,腾讯云、腾讯广告、腾讯游戏、腾讯会议等50余个业务和产品均已接入。

而讯飞在机器语音识别领域掌握9种方言,这让星火大模型在接纳语音数据时占据了绝对优势。此外,讯飞的学习机等教育硬件,让星火大模型与教育场景结合有着天然优势。

「很多都会迅速消失」

除了技术层的攻坚克难、业务层的生态集结,还有「大模型评测」的战场:所有大厂都想要把 GPT 比下去。

据不完全统计,8月以来,至少有4家本土大模型官宣在某些方面超越了 GPT。

科大讯飞表示星火大模型的代码能力超过了 GPT3.5;商汤说自己的新模型 internlm-123b 在51个评测集的30万个问题上超过了 GPT3.5;百川CEO王小川称自家的模型微调后,在中文问答、摘要细分场景上的表现超越了 GPT3.5;腾讯则更不客气,副总裁蒋杰称混元大模型中文能力全面超过 GPT-3.5。

如果没有「在某个特定领域超过 GPT」的评测结果,似乎都不好意思加入这场大模型的混战。

但让一个模型成为某个「评测数据集」的顶级做题家,对于实际的效率提升,意义不大。

业内人士都知道有个投机取巧的训练方法,是让优质大模型在开源数据集上进行输出,再用这些输出的结果来微调小模型,直接抄大模型的作业。但伯克利学者研究表明,这些模仿模型只是看起来不错,实际能力并没有提升,在真实场景中的泛化能力较弱。

目前,OpenAl 的 GPT-3拥有1750亿个参数,本土大模型的规模一般在数百亿到千亿之间。

此外,脱离了具体使用场景的评测都是耍流氓。在toB办公场景下,准确地提取数据,并给到稳定的输出最重要。在toC陪伴场景中,模型的共情力、幽默感才是提供情绪价值的关键。各家发布的评测榜单,更像是 PR 行为,而非可用性评估。

百度智能云事业群总裁沈抖在接受采访时说,市面上有非常多模型,但很多都会迅速消失。「现在很多模型之所以还存在,是因为很多人还不知道它的好坏。反正谁也试不了,谁也用不了,一测排名还挺靠前。但随着模型的放开,优劣更容易评判了。」

已经到了逐渐放开的时刻。

新莓daybreak 体验了下目前 C 端可注册的大模型产品。在生成「小红书种草文案」这个任务上,几款产品的表现均达到了「文通字顺」,甚至「有点好用」。文心一言擅长加tag引流,豆包的文案颇有亲切感,混元的文案有点4A广告公司的味道,智谱清言像是严谨的语文老师,讯飞星火则从场景切入。还是本土模型最懂本土社交平台。

但在 toB,大模型的脚尖已经触碰到了应用场景的泥泞。

各家厂商从不低调,腾讯、华为、商汤、百度都曾提到,自己的大模型解决方案已覆盖了十余个、数十个行业场景。但实际上,企业真的用起来了吗?

「让大模型成为某一行业的助理,比如金融行业的大模型,还是太泛泛了,需要把行业和场景拆得更细。」Peter说,他是一名算法工程师,在某金融机构从事大模型应用的开发和探索。

他介绍,以银行为例,有多个主营业务。光是资本市场业务,下面就有定向增发、股权投资、股权激励、债转股、可交换债券等十余个子业务。仅仅是股权激励,相关法律法规就有数十篇。

「现在我们甚至不能让大模型学习股权激励的法律法规上做出可靠的回答。10个问题,能有5个回答正确就已经相当好了。」

模型要大,应用要垂

不可否认的是,在中文大模型基座能力尚弱的时候,上层应用就已经先跑起来了。

「理想化的场景是,大模型可以在最初的交流中识别提问者的意图,然后再分给掌握细分领域知识的、不同的 AI Agents,后续让各个 AI Agents 去处理,而不是做一个大而全的法律AI助手、金融AI助手。」

David 是某家初创公司的 AI 产品经理,开发了一款类似Character.ai的产品。他认为,作为开发者,流程规划、系统稳定等等工程层面的努力,对于落地应用来说更重要。

Magi 创始人季逸超,在播客中也提到过类似的观点:「AI 创业是80% 的产品工程 +20% 的底层技术。」

季逸超认为,大模型超过65% 的应用场景,是信息的检索、汇总、再生成,约20% 的需求是流程自动化、决策辅助。

以信息的检索生成为例,看似简单,实则每个角落、每个细节都需要优化。数据是否能够处理干净、文本块的切分是否完整、训练时样本和机器怎么分布、响应速度和成本怎么权衡,这其中涉及到大量的工作。如果每个环节的质量都只有60-70分,那么串联起来,最终可用性一定不理想。

甲子光年对国内外热度较高的10款大模型进行了客群分析,国外的大模型厂商,主要还是侧重普通C端用户使用,商业模式是收取订阅费。而国内的大模型似乎都打定主意,做平台、做生态,然后从 B 端客户那里挣钱,商业模式包括按量计费的 API 调用,以及更加深入的解决方案服务、模型定制开发。

然而无论 toB 还是 toC,商业模式也许会有不同,让用户买单的关键还是基础模型的能力。

毕竟,上层应用的能力,还是由底层模型决定的。基础模型拥有的能力,上层应用不一定能够发挥出来;但基础模型没有的能力,上层应用一定做不到。

Peter 坦陈,他们测试了一圈本土大模型,在真实场景下,表现都还「差点意思」。而对于行业模型微调,他们「想都不敢想」,因为「一次至少要500万起」,效果却尚未可知。

「所以现阶段一定会有垂直应用,但不太可能有垂直模型。」Peter 总结道。

另一个国内应用开发者需要考虑的关键是合规。有两项法规提供了具体指导:1月10日开始施行的《互联网信息服务深度合成管理规定》,以及8月15日开始施行的《生成式人工智能服务管理暂行办法》。

目前,AI 产品上线前需要通过算法备案和安全评估,业内称之为「双新评估」。可以说,能够更快、更及时地做到合规,也是产品竞争力的一部分。

细心的用户不难发现,目前国内 C 端可用的大模型对话产品界面,几乎都有免责声明和水印标记。前者提示 AI 生成的内容不一定保证真实,后者则是确保信息传播时的可追溯性。

国产大模型只是刚刚从实验室走向市场,开始面向真实用户。此时就拿出商业世界的价值衡量标准,对它们发出极度务实的三连问,「能否真正提升工作效率、能否有效降低成本、能否优化用户体验」,未免显得有些严苛。但这恰恰是企业用户的真正关切,也是大模型在商业应用中的核心价值。


返回网站首页

本文评论
iPhone 15换成Type-C接口 苹果推243元转换器 Lightning线还能接着用_苹果转接头支持18w充电吗
快科技9月13日消息,iPhone 15系列终于更换了Type-C接口,那么以前旧iPhone用的Lightning数据线咋办呢?别急,苹果贴心的推出了USB-C转闪电转换器,可以让你可将Lightning接头配件与...
日期:09-13
小红书会被恶意投诉吗「小红书打击通过不当投诉牟利行为」
6月12日 消息:薯管家发布消息称,小红书坚持打造真诚分享、友好互动的社区氛围,严厉打击通过不当投诉非法牟利的内容和行为。近年来,随着投诉维权渠道增多,个别账号发布回收垃圾...
日期:06-12
黑鱼被遗忘洗手间存活11个月掉色 超强生命力引围观:准备放生「黑鱼适合放生到哪里」
近日,湖北武汉王女士在主卧卫生间发现过年时养的鱼还活着,这也是吸引了众多网友的围观。苹果14值得入手吗王女士介绍,这条鱼一直在桶里,倒出来发现竟然还活着,便转移到了洗脸盆里...
日期:11-06
人在知乎,遇见“顶流”数学家_数学系 知乎
声明:本文来自于微信公众号 刺猬公社(ID:ciweigongshe),作者:佳璇,授权转载发布。小米mix3发布时间曝光“关于论文里很多参数都是取 log D的固定幂次,是不是为了凑2022这个数的问...
日期:11-17
助力长沙打造“中国软件名城” 湖南云天励飞首批签约
云天励飞副总裁王磊(右六)上台签署合作协议   5月8日,长沙市软件和信息技术服务业促进会正式成立,将推动当地软件业发展,助力长沙打造“中国软件名城”。湖南云天励飞信息...
日期:04-07
苹果如何避免大型科技公司的大规模裁员?_苹果公司影响
AppleInsider报道,苹果公司在疫情期间没有裁员,是因为它小心翼翼地不大量招聘员工,而最新数据显示了它的小心程度。蒂姆·库克(Tim Cook)已经表示,在疫情和大型科技公司大量裁员导...
日期:02-14
「SM7550」-性能或优于上一代 「小米骁龙7系列新品曝光」
来源:中关村在线美国芯片股大涨据科技媒体GSMChina报道,小米内部代号为“Crow”的处理器型号为“SM7550”。数码博主@数码闲聊站此前曾爆料,骁龙7系列迭代平台的SM7475将在Q1发...
日期:09-09
iphone6已经被淘汰了「再见iPhone 6!苹果史上最成功iPhone退休」
苹果今天更新了其复古和过时产品列表,以添加iPhone6,因为自该设备上次上市销售以来,它已经超过五年了。iPhone 6具有独特的发布情况,因此将其添加到列表中的时间有点偏差。iPhon...
日期:10-05
LeCun嘲讽:称LLM为随机鹦鹉,是对鹦鹉的侮辱
鹦鹉已经学会给自己的朋友打电话了!美国东北大学的研究人员发现,鹦鹉会在想自己的鹤鹤朋友时,主动给它们打视频电话,这让它们感到很幸福。据了解,这项研究是由美国东北大学学生...
日期:04-24
单价25万起步 GPT-5被指需要5万张H100显卡才能训练:NVIDIA赚麻了「gpt10n50adg」
快科技8月7日消息,尽管OpenAI CEO之前否认,但业界还是相信他们已经在训练GPT-5大模型,规模将是GPT-4的10倍以上,但这也意味着更烧钱,尤其是用于训练AI的显卡极为稀缺。小米10青春...
日期:08-07
赋能新型智慧城市建设,航天宏图携手昇腾AI打造城市变化遥感监测平台
通信世界网消息(CWW)以AI+遥感技术对城市范围内的人、物、事件、基础设施和环境等要素全面感知、实时动态识别和快速目标提取,在建设智慧城市、助力国土空间规划治理上发挥着重...
日期:06-26
小鹏P7智能驾驶_从小鹏 P7 事故分析,看智能驾驶瓶颈在哪?
8 月 10 日,宁波高架发生一起小鹏 P7 追尾致人死亡的事故。   发生事故的原因主要有两点,一是被撞车辆是静止的。二是被撞人员站在车后。离车很近的地方是水泥护栏,还有一个...
日期:08-16
我国网民规模达6.88亿「报告:我国网民规模10.79亿人 半年增长1109万人」
8月28日 消息:今日,中国互联网络信息中心(CNNIC)发布第52次《中国互联网络发展状况统计报告》,《报告》显示,截至2023年6月,我国网民规模达10.79亿人,较2022年12月增长1109万人,互联...
日期:09-03
airpodspro能拆吗「iFixit 拆解显示苹果 AirPods Pro 2 与上代一样几乎无法修复」
9月29日消息:拆解维修网站iFixit今天分享了一段苹果第二代AirPods Pro的拆解视频,提供了对新耳塞和充电盒内部的近距离观察。拆解结果证实,AirPods Pro在很大程度上仍然无法维...
日期:10-03
腾势N7售价30.18万起,零百加速3.9s,充电15分钟可补能350km_腾势 新款
7月4日消息,近日比亚迪腾势N7正式上市。新车共推出后驱、四驱两种动力形式的六个版本车型,售价区间为30.18万元-37.98万元。腾势N7在设计上传承了腾势家族π-Motion势能美学设...
日期:07-04
运营商开始筹备上架苹果2022款iPad Pro_2021苹果发售计划
IT之家 9 月 1 日消息,据 MacRumors 报道,已经开始有大型零售商准备上架苹果 2022 款 iPad Pro 型号,正在将该设备添加到其系统中。IT之家获悉,苹果当前的 iPad Pro 11 英寸和 1...
日期:09-05
抢手!iPhone平均售价还要涨?果链公司笑了_iphone官网价格会降吗
  机构最新预测显示,由于iPhone 14 Pro系列机型畅销等原因,苹果iPhone平均售价将会在第三季度创下新高,达到892美元。  然而,iPhone 14标准版销售却遇冷。Sandalwood电商市...
日期:09-28
储殷的个人资料简介「储殷:舒适在体会前是一种奢侈 体会后是一种必需」
凤凰网科技讯 3月31日下午消息,“科技卫浴 数字中国 九牧数智卫浴战略暨i90数智马桶新品发布会”在北京凤凰中心隆重举行,这是全球卫浴行业首次以“科技卫浴战略”为主题的发...
日期:04-01
redmi10上市「Redmi平板马上发布 和Redmi Note 12一起亮相」
中关村在线消息:10月4日,Redmi首款平板Redmi Pad在国外市场正式发布,一起发布的还有小米12T系列。作为首款平板,依旧走了Redmi的入门性价比路线,Redmi Pad 在印度市场提供 3GB+64...
日期:10-28
增长公元:智能营销+数据分析助力美业数字化转型
  美业行业有个很普遍的现象,真正有实力的机构反而容易遇到瓶颈期;而实力一般,依赖营销手段的却顺风顺水,有口皆碑。   现在美业机构越来越多,这对那些真正有实力的机构来...
日期:07-16