您的位置:首页 > 互联网

一个提问高下立见?国产AI大模型冲上扣子广场PK

发布时间:2024-06-14 18:12:21  来源:互联网     背景:

声明:本文来自于微信公众号 头号AI玩家(ID:AIGCplayer),作者:阿虎,授权转载发布

以“国产GPTs”出名的扣子,做出了GPT没有的功能。

6月12日,字节跳动旗下的AI应用开发平台“扣子”(Coze国内版)悄悄上线了新功能“模型广场”。

扣子是AI应用开发平台,无论用户是否有编程基础,都可以在扣子上快速搭建基于大模型的各种聊天机器人(AI Bot),并一键发布到飞书、微信等各个社交平台。

而新上线的模型广场,可以让两个大语言模型实时PK,一决胜负,帮助用户挑选出最适合自己的大语言模型。

据了解,扣子目前已经接入了包括豆包、通义千问、MiniMax、Moonshot、百川智能、智谱等多个国内大语言模型。换言之,这是国内多家知名大模型厂商与字节的强强联动。

哪款大模型最适合自己的AI应用?创作者们在打造AI Bot时该选哪个模型?自定义主题Bot的魅力在哪?“头号AI玩家”第一时间上手进行了一番实测。

超低门槛搭建Bot,让大模型匿名PK

国内大模型到底哪家更厉害,遇到问题时该选择哪个AI解决,扣子模型广场提供的就是快速测试的方法。

具体来说,模型广场采用了指定Bot对战、随机Bot对战以及纯模型对战模式,任一模式下,系统都会先匹配两款匿名大模型,随后用户进行提问,模型实时生成答案进行PK。

根据模型的回答质量,我们可以投票选出表现较好的模型,孰强孰弱一目了然。

任意模型完成回答后,用户可以参与投票

先从最基础的模型能力评测入手,如果我需要搭建一个“友好语气转换器(阴阳版)”,哪个大语言模型的回复既礼貌但不冒犯?

现在直接让模型“打一架”,就可以评估大模型在面对细分需求时的表现差异。

我们在扣子模型广场点击“纯模型对战”,进入对决页面,两款匿名模型已经在后台准备就绪了。

随后,我输入了需要创建的AI Bot角色设定,并一键发送给两个身份未知的大语言模型,内容如下:

“你是一个能将各种情绪状态演绎得淋漓尽致,令人又爱又恨的阴阳怪气大师,可以通过极其生动且夸张的方式展现出丰富多样的不同网络聊天语气,给用户带来独特的、充满明嘲暗讽的体验......”

两款匿名大模型实时响应提问,其中,最先给出回答的大模型B只花了4.9秒。

校园移动手机卡

任意一个模型回答完后,就可以基于内容质量、回复时间等要素,来判断哪个模型表现更好。

实际测试中,综合响应时长以及内容“阴阳怪气”的程度,我把这一票投给了大模型A。投票完成后,模型广场会显示刚才参与竞赛的两位模型选手,比如被我选中获胜的模型A实际上是豆包。点击展开,还能获得更多模型参数。

投票完成页面

当然,也可以选择重开一轮。比如由于我还想了解其他模型会如何“阴阳怪气”,就点了“重开一轮”,很快,系统重新匹配了两个新模型进行对战。

通过多轮评估对比,我们发现在“友好语气转换器”这一机器人创建需求中,豆包和Moonshot给出的结果不相上下,豆包回答简单毒舌,Moonshot配合表情之后,把“暗讽”拿捏到位。

那么,考虑到我希望聊天机器人在对话时带上emoji,所以会更青睐活泼一点的Moonshot。

需要说明的是,这里的投票完全是依据个人主观喜好,所以与其说哪家模型更强,不如说哪家更适合。

目前,市面上也有较权威的评测,像LMSYS的模型竞技场,也是让全球用户可以自由评测大模型的能力,选出优胜模型。扣子的模型广场也有相同的功能。

对于开发者来说,如何选择更优的底层模型打造AI Bot是十分值得关心的问题。毕竟在大模型行业,基础模型的能力几乎决定着AI Bot能多大程度发挥作用。

但很多人在创建AI Bot时,其实无法看懂复杂的榜单数据,甚至不夸张地说,国产AI大模型各个当过第一。现在,“纯模型”之间可以进行对战,以文本生成的硬实力PK,这样的优势在于方便小白用户自行选择模型。

除此之外,也可以在模型竞技场中选择感兴趣的Bot开启模型对战。和GPTs商店类似,入围模型广场的AI Bot是官方精选推荐的。

比如,我选择了“奇遇旅行家”Bot来制定一个出行计划,同样能将“我要从上海出发到阿勒泰,请帮我找到便宜的机票,并制定一份出行规划”这个问题,一键发给两个模型。

不到15秒的时间,匿名模型先后给出了两个完全不同的方案,对于出行需要Plan B的我来说,的确大大缩短了规划时间。

换言之,对于普通用户而言,同一个问题可以同时投喂给两个大语言模型,短时间内可以获得更多回复,一定程度上可以提高获取信息的效率。此外,也可以在一个平台掌握各大模型的最新能力,扣子实现了模型Bot的聚合。

验证模型再叠技能,AI还能怎么玩

需要说明的是,模型广场评估的只是大模型本身在文本生成等方面的能力,不受编排、工作流等配置的影响和限制。

所以,如果想要打造出一个能力出众的Bot,还需要进一步给AI附加一些额外能力。

比如,让Genmoji Bot调用表情包插件,或是创作完整的工作流,和大语言模型结合完成更多复杂功能。

在扣子Bot商店,有不少网友通过AI Bot实现自己的创意。AI最大的魅力,大概就在于你压根没想到这些东西能这么用。

ipadair6今年能更新嘛

拓邦股份mcu

6月12日,扣子还和Intel联合推出了“Coze AI Factory”主题Bot征集活动,包括图文创作、实用工具、互动创意等不同赛道。

https://www.coze.cn/docs/guides/coze_ai_factory

网友们靠调用插件、增加工作流,调教了形形色色的角色,整了不少花活,比如“单人剧本杀”“本命粽子”“Emoji翻译器”等等。

这些有意思的Bot也会吸引更多开发者上手一试,从中寻找创建灵感。

比如可以在Bot商店选择感兴趣的Bot,查看相应的提示词,甚至在个人空间里复刻一个相似的,替换成更心仪的大语言模型。

我们体验下来也发现,如此一来,零基础就可以开发一款契合自己的AI Bot。借助模型广场,还能在创建AI Bot时选择更偏好的大模型。这样一来,人人都可以灵活地配置生成不同的Bot,还能低成本实现突如其来的创意。

字节AI新王牌,想做大模型风向标?

随着大模型技术不断发展,国内大厂几乎都瞄准了构建AI原生应用平台,类GPTs的产品远不止扣子。此前百度上线了文心一言智能体平台,阿里云布局推出百炼大模型平台。前不久,腾讯一站式智能体制作平台“元器”也公开灰度测试。

不少观点认为,具有专业能力的智能体,能够撬动大模型商业化。但如何在其中脱颖而出,做出差异化竞争是大模型厂商们共同面对的问题。

目前看来,挖掘大模型技术上的潜力,汇聚开发者甚至非开发者,扣子靠模型竞技场已经迈出了第一步。

模型竞技场,意味着字节联动阿里、百川智能和月之暗面等,让用户能够快速基于多种大模型创建应用。扣子的底层也不再局限于自研的豆包大模型,逐渐走向开放,吸引更多开发者。

图片来源:扣子微信公众平台

对于大厂来说,开发者生态就像是“蓄水池”,繁荣的生态和稳固的底层技术向来相辅相成,规模化的开发者聚合效应能进一步提升大模型能力。

继此前推出9个豆包大模型全家桶,打响大模型价格战后,字节正在围绕AI寻找应用落地场景,以触达更多用户。

以扣子、豆包等为基础,字节似乎正尝试搭建起一个能够吸引开发者与用户、覆盖各领域的AI应用生态,进一步对B端业务发起攻势。

火山引擎总裁谭待此前接受采访时表示,应用生态的构建不是一天两天就能形成的,反而是一堆人的群体智慧。扣子必须要构建低代码生态,能够让很多人用低门槛做更多事情,才能形成AI时代的创新。

这或许也在暗示,扣子选择上线模型广场的原因,是鼓励更多大模型进行合作,收集真实的应用场景数据,为优化模型提供参考。

正如很多业内人士提到的,AI的价值应该体现在它如何帮助人们解决问题、提高效率上,而不仅仅是技术层面的“最强”。


返回网站首页

本文评论
微博用户消失又出现「微博留住了用户,却没留住广告主」
声明:本文来自于微信公众号DoNews(ID:ilovedonews),作者:程书书,授权转载发布。近日,微博发布了2023年的第一季度财报,喜忧参半。喜的是,微博一季度实现净利润增长。财报披露,一季度微...
日期:06-05
年轻人逛商场只去B1B2了!_商场适合年轻人的项目
声明:本文来自于微信公众号 营销兵法(ID:lanhaiyingxiao),作者:兵法先生,授权转载发布。年轻人到底喜欢买什么?这可能是品牌探讨的共同话题。除了平台、品牌的数字化消费报告/浏览...
日期:11-04
win11正式版安卓子系统_微软 Win11 安卓子系统 2203.40000.3.0 更新
  微软 Win11 安卓子系统 WSA 再次迎来更新,最新版本号为 2203.40000.3.0。   目前,微软 Win11 安卓子系统 2203.40000.3.0 具体更新内容尚不清楚。   在此前的 2203...
日期:07-18
网络安全不断“撞线”,谁才是最合格的“守护者”?
  网络时代,数据蕴藏着巨大力量。数据作为样本来实现企业的建模,有效数据直接影响企业的未来。在这样的大环境下,数据保护成为企业重要的课题,无论是和用户相关的敏感信息还...
日期:10-14
周鸿祎、胡欢不减持-没有再次募资计划 三六零澄清公告
【】4月6日消息,三六零午间发布澄清公告,周鸿祎作为上市公司实控人,承诺于2023年4月4日起未来12个月内,不减持其持有的三六零股份。胡欢作为持有上市公司5%以上股份的大股东,承诺...
日期:10-04
明天端午节 到底能不能说端午快乐?专家解答「明天端午节放不放假」
快科技6月21日,今晚下班就要开启端午节的假期了,明天也就是端午节的日子。新的一年网友们又提到了一个老生常谈的话题:端午到底能不能说快乐?其实这是一个最近几年才被大家关注...
日期:06-22
xfxr7900显卡「AMD旗舰显卡RX 7900 XTX价格史低:几乎腰斩」
快科技1月28日消息,AMD显卡如今虽然竞争力一般,但价格越来越香,旗舰卡RX 7900 XTX也不例外,不断创造新低。比如在德国大型零售商MindFactory,撼讯的RX 7900 XTX暗黑犬已经杀到了8...
日期:01-29
华为折叠屏手机最新消息「华为本月底将召开发布会:折叠屏手机、手表将发布」
上个月华为Mate 50系列正式发布,燃起了不少用户的热情,而有消息称华为将在本月底继续召开新品发布会,其中将会上市华为P50 Pocket new手机,新机将以6000元左右的价格发布,再一次...
日期:10-13
海尔多联机官网「动力、品质、体验大满配!海尔MX-Max物联多联机上市」
随着气温不断攀升,各地空调季也陆续到来。但中央空调不仅要用的好,更要用的住、用的省心,该如何选?6月3日,行业最MAX物联多联机——海尔MX-Max物联多联机上市。区别于行业普通多...
日期:06-04
天水开元麻辣烫「本地人代购天水麻辣烫月入10万:每天能接一两百单」
天水麻辣烫在网络上走红后,引发了麻辣烫代购的新商机。越来越多的人在社交平台上开设代购店铺,通过购买天水麻辣烫及其他特产,真空包装后快递发货给外地顾客,成为一种新的副业形...
日期:03-28
人工智能再次挑战,大批高薪律师这次会被替代吗?_根据本讲人工智能会完全取代律师的工作
4月10日消息,人工智能以前的进步曾经让人们预测,法律这个高薪行业将最有可能面临失业率大增的风险。但最终,这种预测并未成真。这一次会有所不同吗?以下是翻译内容:十多年前,一些...
日期:04-10
工信部公布33个2022年国家新型数据中心典型案例 中国移动上榜10个「数据中心最新」
2023/4/24 10:12 工信部公布33个2022年国家新型数据中心典型案例 中国移动上榜10个 工信微报   工业和信息化部近日公布2022年国家新型数据中心典型案例名单,共有33个案...
日期:05-26
iPhone 15/16系支持高通基带 爆未来iPhone采用自研5G基带芯片「苹果12用的5g基带芯片」
此前爆料称,苹果将为未来的iPhone自研5G基带芯片,但据预测,高通仍将是所有iPhone 15和iPhone 16系列机型的调制解调器供应商,这表明苹果的基带芯片至少要到2025年才会亮相。海通...
日期:10-22
新能源材料和新能源汽车「我国新能源汽车用高等级材料获突破」
IT之家 9 月 1 日消息,据央视新闻,由我国自主研发建设的高等级无取向电工钢生产线已于 8 月 31 日在河北迁安投产,新材料将大幅提升新能源汽车电机功率密度和电机效率。推特在...
日期:09-19
网易严选抢购中_“618”电商酣战 网易严选构建后疫情时代新消费增量场
  6月19日,中国精品生活家居品牌网易严选公布2020年度618年中大促战报。数据显示,严选618当天全平台总订单量同比上涨48%, 618期间新消费用户数同比增长61%。可以看出,在618...
日期:07-14
京东会员买ipad有优惠吗「不怕买贵!开通京东A+会员下单iPhone 14 Pro可享价保618」
5 月 23 日晚 8 点,京东已全面开启 618 预售,并围绕产品、价格、服务进行了全方位加码。目前,Apple产品京东自营旗舰店的部分爆款已提前上线超值低价,包括Apple Watch S8 至高立...
日期:05-25
百度推出AI入门必修课系列 7日打卡拿下强化学习(百度AI课程)
  风靡一时的《Flappy Bird》也算是虐遍人类玩家。游戏规则很简单,玩家在游戏时只需保持小鸟的飞行状态,并时刻躲避障碍物防止撞到即可。这个似乎“有些傻瓜”的游戏却让全...
日期:07-14
俄罗斯储蓄银行发布 GigaChat 抗衡 ChatGPT:能对话、写代码和生成图像
4月25日消息:俄罗斯储蓄银行周一表示,它已经发布了名为 GigaChat 的技术,作为 ChatGPT 的竞争对手,加入了人工智能聊天机器人的竞赛。GigaChat 最初只能由受邀的人参与测试。图...
日期:04-25
apple合同工「时隔三年苹果再度对合同工“动刀” 据称约有100名招聘人员被裁」
  来源:每日经济新闻  记者/蔡鼎; ;  编辑/兰素英;;小米智能手环怎么拆开呢  彭博社援引知情人士消息称,苹果公司(AAPL,股价173.19美元,市值2.78万亿美元)在过去一周解雇...
日期:09-23
九四智能与华为云达成全面合作 共同推动智能科技的创新与应用
5月18日,广州九四智能科技有限公司(以下简称“九四智能”)与华为云计算技术有限公司(以下简称“华为云”)在东莞松山湖达成全面合作。九四智能CEO刘嗣平、九四智能副总裁邓英荣...
日期:05-22