您的位置:首页 > 互联网

文心一言VS天工大模型,究竟谁才是国内“首个”ChatGPT?

发布时间:2023-04-26 22:57:41  来源:互联网     背景:

声明:本文来自于微信公众号 DoNews(ID:ilovedonews),作者:王语妤,授权转载发布。

最近,昆仑万维和百度“杠”起来了,原因还是因为最近大火的大语言模型。

4月17日,昆仑万维正式推出“天工”大模型,并于当日开启测试邀请。彼时,昆仑万维对外的宣传用语是“中国第一个真正实现智能涌现的国产语言大模型。”

机器人 AI 人工智能 (2)

有意思的是,百度在发布文心一言的时候,对外输出的宣传用语是“国内首家做出大语言模型产品的科技互联网大厂”。

从表面上看,两家的宣传语中心不一样,话术也有所不同,看似风平浪静,但实则内核都是在争一个“首家”。

为什么要争“首家”,除了能力的对比,市场的争夺外,还有振奋股价,提高市值的作用,百度消息公布当天,港股股价大涨15%,昆仑万维也一样,官宣第二天股价涨幅达到7.68%。

不过,究竟谁是国内首家呢?

从项目披露时间来看,百度是在去年9月份左右开始去内部推进文心一言项目,到今年2月初正式放出项目的消息,并于3月中旬正式对外官宣了文心一言。

昆仑万维官方并没有公布具体的项目开始时间,但是从2020年开始,昆仑万维就已经开始布局AIGC领域。

从技术层面来看,文心一言背后,百度在人工智能领域有四层架构、全栈布局,包括底层的芯片、深度学习框架、大模型以及最上层的搜索等应用。另外,深耕人工智能领域多年的百度,拥有产业级知识增强文心大模型ERNIE,具备跨模态、跨语言的深度语义理解与生成能力。

昆仑万维同样具备大模型四要素:数据、算力、算法以及大参数语言模型。据昆仑万维介绍,天工是双千亿参数训练的结果——千亿预训练基座模型、千亿RLHF模型。

不过,既然两家的底座能力看起来不相上下,那么我们就将这两家放在一起,试试“内功”。

01.

中文语意理解能力

昆仑万维对外展示的技术路径现实,天工团队引入模特卡洛搜索树算法后,在语意理解、转换话题能力上有所提升。

在此背景下,我们首先和天工玩起了成语接龙游戏。不过,天工的完成度并不好,甚至没能理解什么是成语接龙。

亿纬锂能历年利润

图片

图片

文心一言在成语接龙上的表现是优于天工大模型的。

图片

图片

紧接着,我们向文心一言和天工大模型抛出了一个问题——“写一本类似《人世间》一样题材宏大,展现中国历史变迁的小说提纲,字数1000字左右。”对于这个问题,文心一言和天工都将问题的重心放在了“题材宏大”、“历史变迁”这两个关键词上。

于是,两家生成的内容都不符合我们最开始的预期。

图片

图片

上图“天工大模型”,下图文心一言

这个问题,或许是由于我们给出了一定的误导性,所以导致两家生成的答案都不尽人意。但是,天工稍微比文心一言好一些,原因在于,文心一言将“历史变迁”直接解读成了朝代变迁。

尽管天工的回答也是文不对题,但是有人物设定,朝代设定,内容的可操作性和延展性明显是优于文心一言。

将问题拉回《人世间》类似的小说提纲,我们改变了提问角度,连续发文:《人世间》讲了一个什么样的故事、那你能写出类似题材的小说提纲么?大概1000字左右。

图片

图片

在提取重点、联想写作、以及话题的连续性上,天工的表现还是不错的。

但是文心一言就“开了小差”。

图片

图片

文心一言的回答出现了明显的错误。不过,我们再一次将问题抛给文心一言,重新生成答案。这一次,文心一言又重回正轨,给出了相应的答案。

图片

此外,我们还用三个连续性问题,向天工发问。此前,我们在《大评测!ChatGPT 、文心一言和Bard谁更强?》中,将同样的问题给到过文心一言、Bard、以及ChatGPT。

图片

图片

图片

可以说,天工的前两个问题回答和文心一言此前的回答不相上下,但在最后一个藏头诗的理解上,还是存在一定的偏差。

尽管,文心一言的藏头诗回答的也并不好,但好在,文心一言理解了“藏头”的意思。而天工,似乎还并未消化掉“藏头”的意思。

图片

02.

逻辑思辨能力

为了测试“逻辑推理”能力,我们将这样一题抛给了天工和文心一言,即“如果猫会爬树,那么狗也会。”

图片

图片

上图“天工大模型”,下图文心一言

很明显,天工和文心一言也陷入了题目的误区,或者说,并没有完全理解题目意思。不过,这里需要强调的是,在鸡兔同笼问题上,文心一言和天工在发布的视频中都有不错的表现。

在文心一言发布会上,李彦宏询问文心一言“鸡兔同笼”的问题,在题目数据错误的前提下,文心一言通过推理证明了题目存在问题。

这里需要注意的是,在这个逻辑推理上,ChatGPT的回答,是天工、文心一言、bard这四家大模型中唯一正确的,并指出了猫和狗的不同,证明猫会爬树,而狗不会。

除了考验逻辑能力之外,我们还将一个哲学思辨问题,同时向天工和文心一言发文。

图片

图片

上图“天工大模型”,下图文心一言

在哲学问题的理解上,天工和文心一言区别不大,但文心一言略显“人文”一些,在解读之后,更是直接告诉我们该怎么做,更像是和人在对话一样,天工的回答则更是一本正经。

可以这样来说,和天工对话像是和老师对话,老师需要回答这个问题是什么;和文心一言对话则更像是和心理医生对话,医生需要在解释的基础上给出意见。

03.

编程能力

为了测试这两大模型写代码的能力,我们询问了一个非常简单的问题——x+2=5,y-3=7,输出x+y等于几,用java做一个简单编程,并得出结果。

图片

图片

上图“天工大模型”,下图文心一言

但是很显然,这两大模型给出的结果都是有问题的。

不过,在其他评测稿件中,文心一言和天工在编程能力的表现上并不差。我们认为,目前来看,这些大模型的能力还并不稳定,还需要在不断的训练中提高准确性。

04.

结语

总结来看,文心一言也好,天工也罢,他们的能力相对来说,差距不大。但更多的问题在于,目前,大模型每一次生成的问题答案都存在一定的误差。

相比于“首家”之争,我们认为,企业们更重要的是在于提升大模型的能力和准确度,并且寻找到更多合适的场景去实现商业化。

大模型赛道愈发热烈,谁都想做风口上的猪,但是能在风口上起飞的猪,往往都是做好了充足的准备。

此外,我们还应该多给国内科技企业更多的信心,和国外ChatGPT4相比,国内大模型还是有一定差距,但是我相信,这个差距在不远的将来,在竞争中,都会逐渐拉小。国内大模型,未来可期。


返回网站首页

本文评论
台积电十大股东中国半导体技术落后欧美「30年来第三次易主 台积电将取代三星、Intel成为半导体一哥」
全球半导体行业的排名可能又一次被颠覆,这一次上位一哥的是台积电,以全球最大的晶圆代工厂荣登第一,超越三星、Intel。从1992年起,Intel成为全球半导体市场的一哥,营业额领先其他...
日期:10-11
华为鸿蒙面世4年,提出鸿蒙世界,设备数超3.2亿,明年推HarmonyOS 4_6月25日华为鸿蒙 HarmonyOS 应用服务伙伴峰会杭州举行
11 月 4 日,以“创新照见未来”为主题的 2022 华为开发者大会正式开幕,华为公布了鸿蒙系统和生态的最新进展。今年是华为鸿蒙 HarmonyOS 面世第四年,华为表示,将围绕影音娱乐、...
日期:11-10
周枫谈大语言模型:三项根本性新能力最为关键
【网易科技4月23日报道】近日,网易有道CEO周枫在个人公众号发文,探讨大语言模型技术带来的三项根本性新能力。他指出,在大模型带来的新能力中,涌现能力、作为基座模型支持多元应...
日期:04-23
Windows 8将内置杀毒软件(电脑f8杀毒)
  据国外媒体报道,对于反病毒软件开发商来说,这可能是一个不利的消息:微软将在Windows 8系统中内置Security Essentials的一些安全功能。   Microsoft Security Essential...
日期:07-23
东方甄选关联公司申请“兔个吉利”商标
1月12日 消息:企查查APP显示,近日,东方甄选直播间关联公司东方优选(北京)科技有限公司申请注册多个“兔个吉利”商标,国际分类涉及方便食品、啤酒饮料、医疗用品等,当前商标状态均...
日期:01-12
山寨智能手机转向 弃微软选谷歌
  第一次参加深圳集成电路创新应用展的手机设计公司上海朗尚总经理毛祖学没有想到,这一次收获会这么大。“太多深圳手机厂家对Android手机(谷歌手 机)感兴趣。”毛祖学一边...
日期:07-29
手机QQ浏览器发布云战略 启用云LOGO_云手机腾讯
       9月26日消息,腾讯今日公布手机QQ浏览器云战略和云LOGO,宣布成立“全球移动浏览创新中心”,设立创新基金,扶持开发者开发移动浏览器应用。   腾讯副总裁丁柯表示...
日期:07-23
华为Pocket S售价曝光:或5488元起!今晚发布
今晚19:00,华为Pocket S及全场景新品发布会即将举行,届时将重磅推出华为新款折叠屏手机——Pocket S,该机是一款纵向折叠屏手机,整体外形与华为P50 Pocket相差不大,定位是P50 Poc...
日期:11-03
美联储连续加息影响市场需求「美联储加息对新兴市场的影响」
根据芝商所FedWatch工具 9 月 23 日的预测, 12 月 14 日基金利率4%以上的概率为97%。因此,目前市场预测今年年底前的基金利率将在4%至4.5%左右。自 9 月中旬以来,黄金兑美元汇...
日期:09-30
RTX 4080被曝要降价了!可不是惧怕AMD RX 7900
RTX 4090尽管价格12999元起,但毕竟性能提升幅度在那儿摆着,对于游戏发烧友、高端玩家来说完全能接受。RTX 4080 9499元起就显得有些离谱了,部分非公型号甚至已经达到1.2万左右,...
日期:12-06
一块电池可供3600家用电一小时!特斯拉上海储能超级工厂开始招人
4月16日,快科技获悉,特斯拉官方日前宣布,特斯拉上海储能超级工厂开始招聘,岗位涵盖产品研发、智能制造、供应链、工业互联网研发等领域,工作地点均为上海临港。据了解,该工厂将规...
日期:04-16
极客时间为技术人才持续输出高质量学习内容
  在数字化变革时代已经到来的时代背景下,越来越多的企业开始重视数字化专业人才的培养。但数字化人才的结构性短缺也决定了通过招聘引进外部数字化人才,不足以应对企业数...
日期:07-10
一文读懂“零信任新基石-通付盾身份安全网关(U-IAM)”
  7月2日,通付盾云大讲堂开课,本次大讲堂分享的内容是企业应用统一身份识别与安全访问管家——身份安全网关(U-IAM)产品。作为新一代数字化技术服务商,通付盾基于先进的零信...
日期:03-16
5G视频时代_5G最先服务的行业是超高清视频
  随着工信部向中国电信、中国移动、中国联通、中国广电正式发放了5G商用牌照,标志着我国也正式进入了5G商用元年。这更是意味着5G将很快进入人们生活,而这其中,4K、8K超高...
日期:08-03
img2img是什么?在Stable Diffusion中img2img怎么用?
对于那些没有艺术天分的人也不用担心,将Img2Img 与 Stable Diffusion 相结合,可以帮助您提升绘图效果,同时保留原始颜色和构图。在这份综合指南中,我们将引导您完成设置软件、使...
日期:04-19
苏宁零售云什么时候上市「苏宁易购零售云2023冲刺50%增长目标,将推200款C2M新品」
4月14日消息,苏宁易购零售云进一步提出全年新开2000店,重点拓展500家Super店,打造超200款C2M专属定制产品,年销售规模同比增长50%的发展目标。苏宁易购集团总裁任峻表示,苏宁易购...
日期:04-14
看华为云WeLink,如何持续应对井喷式业务流量增长?(华为云会议和welink有什么区别?)
  随着过去一周各地纷纷迎来复工,“少开会、少聚集”催生了远程办公的热潮。为助力各行各业有序开展工作,华为云WeLink正持续联接业务、设备、团队和知识,为企业开启数字化...
日期:02-01
互联网时代的音乐产业_互联网免费时代尚未终结 数字音乐何去何从?
  国内知名数字音乐服务商百度宣布旗下MP3服务正在向相对封闭的正版化模式转型,百度社区概念的自有新音乐平台将在今年5月上线,届时会提供收费和免费的内容服务,这也意味着...
日期:07-27
360提醒:小心90后人大裸模苏紫紫照片“带毒”
  苏紫紫,几乎在一夜之间,成为中国网民最耳熟能详的名字之一,“跪求苏紫紫全套写真和视频”,成了各大BBS最热的帖子。最近7天,这三个字的网络搜索量超过85万,并正在呈几何倍数...
日期:07-25
知名早教机构一夜之间关闭7家门店,家长上万元课时费退费无门(早教机构停课)
红星资本局原创   记者|俞瑶 强亚铣   责编|邓旆光 编辑 王禾   近日,知名儿童早教连锁品牌“金宝贝”被曝出重庆7家门店一夜之间全部关店的消息。   8月14日,重庆家...
日期:08-17