您的位置:首页 > 媒体评论

实测文心一言 百度可以再自信一点

发布时间:2023-03-18 02:04:48  来源:互联网     背景:

撰文 | 吴先之 文烨豪

编辑 | 王 潘

不到一年时间,AI完成了从“袪魅”,到重回主流、再度引发“恐慌”的逆袭。

随着AIGC应用愈发成熟,不仅科技语境涌起新一轮浪潮,一直同AI略显疏离的C端用户亦被不断刷新着认知。当下,不论是投资圈,还是学术界,抑或是普通用户,几乎所有人的目光都聚焦在了生成式AI产品身上。

显然,2023年,属于AIGC的时代已然到来。但纵观行业,大众讨论的核心始终没有脱离那几款明星产品,国内部分企业虽表示正在布局,大多停留于概念层面,鲜有真正拿出成果的玩家——直至百度下场,局面有所逆转。

3月16日下午,百度发布厅内,李彦宏亲自上台,将外界期待许久的文心一言端上了台面。从发布会现场演示来看,文心一言在面对五个典型的使用场景时表现得不错,回答的准确性、逻辑性、流畅性均接近人类水平。耕耘AI多年的百度,或许即将迎来属于自己的时刻。

文心一言:百度AI十几年荆棘闯出的结果

细数国内互联网语境,百度无疑是在AI领域扎根最深的玩家之一。早在十年前,百度便已将未来的飞轮押注在了AI上面。

2010年,当玩家们还在思索如何通过互联网思维改造传统行业时,百度便已成立了自然语言处理部,开始了对自然语言处理NLP的探索。而过去十多年间,在视觉识别、自动驾驶等AI更为广阔的落地领域,几乎也都遍布着百度的身影。

只是,科技发展需要跨越裂谷,正如千禧年的互联网的崩溃,以及后来云计算遭冷落等,前沿技术研发及落地过程中往往充满着痛苦,即便是OpenAI,也难逃多年苦坐“冷板凳”,百度AI亦曾陷入过单边投入的长周期之中。

而文心一言,正是百度这十多年AI路,踩着“荆棘”所闯出的结果。

2019年3月,文心一言背后的文心大模型ERNIE1.0首次亮相,并登顶了全球权威数据集GLUE榜单。此后,其不断升级迭代,从自然语言延伸至视觉、语音等多模态,直到最新的ERNIE3.0 Zeus模型,已然具备了千亿级参数。换言之,百度能够抢跑国内AIGC赛道,绝非偶然。

而切入正题,文心一言实际表现到底如何?发布会上,李彦宏通过文学创作、商业文案创作、数理推算、中文理解、多模态生成五个场景下的Demo,向外界秀了一把肌肉。

以数理逻辑推算为例,其向文心一言抛出了经典的鸡兔同笼问题,并在提问中埋下了彩蛋——即误导性的提问。而经过演算,文心一言非但没有踩坑,反倒指出了题目出现了错误,且在面对正确的题目时,给出了正确结果及解题步骤。

如果说,顶级厂商大模型均具备的数理逻辑推算能力,尚不足以证明文心一言的能力,那么其关于“洛阳纸贵”的表达,则令人眼前一亮。毕竟中文语境较为复杂,汉字数量较多,即便是ChatGPT,面对中文时偶尔也会出现词不达意,言不由衷的情况。

以“用洛阳纸贵四个字写一首藏头诗”为例,文心一言稍加思索,写下了“洛阳城里春光好,阳艳无双不负赏。纸贵漫天诗词赋,贵比黄金乐未央。”

这首诗虽谈不上有多少文学、审美价值,但至少兢兢业业地按照要求完成了创作。相比之下,ChatGPT似乎并没有很好地理解“藏头诗”的含义。

从中不难窥见文心一言的中文理解能力。显然,在中文语境里,具备搜索优势的百度拥有“主场优势”,有着更多的中文语料数据参与训练,自然也有着更为成熟的结果。

总之,就发布会来看,文心一言的表现优秀。

实测文心一言:优势非虚

或许是早已习惯了国内玩家的PPT发布会,外界对发布会上文心一言的表现褒贬不一,甚至有一种声音认为“Demo并非实时提问,其中有一定的‘修饰’空间”。

对此,光子星球拿到了文心一言的内测资格,并第一时间测试了其实际表现。先说结论,就当前版本的文心一言而言,仍有提升的空间,但整体表现超出了我们此前的预期。

首先是百度重点展现的中文理解领域,从烧烤店老板的视角分别向文心一言和ChatGPT提出相同的问题。

提问是东北烧烤,但ChatGPT的回答似乎有些驴头不对马嘴,将串串香、烤鸭等五湖四海的美食汇聚一堂。相比之下,文心一言的回答不仅到位许多,甚至还呈现出了不同答案的取名逻辑。

苹果14 pro max发售价格破万

同样的逻辑,在贴合本地文化的网吧取名中同样有所体现。文心一言的回答,显然比ChatGPT毫无逻辑的回答要精准。

此外,在发布会展现的藏头诗创作方面,文心一言对内容的理解亦优于ChatGPT。

纯电动高级车型

由此可见,文心一言对于自己“更理解中国文化,更适合中文语境和中国市场”的表述,不是一句空谈。

相对复杂的数理逻辑推算场景,我们亦向两款产品提出了比发布会“鸡兔同笼”更绕的问题——“如果3个人3天能做3个灯笼,那么9个人9天,能做多少个灯笼?(正确答案是27个)”

或许是该问题涉及到更多中文理解,强如ChatGPT也给出了错误的回答,直到多番纠错才勉强回答正确。文心一言的表现虽与之类似,但其在5次提问里,直接回答正确了2次。

而在发布会并未透露的编程领域,面对编写“俄罗斯方块”代码的要求,文心一言在Python里洋洋洒洒地写下了88行代码。在交由一位程序员朋友检查后,其称文心一言所写的代码整体并没有太大的毛病。

图片创作领域,文心一言所生成的图片基本符合描述。

此外,我们还测试了其撰写商业稿件、提炼内容等能力,受限于篇幅无法全然呈现。

总而言之,文心一言在面对前述场景时,具备一定的准确性、逻辑性,中文理解部分优于ChatGPT。

虽然只是内测版本,但文心一言的表现相当成熟。而随着后续迭代更新,这一款寄托着外界“国产ChatGPT”期许产品很可能将迎来光明的未来。

百度AI的新征程

现阶段,无论是OpenAI的GPT“家族”,还是百度的文心一言,抑或是更为广阔的AIGC赛道,仍处于前期的技术沉淀阶段。正如李彦宏发布会所说,大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。

在这一轮博弈里,只有尽早地抢占身位,才能积攒起更多用户,从而收集更多数据,推动产品迭代升级。

只是,不同于一夜迸发的“商业灵感”,技术领域的演进从始至终都需要堆砌金钱与时间。

一位业内人士指出,像ChatGPT、文心一言这样的产品,需要大量顶尖人才,特别烧钱,而且还需要时间沉淀,初创企业想要分羹极为艰难,盲目进场极有可能陷入“重复制造轮子”的窘境。

也因如此,李彦宏才会在发布会上表示:“无论是哪家公司,都不可能靠突击几个月就能做出这样的大语言模型。”

另一方面, AIGC赛道的玩家在打磨产品的同时,亦需思考如何跑通商业化之路,毕竟诸如语音识别、视觉系AI等“前辈”们,或多或少都经历过商业化长夜。

究其所因,任何新兴技术想要突破“商业化瓶颈”,关键点均在于“应用”,即满足用户、公司乃至行业的实际需求。这既是GPT-4接入Office的原因,亦是百度向百度智能云企业客户开放文心一言API接口调用服务的原因。

而从当下的局面来看,强调中文语境的文心一言,似乎已经得到了国内市场B端用户的认可。数据显示,自2月份百度官宣“文心一言”以来,已有超过650家企业宣布接入文心一言生态。截至3月17日12点,申请文心一言API调用服务测试的企业已达8万——抢跑的百度,正在试图建立全新的商业秩序。

归根结底,科技迭代、下潜之路从来不是一帆风顺,唯有翻越重重大山,才能看到曙光。而在当下这个愈发激烈的竞争语境里,至少在国内,百度很可能将成为第一批吃到螃蟹的玩家。


返回网站首页

本文评论
存储芯片价格大跌_存储芯片价格持续下跌 服务器市场或成增长动能
2022年以来,存储芯片市场下行趋势愈发明显。多位终端从业者告诉21世纪经济报道记者,今年PC等消费端产品中存储芯片价格下滑幅度很大,当前下跌趋势还在继续。alpd激光厅和4k激光...
日期:10-15
苹果“出走”进行时:果链企业的挣扎与求生
图片来源:视觉中国近些年,苹果产业链转移的论调在业内流传已久。z790主板提升了什么1月10日,印度的一则消息再次引发关注:印度第一大财团塔塔集团与纬创资通公司的谈判已接近完...
日期:01-18
小米闯关:手机下行 造车已“卷”
采写/王舒然去年8月,曾表示未来两年不再公开小米汽车信息的雷军,还是“忍不住”了。3月5日,雷军在十四届全国人大北京市代表团全体会议上介绍,小米造车进展超预期,并顺利完成冬季...
日期:03-18
腾讯发布AIGC发展趋势报告,人工智能的下一个时代来了?_腾讯公布人工智能领域最新进展,要打造“救命的AI”
原标题:腾讯发布 AIGC 发展趋势报告:迎接人工智能的下一个时代2022年,从引爆AI作画领域的DALL-E 2、StableDiffusion等AI模型,到以ChatGPT为代表的接近人类水平的对话机器人,AIGC...
日期:02-01
国内药厂新冠感染_感染人数下降,仍在研发的新冠药管线该怎么办?
《科创板日报》2月8日讯(记者 金小莫)随着国内新冠感染人数的下降,已被炒作了约三年的新冠概念“偃旗息鼓”。据choice数据,自2022年12月中下旬以来,新冠用药概念一路走低,至2023...
日期:02-09
打不死的8位MCU
近日,意法半导体(ST)正式推出32位STM32C0 MCU,并明确指出将用于“取代”8位MCU。在ST推出STM32C0之后,瑞萨点子也紧跟其后推出16位MCU RL78/G15,同样剑指8位MCU应用市场,欲实现替代...
日期:01-27
名创优品事件营销_保命要紧 名创优品主动二次道歉
原标题:名创优品,保命要紧神射手更羸对着受过箭伤的大雁拉了一下弓弦,紧接着大雁便从空中跌落下来。这是中国人耳熟能详的典故——惊弓之鸟。此后,“惊弓之鸟”便用来比喻曾受到...
日期:08-24
棉花被和羊毛被_棉花被羽绒被羊毛被…什么被子最能温暖寒冬中的我?
渐渐入冬的夜晚,躺在床上,一句古诗弹幕般浮现在脑海里:布衾多年冷似铁,娇儿恶卧踏里裂。保暖的被子太重要了。问题是:你知道什么样的被子最保暖吗?在讲被子之前,有必要先说说保暖。...
日期:11-26
微软推出 Microsoft 365 Basic 基础订阅:1.99 美元 / 月,支持 OneDrive 100GB 存储但无法使用桌面 Office 应用
  1 月 12 日消息,Microsoft 365(以前称为 Office 365)是微软公司最成功的产品之一。不少人认为其订阅价格相对实惠,并提供巨大的价值,例如访问和使用具有源源不断新功能的...
日期:01-13
人人都能用的“AI 作画”,要成为英伟达的杀手锏?_用AI画画
如果说2021年是“元宇宙”的元年,那么2022年或许就是“AI作画”的元年。英特尔锐炫a350m稍微对互联网热点有所关注的人都不难发现,最近,“AI作画”产出的作品似乎已经成了一股...
日期:10-24
营收连续增长,亏损逐步扩大,蔚来进入死循环?「蔚来三季度总营收4526亿元」
原标题:营收连续增长,亏损逐步扩大,蔚来怎么平衡盈亏?11月10日,蔚来发布了2022年第三季度的财报,本期的成绩单看似不错,实际上好坏参半。三星ssd850evo和860evo有什么区别蔚来三季...
日期:11-19
浙江千亿富豪数量_全球富豪榜上的浙商又迎IPO!48岁二次创业 如今市值超300亿港元
天下网商 刘雨锟编辑 吴羚玮中国第四家新能源车企上市了,但它没能享受到以往的造车新势力的待遇。9月29日,零跑汽车在港交所敲钟。发行价48港元/股的零跑,开盘即破发。截至午间...
日期:10-06
生活提示小众奶真比牛奶更好吗_营养完爆牛奶,比母乳还好?小众奶市场火爆难掩真相
作者:阮光锋最近几年骆驼奶、娟姗奶、燕麦奶等等小众奶火爆朋友圈。不少商家在宣传的时候,说它们的营养好,接近母乳,有更容易消化吸收等等之类的作用。这些小众奶的营养到底如何...
日期:10-17
特斯拉开着爽吗_特斯拉的舒服日子快到头了?
作者|董楠最近的特斯拉又掀起了一阵风。全球范围的降价为特斯拉带来了订单,也“带回”了资本市场的信心。过去一周,特斯拉股价飙升了33%,市值也在一夜之间暴涨3800亿,马斯克也高...
日期:01-30
椰树的直播间擦边?比它魔性的直播间多了去了…「直播卖椰子」
相信这两天,大家应该有刷到椰树集团的直播间吧?没刷到也没关系,小辣椒给大家节选了一小段 ↓ ↓谷歌搜索的网址都是无法访问基本上都是这样的内容,非常简单,四位美女在摆放了椰树...
日期:10-11
修不起的折叠屏手机_修不起的折叠屏手机有哪些
图源:东方IC折叠屏手机,几乎全球所有安卓手机厂商的必争之地。随着折叠屏手机规模化商用所必需的形态、屏幕、铰链、价格等多方因素日渐成熟,折叠屏手机销量几乎已经站在了就要...
日期:12-13
二代FSD也有算力焦虑?特斯拉不惜血本用上GDDR6_特斯拉fds实际感受
特约作者 / 周彦武(业内资深专家)编辑 / 汽车之心特斯拉最新的自动驾驶大脑 FSD,不惜血本用上了 GDDR6。如上图中的 D9ZPR,正反两面各用了 8 颗,总计 16 颗,每颗容量 2GB。但最近...
日期:03-03
拼多多出海的第48天 美国电商圈被打服了「为什么拼多多亏损60多亿美国人还在疯狂买入」
说出来你可能不信,最近一支中国制造的新生力量,径直攻入了美国大消费的腹地,直接和亚马逊 battle 了起来,而且还是五五开。差评君说的不是别人,正是现在国内最受争议的电商平台拼...
日期:11-04
“中国天眼”六周年!细数国之重器的几大成就_中国天眼目前的成就
2016 年 9 月 25 日,被誉为“中国天眼”的 500 米口径球面射电望远镜(Five-hundred-meter Aperture Spherical radio Telescope,简称FAST)落成启用。截止至今年 7 月,“中国天眼...
日期:09-28
你看好人形机器人吗?「机器人都是人形的吗」
来源:锦缎(ID:jinduan006) 作者:知勇知其然,更要知其所以然”——人形机器人市场逻辑演绎初探。人形机器人的概念由来已久。不管是科幻小说还是电影里,我们时常可以见到人类与人形...
日期:08-21