您的位置:首页 > 互联网

大模型应用,最重要的是逻辑推理能力|面壁智能李大海@MEET2024

发布时间:2024-01-11 16:31:37  来源:互联网     背景:

声明:本文来自于微信公众号 量子位(ID:QbitAI),作者:量子位,授权转载发布。

三体动画播出时间

“一个法律案件的事实是否清晰,与法条之间的关系如何判定,全部都在讲求逻辑。”

在MEET2024智能未来大会现场,面壁智能联合创始人、CEO李大海谈到大模型在法律行业的落地时强调了逻辑推理能力的重要性。

他认为,AGI革命是与蒸汽革命、电力革命和信息革命并列的第四次技术变革,而作为这场变革的核心技术路线,大模型能够真正落地应用到生产环节中,最重要的就是逻辑推理能力。

作为国内最早做大模型的团队,面壁智能在模型训练的过程中,针对逻辑推理做了非常多细致工作,将其拆分成包括归纳、演绎、时间、空间等多个维度,并专门攻克,逐一提升。

据介绍,面壁智能的千亿多模态大模型CPM-Cricket可以对标GPT-3.5的水平,同时逻辑推理能力十分突出。在公考行测的逻辑推理试题测试中,CPM的总正确率达到63.76%,甚至超过GPT-4的61.88%。

然而,随着各行业和企业都看到了大模型的应用前景和价值,如何才能发挥出大模型的更大潜力,并推动生产力的发展和变革?

李大海给出的答案是“大模型+Agent”。

他将大模型比做汽车的引擎,为汽车提供动力。但如果想要把汽车造出来,还需要转向系统,需要汽车底盘,以及包括内饰等所有其他组件,才能真正给用户提供一台完整的汽车产品。

李大海认为,在大模型这个引擎的基础上还需要叠加一系列上层技术,包括记忆能力、使用工具等,从而带来更多广泛的应用和想象空间,而AI Agent(智能体)就是这一系列技术能力的载体。

为了完整体现李大海在“大模型+Agent”赛道的思考,量子位在不改变原意的基础上,对他的演讲内容进行了编辑整理。

关于MEET智能未来大会:MEET大会是由量子位主办的智能科技领域顶级商业峰会,致力于探讨前沿科技技术的落地与行业应用。今年共有数十家主流媒体及直播平台报道直播了MEET2024大会,吸引了超过300万行业用户线上参会,全网总曝光量累积超过2000万。

演讲要点

  • 大模型要能够真正用在生产环境里,最重要的就是逻辑推理能力

  • 大模型是一个新的技术革命,可以跟工业革命、电力革命、信息革命相提并论

  • 大模型是底层引擎,想要做好Agent就需要引擎提供强劲的动力输出

  • 大模型带来的最根本变化是人和机器关系的变化,二者在未来将变得更平等

  • 未来世界将是由智能体连接的Internet of Agents的世界

(以下为李大海演讲分享全文)

大模型要以逻辑推理为核心能力

面壁智能是从清华大学THUNLP实验室孵化出来的大模型公司,在公司正式成立之前,我们的团队就开始深耕大模型领域。与此同时,我们还发起了OpenBMB的开源社区,在这个社区里面做了很多大模型的开源技术和工具。

联合清华大学和OpenBMB开源社区,我们构建了一个“一体两翼”的产学研用大模型生态。

面壁智能是国内最早做大模型的团队,全球第一个中文预训练大模型就是我们的团队在2020年12月推出的,叫做CPM-1。2023年11月,我们发布了最新的千亿多模态大模型CPM-Cricket,可以对标GPT-3.5的水平。

面壁智能的模型核心能力在于逻辑推理。

从成立之初,我们就认识到大模型能够真正落地应用到生产环境里,最重要的就是逻辑推理能力。所以我们在做模型训练的过程中,针对逻辑推理做了非常多细致的工作,将其拆分成包括归纳、演绎、时间、空间等多个维度,并专门攻克,逐一提升。

为了测试模型在真实场景中的逻辑推理表现,我们给大模型模拟了过去三年的公考行测试题,结果显示CPM的总正确率达到63.76%,甚至超过GPT-4的61.88%。在英文的GMAT测试中,面壁智能大模型的分数是GPT-4的93%,已经非常趋近,个别题型甚至超过GPT-4。

最近,我们在与法律行业客户的合作中可以看到,应用场景非常关注和依赖模型的逻辑推理能力。案件的事实是否清晰,事实与法律条款之间的关系如何判定,全部都是在讲逻辑。经过行业客户的评估,面壁智能的大模型逻辑推理表现最为突出,恰恰符合客户的实际需求。

到了今天,我相信大模型的技术路线在整个产业界已形成共识,但大家一定还是会思考,大模型带来的到底是一个像web3这样的技术浪潮,还是十年为期的产业变革。

我认为,以大模型为核心的AGI革命是第四次重大技术变革,它可以和蒸汽革命、电力革命、信息革命相提并论,并将至少持续20-30年的时间。若干年后,整个人类社会的生产和生活将会因为AGI革命的演进而发生翻天覆地的变化。

“大模型+Agent”创造更多想象空间

大模型就像是汽车的引擎,为汽车提供动力。但如果想要把汽车造出来,还需要转向系统,需要汽车底盘,以及包括内饰等所有其他组件,才能真正给用户提供一台完整的汽车产品。

因此,在大模型这个引擎的基础上还需要叠加一系列上层技术,包括记忆能力、使用工具等,从而带来更多广泛的应用和想象空间,而AI Agent就是这一系列技术能力的载体。

智能体具有人设、智商、情商、感知力、价值观和成长性六个维度的典型特征,从而适应各种应用场景。同时,为了让单个智能体发挥更强大的能力,还需要把它们连接和协同起来,去处理和完成更复杂的任务。

实际上,无论人类社会还是自然界中都有群体智能的典型案例。如同我们需要团队和组织把个人集结起来,自然界中的蜂群、蚁群、鱼群也表现出比单体更高级的智能表现。

基于这些思考,面壁智能自2023年6月起就开始布局“大模型+Agent”的技术路线和落地方向,并在过去的几个月里,发布了一系列基于大模型驱动的AI Agent智能体应用框架,我们称之为面壁智能的“AI Agent三驾马车”。

第一,是AgentVerse智能体通用平台。

它构建了一个丰富的虚拟空间,其中定义了众多智能体专家,具有不同人设和专业能力。

当用户提出需求后,智能体专家们立即启动组队流程。这是一个策略性的招募过程,旨在确定哪些专家应当投入特定任务。这些专家组成团队后,开始互相协商任务细节,明确分工。协商完毕便转入执行阶段,每个Agent依据其角色完成相应的工作,然后再进行整合。

beats powerbeats pro最低价格

整个过程中还有一个策略规划者,确保所有智能体的工作协同一致,形成最终成果,并与用户需求进行对照,若存在较大偏差,还可进行迭代改进。这个框架的通用性使我们能够在其基础上开展广泛的工作。

第二,是XAgent超强智能体应用框架。

它是一个超级智能体,能够针对复杂任务进行拆解,并基于动态指示做任务分布执行。它扮演着智能体专家的角色,根据人的需求做规划,完成用户提出的目标。

在这个规划的基础上,如果用户输入的信息不够多,它会与用户交互,收集必要信息。

在做完规划后每一步执行的时候,XAgent还会评估执行完每个步骤后是否需要做额外更多的工作,整个过程是一个动态的结构。在基准测试中,XAgent的能力已经全面超越AuotGPT。

举个例子,当你向XAgent发出指令“我周末有朋友到访,请为我推荐几个餐厅”,这个超强智能体不会立刻列出一长串餐厅,相反,它会首先探询你的偏好,询问你是否偏爱安静的环境或是特定类型的饮食,以此来理解你的需求。

它的第一步是与你互动,而不是立即执行任务;接着,基于你的回复进行餐厅搜索;然后,整理搜索结果,并提出几个带有优缺点分析的方案。方案准备就绪后,它会以可视化的形式呈现,供你选择。一旦你做出选择,它便会通过连接API直接为你预订餐厅。

这不同于我们通常所熟悉的单步问答模式,它展现了智能体提供的一种更优质的体验。

第三,是ChatDev多智能体协作开发框架。

它可以帮助我们构建一个虚拟的AI软件公司,设定CEO、CTO、产品经理、程序员、设计师等不同角色的智能体,并通过一条称为“对话链”的交流网络连接它们。

这些角色的互动流程与软件开发中的瀑布模型相契合,包括软件设计、系统测试和文档编制等环节。

我们让这些AI智能体按照明确的分工协作,并通过自然语言进行交流和互动,平均最快不到3分钟,平均小于3块钱成本,“不到一杯可乐的时间和钱”就可以完成一个简单的软件开发。

在这个工作里,我们还做了一个叫HAI(Human-Agent-Interaction)的功能,让人跟Agent通过自然语言进行交互,通过这种方式也能让智能体得到足够的数据反馈,让他们的工作做得更好,这是我们在刚刚说的在智能体成长性上的一个探索。

短短两个多月的时间,ChatDev在GitHub上的星标数量激增,超过1.8万,连续多日位居Trending排行榜首。

大模型和Agent之间的耦合性非常重要

面壁智能需要同时把大模型和Agent两件事都做好——

因为大模型是底层引擎,想要做好Agent就需要引擎提供强劲的动力输出。

实际应用中,发现Agent在哪些方向可能工作得还不够好,就需要在底层能够有实时的反馈,能够及时进行修改和优化。如果完全依赖外部大模型会有很多限制,二者之间的耦合性是非常重要的。

当前,我们在“大模型+Agent”这条技术路线上已经有很多场景正在落地。

在金融场景,面壁智能和国内头部银行客户进行了深入合作,通过大模型为客户的“智能财富助理”产品提供强大的语言对话能力和逻辑推理能力,解答用户在金融理财等业务咨询中的专业问题。

在法律场景,面壁智能打造法律大模型,结合Agent技术为法务人员提供得力助手,针对案件关键点提取、事实点厘清、法律条款梳理等进行辅助工作,从而极大缩短案件处理的时间,提升效率。

斗鱼上半年营收

国内每年大概有3000万左右的案件,但是基层法务人员数量非常有限。经过访谈,我们发现平均每个基层法务人员每天要处理3-4个案子,但这里面包含了很多复杂案件,处理时间会非常长,一个案件需要诉讼可能会排到三、四个月后。这种情况下需要有法律大模型更好地去帮助法务部门大幅提升案件处理的效率。

大模型带来的最根本变化是“人与机器之间关系的变化”。它让机器能够像人一样通过自然语言的方式进行交互,并能够进行逻辑思考,处理复杂任务。

大模型的出现将会使机器与人的关系变得更加平等,每个人都可以拥有一个AI的伙伴,“大模型+Agent”则能够帮助人们打造更贴心、更懂你的生活智能伙伴。

我们相信,未来的世界将是一个由智能体链接的世界,也就是面壁智能所提出的“Internet of Agents”新时代。

大模型是第四次技术革命。每一次技术变革都需要花非常长的时间:第一次工业革命花了上百年,信息革命花了大约50多年,我相信AGI革命的时间也不会短。

2023只是第一年,相信还有很多问题需要解决和突破,包括任务的规划、多模态、更高级的认知以及更小的模型等等。

希望行业里的所有伙伴一起来把这些问题攻克和解决,让整个社会和人们的生活变得更好。


返回网站首页

本文评论
高通展示在安卓设备上运行ControlNet 生成一张图仅需11.26秒「高通cpu控制器免root」
6月25日 消息:近日,高通在IEEE/CVF计算机视觉和模式识别年会上展示了在智能手机上运行生成式AI模型的进一步进展。墨西哥新能源汽车微软xbox series x发售motog7外形今年2月,S...
日期:06-25
游戏赛事运营公司「游戏赛事化运营成趋势?但电竞的路没那么好走」
声明:本文来自于微信公众号 读娱(ID:yiqiduyu),作者:蒜香啫啫角,授权转载发布。前两年起,电竞基本就成了微博热搜的常驻话题之一,《英雄联盟》《王者荣耀》《和平精英》《DOTA2》...
日期:07-02
极窄方案+硕大圆形后摄没跑 「华为Mate」-60系列工业设计曝光_华为mate40六边形摄像头
据此前多方爆料,今年华为将开始恢复一年双旗舰战略,除上半年推出的P60系列外,往年下半年的Mate系列也将迎来更新,有望在9-10月份带来全新的华为Mate60系列,截至目前已经有不少关...
日期:09-10
3小时挪动300米堵哭了!去海南自驾请注意:需预约购票「春节自驾海南岛 堵车」
春节即将到来,不少北方的朋友会选择去温暖的海南过节,大量游客的同时涌入,给当地交通带去了极大的压力。400块的ipad近日,有报道称,有游客驾车进入海南岛之前,遭遇了世纪大堵车,三...
日期:01-22
性能影像全面升级 iQOO12系列11月7日发布_iqoo12+256配置
来源:中关村在线iQOO12系列将在11月7日,即明晚19点正式发布。这次iQOO12系列在性能、电竞体验、影像和外观设计等方面都进行了全面升级,具备全能旗舰体验。摩托罗拉18年旗舰拥...
日期:11-07
14年前的网游大佬,如今忙着做区块链「14年前的网游大佬,如今忙着做区块链」
声明:本文来自于微信公众号游戏新知(ID:youxixinzhi),作者:安迪,授权转载发布。11月17日,暴雪娱乐官宣与合作长达14年的网易分手,欲另寻游戏运营商。消息一出,不少网友都在猜测国内...
日期:11-29
黑了半天中国,掉下来的却是美国的垃圾「美国就是个垃圾狗屎国家」
上月底,当咱们中国的长征五号B遥三运载火箭运送问天实验舱进入太空后,一些西方媒体却莫名其妙地蹦了出来,开始炒作说中国的火箭残骸会掉下来“砸向”地球,想以此妖魔化中国的形...
日期:09-13
BOSS直聘筹备IPO,2017年已经实现盈利_BOSS直聘第二季度营收11.12亿元 调整后净利润2.57亿元
查看最新行情   8月23日,BOSS直聘(NASDAQ:BZ)发布了2022年第二季度财报。财报显示,第二季度BOSS直聘实现营收11.12亿元,在非通用会计准则下,二季度调整后净...
日期:08-24
抖音电商数据:梅西相关商品销量是姆巴佩的45倍
12月19日 消息:抖音电商的数据显示,在本届世界杯八强中,阿根廷国家足球队周边商品销量居冠。葡萄牙、巴西、法国和荷兰国家足球队紧随其后,排名二至五位。梅西、C罗、内马尔以...
日期:12-20
闲鱼推出七天无理由退货 仅针对经营性卖家「闲鱼有七天无理由退货吗」
10月9日 消息:二手交易也能无理由退货了?近日,闲鱼发布了关于新增《闲鱼社区七天无理由退货规范》的公示通知。公告称,为保障卖家权益,闲鱼社区新增了七天无理由退货。智能锁展...
日期:10-13
默克将对韩国投资近 7 亿美元,获韩国芯片界欢迎(韩拟投千亿美元造芯片强)
  德国默克集团周五表示,计划到 2025 年对韩国投资约 6.93 亿美元(约 44.7 亿元人民币),具体面向电子行业,以及半导体解决方案。   据韩联社报道,韩国贸易工业和能源部部...
日期:03-21
2024年旗舰焊门蓄势待发!米粉催Redmi K70_红米k40焊门员
快科技8月21日消息,有米粉催卢伟冰赶紧打磨Redmi K70”,按照惯例,这款新品会在今年年底登场。谷歌手机pixel7在中国能用吗据悉,Redmi K70系列已经现身IMEI数据库。其中标准版K70...
日期:08-22
你没看错!0.08元/GB流量包,华为云CDN双12就是这么优惠!
  华为云CDN双11活动价格实惠到让很多人血拼狂购,如果你错过了双11那不要紧,接下来还有双12超级优惠活动。华为云CDN“双12”优惠活动现已上线,这一次活动价格比双11更劲爆,C...
日期:08-14
360收购哪吒「360正式转让哪吒汽车增资权:放弃四大特殊权利」
12月28日,360公司发布对外投资进展公告,已于近日与哪吒汽车各股东方签署有关协议,支持哪吒汽车股份制改造。根据公告,360同意统一放弃包括赎回权、优先收购权、追加投资权、清算...
日期:12-29
雷军新年贺词:小米高端化走了三四年、完成了人车家全生态闭环
快科技12月30日消息,今日下午,小米集团创始人雷军发布了《致朋友们的新年贺词》。在贺词中,雷军表示过去这一年,对自己、对小米,都是跨越的一年:今年10月,我们正式发布小米澎湃OS,实...
日期:12-31
2019年全国交通违章罚款有多少钱「全国违章王?男子两年内交通违法325次被记705分」
只要胆子大,马路是我家”,近些年来,国内不少胆子大的违章王”,频频刷新国内交通违章排行榜。近日,广东东莞。俩男子在一工厂做送货工作,工作的货车挂在公司名下,他们认为交通违法罚...
日期:03-24
5000元以内超能打的生产力笔记本!卢伟冰预热Redmi Book 16_5000元最强笔记本
快科技11月24日消息,小米集团卢伟冰预告,Redmi Book 16将于11月29日正式发布。这款新品全面接入小米澎湃智联,为大家带来生产力的全面进化,一场真正的办公效率革命。卢伟冰表示,...
日期:11-25
上天下海无所不能!《王者荣耀·世界》发布全新实机演示
今晚,《王者荣耀》召开2022年共创之夜”活动,带来了多款IP衍生作的最新消息,其中自然就包含了《王者荣耀世界》的新实机演示。从此次放出的实机演示来看,该作在探索上同样是以《...
日期:11-14
ChatGPT开发和人工成本高昂 OpenAI去年亏损翻番至5.4亿美元
5月5日消息,据三位了解OpenAI财务状况的人士透露,该公司去年开发了ChatGPT,并从谷歌招聘了关键员工,致使亏损大约翻了一番,达到5.4亿美元左右。这一此前未公布的数字反映出,在该公...
日期:09-30
港股新能源汽车股跌幅较大 小鹏汽车收跌超9%「港股的新能源汽车股票」
  讯 9月28日下午消息,香港恒生指数收跌3.41%,创5月10日以来最大单日跌幅;恒生科技指数跌3.85%。新能源汽车股跌幅较大,小鹏汽车收跌超9%,理想汽车、蔚来跌超7%。京东、哔哩哔...
日期:09-29