您的位置:首页 > 互联网

OpenAI o1式思维链,开源模型也可以有,成功案例来了

发布时间:2024-09-18 10:11:41  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心,作者:机器之心,授权转载发布。

北京时间9月13日午夜,OpenAI 发布了推理性能强大的 ο1系列模型。之后,各路研究者一直在尝试挖掘 ο1卓越性能背后的技术并尝试复现它。当然,OpenAI 也想了一些方法来抑制窥探,比如有多名用户声称曾试图诱导 ο1模型公布其思维过程,然后收到了 OpenAI 的封号威胁。

尽管如此,不过三四天时间,就已经有研究者宣称已经成功复现/开发出了与 ο1性能差不多的推理技术,并且还不止一个!

Llamaberry:教会 AI 像聪明人一样思考

Llamaberry 的提出者是 Martin Bowling。他开发的项目包括 RAGMiner.dev 和 Replit;其中前者可以帮助用户毫不费力地将网站转换成 Markdown、XML 或 JSON 等格式以便 RAG 和 LLM 应用使用,而后者则是一个使用 AI 将想法变成代码的项目。

Llamaberry 的核心思路是使用思维链(CoT)来实现推理。这个名字自然源自代表 o1模型的 Strawberry(草莓)。

HuggingFace地址:https://huggingface.co/spaces/martinbowling/Llamaberry

苹果14 max预计价格多少

什么是思维链?Bowling 在博客中打了个比方:思维链推理就像是给 AI 一个笔记本来展示其工作过程。其中不仅仅是简单地给出答案,而是会带领我们经历其思维过程。

Llamaberry 能教会 AI 透彻地思考,就像是一位人类专家攻克难题时那样。

具体来说,Llamaberry 是一个多轮思维链推理系统的实现,其基于运行在 Groq 上的 Llama3.170B 模型。

多轮推理是关键

多轮推理,顾名思义,就是让模型在给出答案之前进行多步思考,而不是一步给出答案。打个比方,这就像是看一位大厨从备菜到完成摆盘一步步地完成一道精美菜肴,而不是直接微波加热预制菜。

举个示例:

第1轮:AI 先尝试解决当前问题。

第2轮:AI 回顾第一次尝试并尽力改进或优化其思维过程。

第3轮:再进行一轮反思和改进。

综合结果:最后,将所有这些思考综合到一起,得到一个连贯且合理的答案。

下面展示了这个多轮过程的示意图:

可以看到,前一轮的输出会成为后一轮的输入,从而让 AI 可在每个阶段不断完善其思维。最后,所有这些思考会凝练成一个合理的最终答案。就像看着一枚莓果逐渐成熟!

如何实现

下面将深入 Llamaberry 的实现细节。

1.设置舞台

首先,我们需要为 AI 助手设置一些基本规则,代码如下:

initial_system_prompt="""YouareanAIassistantcapableofdetailed,step-by-stepthinking.Whenpresentedwithaquestionorproblem,breakdownyourthoughtprocessintoclear,logicalsteps.Foreachstep,explainyourreasoning.Concludewithafinalanswer.Usethefollowingmarkdownstructure:

这就是提供给 AI 大厨的菜谱。它知道需要逐步分解其思考过程并解释每个步骤,并且以 Markdown 格式将它们显示出来。

2.思考过程

在每一轮推理中,都需要让 AI 对问题进行思考。但在第一轮结束后,还需要求它思考之前已经思考过的东西。这就像问朋友,嘿,还记得你之前说过什么吗?让我们再想一想。

下面是每一轮的生成方式:

asyncdefgenerate_turn(query:str,previous_turns:list=None)->str:

该函数是多轮推理的核心。它决定我们是在第一轮还是在后续轮,并以此构建提示词。对于后续轮,它会将之前所有推理轮都包含在上下文中,让 AI 可以基于之前的思考进行构建。

3.综合结果

经过三轮思考之后,再让 AI 检视其所有思考并得出一个合理的最终答案。这就像是让专家讨论问题,然后编写最终报告。

asyncdefsynthesize_turns(query:str,turns:list)->str:turns_text="\n\n".join([f"Turn{i+1}:\n{turn}"fori,turninenumerate(turns)])messages=[{"role":"system","content":synthesis_prompt},{"role":"user","content":f"OriginalQuery:{query}\n\nTurnsofReasoning:\n{turns_text}"}]returnawaitcall_llm(messages)

这个综合步骤至关重要,是 AI 综合所有思考内容凝练出最终答案的一步。

单轮推理 vs 多轮推理

Martin Bowling 在其博客中简单比较了单轮和多轮推理。

这里他采用了一个简单示例,即询问 AI:人工智能对就业市场有什么潜在影响?

单轮推理:

AI:Artificialintelligencewilllikelyhavesignificantimpactsonthejobmarket,including:

使用 Llamaberry 执行多轮推理:

第1轮:

AI:Let'sapproachthisstep-by-step:

第2轮:

AI:Let'srefineourthinking:

第3轮:

AI:Let'sdelvedeeper:

综合答案:

AI:Aftercarefulconsiderationacrossmultipleturnsofreasoning,wecansynthesizeourthoughtsonthepotentialimpactsofartificialintelligenceonthejobmarket:

可以看到,多轮方法能实现更加精细、全面的分析。这能从多个角度考虑问题,优化其思考,最后得到更加深思熟虑和全面详细的答案。

Bowling 表示,这样的多轮推理在思考深度、自我提升、透明度、灵活性等方面都有巨大优势,同时其还采用了 Markdown 格式,使其结果更容易阅读和用于后续流程。

因此,这种技术可让 AI 进入更多实际应用场景,比如医疗诊断、法律分析、科学研究、商业策略、教育。当然,在使用 Llamaberry 等多轮推理系统时,也需要注意它们的局限和潜在的道德伦理问题,比如偏见、计算成本、过度依赖和隐私问题。

如何使用 Llamaberry?

Llamaberry 也很容易使用,点击几下就能拥有你自己的多轮推理系统。步骤如下:

  • 前往 Replit,点击该链接获取 Llamaberry 模板:https://replit.com/@MartinBowling/Llamaberry-Powered-By-Groq?v=1

  • 创建模板分支:点击 Fork 按钮创建你自己的 Llamaberry 项目副本。

  • 获取你的 Groq API Key:注册 Groq 账户,获取 API Key。

  • 设置环境:在你的分支 Replit 项目中,找到Secrets选项卡。添加一个新密钥,密钥为 GROQ_API_KEY,值是你的 Groq API 密钥。

  • 运行项目:单击 Replit 界面顶部的 Run 按钮。这将启动 Llamaberry 应用。

  • 开始实验:应用运行起来后,你将看到一个 Gradio 界面。你可以在其中输入问题并查看 Llamaberry 多轮推理的实际效果!并且输出是简洁漂亮的 Markdown 格式!

  • 了解了 Llamaberry,下面来看另一个号称实现了类 o1推理链的项目:g1。

    g1:实现类似 ο1的推理链

    g1这个项目来自 Benjamin Klieger,他是 Groq 的一位研究者。也因此,g1同样基于 Groq,并且其也使用了 Llama3.170b 模型。

    不同于 Llamaberry 使用的多轮思维链推理,g1的策略是角色扮演、思维链提示 、格式化以及另一些提示技巧。并且,g1开源了。

    项目地址:https://github.com/bklieger-groq/g1

    开发者宣称 g1有70% 的时间能成功数出 Strawberry 中有多少个 R,同时无需任何微调或少样本技术。下面是其一次执行过程:

    开发者 Klieger 表示,g1和 ο1一样能让 LLM 有能力思考和解决之前的领先模型难以应对的逻辑问题。但不同之处在于,g1会大方地展示所有推理 token。同时,他也强调了 g1和 ο1在技术上的差异,其中后者使用了大规模强化学习来执行思维链推理。而 g1则是通过发掘提示词工程的潜力来帮助 LLM 解决简单的逻辑问题,让现有的开源模型也能受益于动态推理链和优化般的探索界面。

    g1的工作方式

    由 Llama3.170b 支持的 g1会创建一种动态的思维链。

    在每个步骤中,LLM 可以选择是继续进行另一个推理步骤,还是提供最终答案。每个步骤都有标题,并且对用户可见。

    系统提示词中还会包含给 LLM 的提示。其提示策略如下:

    YouareanexpertAIassistantthatexplainsyourreasoningstepbystep.Foreachstep,provideatitlethatdescribeswhatyou'redoinginthatstep,alongwiththecontent.Decideifyouneedanothersteporifyou'rereadytogivethefinalanswer.RespondinJSONformatwith'title','content',and'next_action'(either'continue'or'final_answer')keys.USEASMANYREASONINGSTEPSASPOSSIBLE.ATLEAST3.BEAWAREOFYOURLIMITATIONSASANLLMANDWHATYOUCANANDCANNOTDO.INYOURREASONING,INCLUDEEXPLORATIONOFALTERNATIVEANSWERS.CONSIDERYOUMAYBEWRONG,ANDIFYOUAREWRONGINYOURREASONING,WHEREITWOULDBE.FULLYTESTALLOTHERPOSSIBILITIES.YOUCANBEWRONG.WHENYOUSAYYOUARERE-EXAMINING,ACTUALLYRE-EXAMINE,ANDUSEANOTHERAPPROACHTODOSO.DONOTJUSTSAYYOUARERE-EXAMINING.USEATLEAST3METHODSTODERIVETHEANSWER.USEBESTPRACTICES.

    对这些提示词的详细解释请参阅原项目的 Prompt Breakdown 一节。这里就不赘述了,仅给出几个示例,比如可以在提示词中加入include exploration of alternative answers(探索其它答案)和use at least3methods to derive the answer(使用至少三种方法来得出答案)。

    这样一来,通过组合思维链以及尝试多种方法、探索其它答案、质疑之前草拟的解答、考虑 LLM 的局限性等策略,就能显著提升 LLM 的推理能力。

    在数 Strawberry 中有多少个 R 这个经典问题上,无需任何训练,g1就能帮助 Llama3.170b 达到约70% 的准确度(n=10, How many Rs are in strawberry?)。而如果不使用提示技术,Llama3.170b 的准确率为0%,ChatGPT-4o 的也只有30%。

    下面展示了另一个示例:0.9和0.11哪个更大?

    详细的安装过程和代码请参阅原项目。

    最后,顺便一提,另有开发者发布了 g1的分支版 Mult1,该版本的一大改进是可使用多个 AI 提供商来创建类似 o1的推理链,感兴趣的读者可访问:https://github.com/tcsenpai/multi1


    返回网站首页

    本文评论
    zstack和阿里云_十倍增长,ZStack阿里云版如何炼成了专有云中的爆款?
      “ZStack阿里云版在今年上半年取得了一个亮眼的成绩——这款被称为阿里云专有云敏捷版的云产品,从客户增速和销量两个维度,同比2018年都实现了10倍的增长。”ZStack合伙...
    日期:12-19
    百度大脑开放日人脸识别专场火热招募中,4款自研硬件产品将首次公开亮相!
      小区门禁靠“刷脸”,高铁检票、宾馆入住、公司打卡都在“刷脸”。人脸识别技术快速升级迭代,应用领域也从门禁、考勤,扩大到金融、安防、教育、社交娱乐、交通、智能商业...
    日期:08-21
    “AI+办公”赋能内容创作,科大讯飞获2019年度内容创作者最喜爱的办公工具
      12月19日,第三届新内容探索者大会在北京召开,与这一年来表现杰出的内容生产者,分享优质内容的产出逻辑,梳理内容领域出现的新趋势。同时,本届大会还特设“新内容探索奖”,包...
    日期:06-18
    iPhone4啥时候出的「iPhone SE4曝光:2024发布 用什么屏幕还没定」
    中关村在线消息:近日,屏幕供应链人士Ross Young分享了一则有关iPhone 14的曝光,他表示第四代iPhone SE(以下简称iPhone SE4)将于2024年发布,目前苹果还没定下来该机将采用何种屏幕...
    日期:11-04
    理想汽车第400座超充站上线!年底即将达成超2000座_理想汽车扩建
    快科技5月16日消息,理想汽车近日宣布,其第400座超级充电站已正式投入运营,这一成就仅用了392天时间实现。公司进一步透露,计划到今年年底建设超过2000座超级充电站,安装超过1万根...
    日期:05-16
    腾讯AI聊天专利可多模态回复消息「腾讯ai聊天专利可多模态回复消息是什么」
    4月7日 消息:根据天眼查显示,腾讯科技(深圳)有限公司申请的“一种智能互动方法、装置、计算机设备和存储介质”专利获授权。摘要描述,本发明可以显示用户与虚拟用户之间的聊天页...
    日期:04-07
    荣耀magic 5pro对比vivo x100pro荣耀Magic5-Pro凭借出色产品力获奖 ZOL推荐2023
    来源:中关村在线ZAO 2023中关村在线年度观察项目推选年度优质科技产品,授予“ZOL推荐”产品称号,表彰2023年度优秀科技产品,治好你的选择困难症。芯片组美光存储2023 ZOL年度推...
    日期:11-28
    一印度CEO用AI机器人取代90%客服人员遭网友吐槽_印度人工智能
    7月12日 消息:一位印度 CEO 因选择人工智能机器人而不是人类员工受到批评。据了解,Suumit Shah 是一家电子商务网站 Dukaan 的创始人,他在 Twitter 上表示,该机器人已经取代了9...
    日期:07-12
    人们拿ChatGPT自动写邮件,微软Salesforce都开始集成类似功能
    3月9日消息,不少人已经开始用人工智能聊天机器人自动撰写各种电子邮件文稿。这表明,随着Salesforce和微软等公司将人工智能聊天机器人与软件紧密集成,ChatGPT等人工智能可能很...
    日期:03-09
    南京胖哥:一年经历了半辈子的事 网友:以后都是上坡路_南京胖哥现在怎么样了
    南京胖哥,在 2021 年 5 月 29 日南京发生的一起伤人事件中,挺身而出,不幸受伤。 2023 年,他经历了一系列家庭悲剧,女儿因病去世,而他的父亲在去世前不知晓孙女的不幸。如今,南京胖...
    日期:12-27
    安卓手机变天!没想到“照相机”和“折叠机”跑分也能破140万
    之前安卓手机跑分榜单一公布,基本清一色的是游戏手机。但如今旗舰手机的产品性能之间已经越发接近,产品形态已经不再是决定性能的唯一标准,无论是主打拍照的照相机”还是以往性...
    日期:05-04
    美媒:软银高管人才流失加剧,更多责任得由孙正义一肩承担(软银金融研究院与孙正义)
    彭博8月5日消息,软银正流失越来越多的高层管理人员,随着这家日本企业的前景越来越令人不安之际,更多的责任得由创始人孙正义一肩承担。据悉,自2020年3月以来,这家全球最大投资基...
    日期:08-06
    国货商战接近尾声,是时候总结一份《实操指南》了
    声明:本文来自于微信公众号新榜(ID:newrankcn),作者:云飞扬1993,授权转载发布。没想到国货商战还有后续。这两天,因为花西子的“发疯式”公关,泼天的富贵终于轮到了文具届。9月26日,因...
    日期:09-28
    人工智能芯片初创公司 D-Matrix 在微软支持下融资 1.1 亿美元
    9月7日消息:总部位于硅谷的人工智能芯片初创公司 D-Matrix 已从多个投资者那里筹集了 1.1 亿美元的资金,其中包括微软公司,目前许多芯片公司面临融资困境。据路透社采访的消息...
    日期:09-07
    安卓怎么投屏小米「不只苹果iPhone 多数安卓手机也能与小米SU7互联 进行投屏」
    快科技4月3日消息,小米SU7的澎湃智能座舱有着非常丰富的生态拓展能力。spacex有美国政府资助吗小米雷军曾表示,小米SU7不仅完美匹配小米手机,更是苹果手机用户的上佳选择。手机...
    日期:04-03
    魅族 20 今日再开售,12GB 256GB 仅 2899 元_魅族20t
    魅族 20 在 618 期间优惠 200 元,12GB 256GB 发售价 3399 元,现在只要 3199 元。京东 PLUS 会员可以叠加满 3000 减 300 元优惠券,2899 元可以到手。此外,618 期间购机仍然可以...
    日期:06-01
    世界人工智能大会开幕 马斯克谈特斯拉自动驾驶_马斯克说自动驾驶
    世界人工智能大会今日正式开幕,尽管特斯拉首席执行官马斯克并未亲临现场,但他透过网络发表了一段视频演讲,谈及了特斯拉中意的开发项目,包括人形机器人Optimus以及自动驾驶技术...
    日期:07-07
    电动自行车出口欧洲关税「英国:不准备跟随欧盟对中国电动车征收高关税」
    快科技7月20日消息,据英国媒体报道,英国商业和贸易大臣乔纳森雷诺兹表示英国目前不会效仿欧盟对从中国进口的电动汽车征收高额关税。雷诺兹是最新上任的工党部长,他称在七国集...
    日期:07-20
    研究人员设计机器学习模型以更好地预测青少年自杀和自残风险
    文章概要:1. 澳大利亚青少年中自杀和自残现象十分普遍,需要更好的风险评估方法。2. 研究人员使用机器学习模型分析了多种潜在风险因素,发现情绪问题、学校家庭环境等都是重要...
    日期:09-05
    报告:到2032年,全球AI医疗影像市场规模将达到298 亿美元,复合年增长率为 32.1%
    文章概要:1. 全球医疗影像人工智能市场正以32.1%的复合年增长率迅速增长,主要因素包括在放射学中应用人工智能的增加以及对人工智能支持的CT需求不断上升。2.2022年,全球医疗...
    日期:10-11