您的位置:首页 > 互联网

Claude 3再次登顶!化学专业一骑绝尘,全面碾压GPT-4_化学三大top期刊

发布时间:2024-03-28 16:28:00  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】Claude3在通用任务上是全球最强已经毋庸置疑。更令人惊叹的是,它在专业领域的表现,比如化学任务,也能远远领先GPT-4。

Claude3的诞生又一次震惊了全世界。

Claude3Opus,Claude3中最智能的模型,在大多数常见的人工智能系统评估基准测试中表现优异,包括本科水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等。

但在特定的专业领域,它的表现却是一个未知数。

比如化学,化学在药物发现和材料科学等领域发挥着至关重要的作用,但现有研究显示它们在化学任务上的性能令人沮丧。

中控锁功能介绍

指令微调让LLM完成化学任务成为可能

近日,一支来自OSU的团队构建了一个专门针对化学任务指令微调的数据集,命名为SMolInstruct。

论文地址:https://arxiv.org/pdf/2402.09391.pdf

该SMolInstruct测试集涵盖了14种任务,包括名称转换、属性预测、分子描述、分子生成、正向合成和逆向合成等,这些专业任务经过精心挑选,以建立坚实的化学基础。

它同时包含340万个不同的样本和160万个不同的分子,涵盖了各种大小、结构和性质的化合物,展示了广泛的化学知识覆盖范围。这些样本都经过严格的处理步骤,排除了有问题和低质量的样本。

化学系排行榜

然后,他们在SMolInstruct数据集上对四个开源LLM(Galactica、Llama2、Code Llama和Mistral)进行微调,创建了一系列专门用于化学任务的LLM,称为LlaSMol。

论文中,主要将LlaSMol模型与两种类型的模型进行比较:

  • 未在SMolInstruct上进行微调的LLM

  • SOTA任务特定模型

  • 结果显示,LlaSMol在所有任务上都显著优于现有的LLM,包括GPT-4。

    例如,将SMILES转换为分子式的准确率达到94.5%,而GPT-4仅为16.4%;对于逆合成任务,准确率达到32.9%,而GPT-4仅为0%,并接近最先进的任务特定模型SOTA。

    这凸显了SMolInstruct数据集的有效性和微调的好处。

    这个结果是合理的,虽然GPT-4很强大,但它毕竟是通用模型,很难直接和经过特定的任务及样本微调的LlaSMol去对抗。

    但经过微调的LLM表现已经逼近非LLM的任务特定模型,还是展现了LLM的巨大潜力。

    不仅如此,四个LlaSMol模型在性能上表现出显著差异,也强调出了基础模型对下游任务的重要影响。

    化学专业esi排名

    Claude3在专业化学领域仍旧领先

    oppovr眼镜什么时候发布

    Claude3一经推出,该团队便在SMolInstruct 该基准测试上对于Claude3Opus同样进行了实验。

    虽然与LlaSMol还是有差距,但在大多数任务中,Claude3的表现远远超过GPT-4。

    虽然在其中的一个名称转换任务S2F中,也就是一个将用于表示分子结构的文本字符串转换为分子式去计算原子数量的任务,Claude3要比GPT-4差得多,但大多数任务的大幅领先还是展现了Claude3在专业领域学习能力上的优越性。

    Anthropic在官网介绍Claude3时,用了smarter, faster, safer去描述大模型智能的未来潜力。

    而我们在化学特定任务上,已经可以感受到了Opus作为通用模型,学习的速度之快,能力之强。

    LLM超越任务特定模型,指日可待

    在SMolInstruct原论文的结尾,作者也表达了对在化学领域,LLM能够超越任务特定模型的期许和展望。

    任务特定模型毕竟是基于固定的输入,它们被优化以执行其特定任务,通常在大小和复杂性上都较小,而且在跨知识共享的任务中很难有好的表现。

    而LLM有更多的参数和模型结构,可以在学习中进化,也能快速适应新的需求。

    不可否认的是,经过微调的LLM更多的在专业领域上赶超任务特定模型,目前非常依赖于微调指令的完整性、全面性、准确性。

    但若以发展的眼光来比较两种模型,尤其是在我们已经感受到Claude3可怕的成长速度之后。

    可以预想到,作为通用模型来设计的LLM,会在专业领域逐渐爆发。


    返回网站首页

    本文评论
    阿里:魔搭社区拥有超200万开发者 模型下载量超4500万_魔搭科技公司
    7月31日 消息:据科创板日报报道,阿里巴巴副总裁叶杰平表示,魔搭社区已经聚集了1000多款AI模型和200多万AI开发者。模型累计下载超过4500万次,并与清华、北大、浙大等20多所高校...
    日期:07-31
    法拉第未来任命 Becky Roof 担任临时 CFO
      3 月 2 日消息,据外媒报道,美国当地时间周二,电动汽车公司法拉第未来(Faraday Future)宣布,已任命咨询公司 AlixPartners 的董事总经理贝琪・洛夫(Becky Roof)担任临时首席...
    日期:03-04
    邬院士 5g为物联网而生「邬贺铨:5G-A不需全网覆盖,建议共建共享」
    通信世界网消息(CWW)12月6日,经国务院批准,由科技部和河南省政府共同主办,以“5G变革 共绘未来”为主题的2023世界5G大会在河南省郑州市郑州国际会展中心举行。论坛期间,中国工程...
    日期:12-06
    8k电视与oled电视_8K电视成CES 2020全场焦点,MediaTek是背后最大赢家
      每年的CES(国际消费电子展)都堪比一场科技界的饕餮盛宴,吸引着众多科技巨头的参与,同样今年的CES 2020也不例外。在全球5G商用的推动之下,8K影像技术成为本届CES的热门话...
    日期:11-16
    苹果6和6s的区别「苹果6p和6s的区别」
    苹果6和6s都是苹果公司推出的手机产品,它们之间有一些区别。苹果6是2014年推出的,而6s是2015年推出的。以下是它们之间的一些区别。为什么iphone12promax充电会断电首先,苹果6...
    日期:05-28
    IP网络3.0:使能连接业务的IP网络架构演进_简单描述ip接入网三大功能
    通信世界网消息(CWW)“IP网络3.0推动网业协同演进,实现Net5.5G时代IP网络面向确定性承载和网络能力业务化创新演进”,2023年6月5日,中国电信IP首席专家唐宏在Net5.5G网络创新发展...
    日期:06-06
    OpenAI联合创始人Sam Altman被《时代》周刊评为年度CEO
    12月7日 消息:昨日,《时代周刊》宣布OpenAI联合创始人奥特曼(Sam Altman)在2023年被评为年度首席执行官(CEO)。在此之前,奥特曼曾因与公司董事会其他成员在AI技术发展策略上的分...
    日期:12-07
    流浪地球视频播放「《流浪地球2》已上线B站爱奇艺等视频网站 改了100多个视效镜头」
    《流浪地球2》这部中国科幻巨制正式在视频平台如爱奇艺、腾讯视频、优酷等上映,无法去电影院观看《流浪地球2》的朋友们,周末就可以在家欣赏这部国产科幻佳作了。小米智能工厂...
    日期:04-15
    Skype称部分用户遭登陆障碍 手机用户不影响(手机上skype登录不上)
    (小贝)北京时间5月28日消息,据国外媒体报道,Skype日前表示,部分用户遭遇无法登陆的障碍,Skype将通过软件更新解决这一问题。Skype共有超过1.7亿用户。Skype表示,部分用户无法登陆...
    日期:07-28
    “宅经济”、“无接触服务”兴起,苏宁智慧零售玩转消费新方式
      受新冠肺炎疫情的影响,“宅”成为了当下全国居民生活最普遍的生活状态。“宅经济”由此异军突起,线上消费大幅度增长,生鲜配送、在线医疗、在线教育、远程办公等需求纷纷...
    日期:08-08
    苹果手表的劣势_在买智能手表这件事上,美国iPhone用户购买量是安卓的两倍
      Consumer Intelligence Research Partners(简称CIRP)的最新数据显示,美国35%的iPhone用户拥有智能手表,而安卓用户只有16%。这表明,iPhone用户购买智能手表的可能性是Andr...
    日期:03-22
    DXO拍照全球第一!华为P60 Pro海外发布:1199欧元起_华为p60pro概念机
    快科技5月9日消息,今晚华为在德国慕尼黑召开发布会,将P60系列正式带到海外市场,正式发布了华为P60 Pro机型,起售价1199欧元(约合人民币9096元),对比国内6988元的起售价贵了不少。硬...
    日期:05-10
    联通靓号年限「打破纪录?联通靓号15666666666起拍价高达1366万元」
    【手机中国新闻】你永远不知道一些手机靓号能值多少钱,经过拍卖平台上的价格追逐之后,它们的“身价”可能达到你难以想象的地步。9月13日消息,阿里资产拍卖平台近日上线了一个...
    日期:09-26
    标准版采用国产灵动岛屏 外媒称iPhone-15系列已开始试产
    去年的iPhone 14系列尤其其中的iPhone 14 Pro凭借首次取消了刘海,带来了标志性的灵动岛的巨大变化,使其成为了iPhone 14系列乃至近年来最受好评的iPhone机型。而随着新的一年...
    日期:09-20
    当贝和泰捷盒子对比,配置、系统全方位真实介绍!(当贝盒子与泰捷盒子哪个值得入手)
      随着小米在十周年之际推出OLED大师系列的高端电视,国产电视的上限被提升到了透明电视的级别。科技发展必然带来媒介的翻天覆地的变化,对于电视的定义早已和过往不同,和...
    日期:07-15
    6月2日北美同步上映!动画电影《蜘蛛侠:纵横宇宙》国内定档「蜘蛛宇宙东映蜘蛛侠」
    快科技4月28日消息,今天,蜘蛛侠官方宣布,动画电影《蜘蛛侠:平行宇宙》的续作《蜘蛛侠:纵横宇宙》正式宣布国内定档。影片国内档期定于6月2日,与北美地区同步上映。据悉,《蜘蛛侠:纵...
    日期:04-28
    荣耀畅玩40 Plus参数泄露:天玑700、6000mAh大电池
    10月13日19:30,荣耀将举行新品发布会,届时将发布新机荣耀X40 GT。不过有消息称,荣耀还会在发布会上带来一款新机荣耀畅玩40 Plus。据数码博主旺仔百事通”透露,荣耀畅玩40 Plus...
    日期:10-13
    工信部:配合有关部门开展大型数字经济平台立法工作_数字经济 工信部
    通信世界网消息(CWW)数字经济是现代化经济体系的重要组成部分,是世界科技革命和产业变革的前沿,大型数字经济平台已成为我国经济发展的重要抓手。目前,尚无针对大型数字经济平台...
    日期:09-26
    微软画图程序或整合人工智能辅助工具 Windows Copilot_微软绘图工具
    8月8日消息:我们已经到处都能看到 Windows Copilot。微软夸耀说这个人工智能辅助工具可以在其 Microsoft 365 应用程序如 Word、Excel、PowerPoint 和 Outlook 中帮助您简化...
    日期:08-08
    微信安装包11年膨胀575倍 博主:98%文件没有用
    来源:快科技   曾几何时,智能手机的存储空间还都只有几个GB,而如今,恐怕128GB都已经无法满足一部分人的使用需求了。这其中的原因,除了越来越丰富的互联网生活之外,手机的App或...
    日期:07-31