您的位置:首页 > 互联网

Mamba论文为什么没被ICLR接收?AI社区沸腾了_im论文收录什么意思

发布时间:2024-01-26 16:01:59  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:张倩、蛋酱,授权转载发布。

基于 Mamba 的创新正不断涌现,但原论文却被 ICLR 放到了待定区。

天猫官方榜单

2023年,Transformer 在 AI 大模型领域的统治地位被撼动了。发起挑战的新架构名叫Mamba,它是一种选择性状态空间模型( selective state space model),在语言建模方面可以媲美甚至击败 Transformer。而且,它可以随上下文长度的增加实现线性扩展,其性能在实际数据中可提高到百万 token 长度序列,并实现5倍的推理吞吐量提升。

在发布之后的一个多月里,Mamba 逐渐展现出自己的影响力,衍生出了 MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByte 等多项工作,在克服 Transformer 短板方面表现出了越来越大的潜力。

但这样一颗冉冉升起的新星,却在2024年的 ICLR 会议中遭遇了滑铁卢。最新的公开结果显示,Mamba 的论文至今还没有被大会接收,我们只能在 Decision Pending(待定)一栏看到它的身影(可能是延迟决定,也可能是被拒)。

总体来看,给 Mamba 打分的总共有四位审稿人,他们分别给出了8/8/6/3的打分。有人表示,如果拿到这样的分数还被拒,那确实是一件很奇怪的事情。

要弄清其中的缘由,我们还得看一下打出低分的审稿人是怎么说的。

论文审稿页面:https://openreview.net/forum?id=AL1fq05o7H

为什么not good enough?

在评审反馈中,给出3: reject, not good enough打分的审稿人解释了自己对于 Mamba 的几点意见:

icml发论文难吗

对模型设计的想法:

动力电池“报废潮”将起 新规出台明确如何回收

  • Mamba 的动机是解决递归模型的缺点,同时提高基于注意力模型的效率。有很多研究都是沿着这个方向进行的:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4],以及许多高效的 Transformer 模型(如 [5])。所有这些模型都达到了接近线性的复杂度,作者需要在模型性能和效率方面将 Mamba 与这些作品进行比较。关于模型性能,一些简单的实验(如 Wikitext-103的语言建模)就足够了。

  • 许多基于注意力的 Transformer 模型显示出长度泛化能力,即模型可以在较短的序列长度上进行训练,并在较长的序列长度上进行测试。这方面的例子包括相对位置编码(T5)和 Alibi [6]。由于 SSM 一般都是连续的,那么 Mamba 是否具有这种长度泛化能力呢?

对实验的想法:

  • 作者需要与更强的基线进行比较。作者表示 H3被用作模型架构的动机,然而他们并没有在实验中与 H3进行比较。根据 [7] 中的表4,在 Pile 数据集上,H3的 ppl 分别为8.8(1.25M)、7.1(3.55M)和6.0(1.3B),大大优于 Mamba。作者需要展示与 H3的比较。

  • 对于预训练模型,作者只展示了零样本推理的结果。这种设置相当有限,结果不能很好地支持 Mamba 的有效性。我建议作者进行更多的长序列实验,比如文档摘要,输入序列自然会很长(例如,arXiv 数据集的平均序列长度大于8k)。

  • 作者声称其主要贡献之一是长序列建模。作者应该在 LRA(Long Range Arena)上与更多基线进行比较,这基本上是长序列理解的标准基准。

  • 缺少内存基准。尽管第4.5节的标题是速度和内存基准,但只介绍了速度比较。此外,作者应提供图8左侧更详细的设置,如模型层、模型大小、卷积细节等。作者能否提供一些直观信息,说明为什么当序列长度非常大时,FlashAttention 的速度最慢(图8左)?

此外,另一位审稿人也指出 Mamba 存在的不足:该模型在训练过程中仍然像 Transformers 一样具有二次内存需求。

作者:已修改,求审阅

汇总所有审稿人的意见之后,作者团队也对论文内容进行了修改和完善,补充了新的实验结果和分析:

  • 增加了 H3模型的评估结果

作者下载了大小为125M-2.7B 参数的预训练 H3模型,并进行了一系列评估。Mamba 在所有语言评估中都明显更胜一筹,值得注意的是,这些 H3模型是使用二次注意力的混合模型,而作者仅使用线性时间 Mamba 层的纯模型在各项指标上都明显更优。

与预训练 H3模型的评估对比如下:

  • 将完全训练过的模型扩展到更大的模型规模

如下图所示,与根据相同 token 数(300B)训练的3B 开源模型相比,Mamba 在每个评估结果上都更胜一筹。它甚至可以与7B 规模的模型相媲美:当将 Mamba(2.8B)与 OPT、Pythia 和 RWKV(7B)进行比较时,Mamba 在每个基准上都获得了最佳平均分和最佳 / 次佳得分。

  • 展示了超出训练长度的长度外推结果

作者附上了一张评估预训练3B 参数语言模型长度外推的附图:

图中绘出了每个位置的平均损失(对数可读性)。第一个 token 的困惑度很高,因为它没有上下文,而 Mamba 和基线 Transformer(Pythia)的困惑度在训练上下文长度(2048)之前都有所提高。有趣的是,Mamba 的可解性在超过其训练上下文后有了显著提高,最高可达3000左右的长度。

作者强调,长度外推并不是本文模型的直接动机,而是将其视为额外功能:

  • 这里的基线模型(Pythia)在训练时并没有考虑长度外推法,或许还有其他 Transformer 变体更具通用性(例如 T5或 Alibi 相对位置编码)。

  • 没有发现任何使用相对位置编码在 Pile 上训练的开源3B 模型,因此无法进行这种比较。

  • Mamba 和 Pythia 一样,在训练时没有考虑长度外推法,因此不具有可比性。正如 Transformer 有很多技术(如不同的位置嵌入)来提高它们在长度概括等轴上的能力一样,在未来的工作中,为类似的能力推导出 SSM 特有的技术可能会很有趣。

    • 补充了 WikiText-103的新结果

    作者分析了多篇论文的结果,表明 Mamba 在 WikiText-103上的表现明显优于其他20多个最新的次二次序列模型。

    尽管如此,两个月过去了,这篇论文还处于Decision Pending流程中,没有得到接收或者拒绝的明确结果。

    被顶会拒绝的那些论文

    在各大 AI 顶会中,投稿数量爆炸都是一个令人头疼的问题,所以精力有限的审稿人难免有看走眼的时候。这就导致历史上出现了很多著名论文被顶会拒绝的情况,包括 YOLO、transformer XL、Dropout、支持向量机(SVM)、知识蒸馏、SIFT,还有 Google 搜索引擎的网页排名算法 PageRank(参见:《大名鼎鼎的 YOLO、PageRank 影响力爆棚的研究,曾被 CS 顶会拒稿》)。

    甚至,身为深度学习三巨头之一的 Yann LeCun 也是经常被拒的论文大户。刚刚,他发推文说,自己被引1887次的论文Deep Convolutional Networks on Graph-Structured Data也被顶会拒绝了。

    苹果pencil笔3代

    在 ICML2022期间,他甚至投了三篇,被拒三篇。

    gopro和大疆osmo选谁好

    所以,论文被某个顶会拒绝并不代表没有价值。在上述被拒的论文中,很多论文选择了转投其他会议,并最终被接收。因此,网友建议 Mamba 转投陈丹琦等青年学者组建的 COLM。COLM 是一个专注于语言建模研究的学术场所,专注于理解、改进和评论语言模型技术的发展,或许对于 Mamba 这类论文来说是更好的选择。

    不过,无论 Mamba 最终能否被 ICLR 接收,它都已经成为一份颇具影响力的工作,也让社区看到了冲破 Transformer 桎梏的希望,为超越传统 Transformer 模型的探索注入了新的活力。


    返回网站首页

    本文评论
    国家主席习近平发表二〇二四年新年贺词
    新年前夕,国家主席习近平通过中央广播电视总台和互联网,发表了二〇二四年新年贺词。全文如下:哪吒汽车上半年销量大家好!冬至阳生,岁回律转。在这辞旧迎新的美好时刻,我在北京向大...
    日期:01-01
    唐山移动路南分公司:打造优质好网络,护航金秋开学季「唐山移动公司总经理简介」
    通信世界网消息(CWW)近日,各大高校迎来了开学季,同学们开启了新学期的校园生活。唐山移动路南分公司全力做好高校迎新通信保障工作,提前精心部署,校园有线、无线网络全面保障,优化...
    日期:09-15
    国行Switch最火游戏榜出炉:《只只大冒险》第一 任天堂自家游戏遇冷
    快科技8月21日消息,腾讯NintendoSwitch今日公布了2023年上半年国行Switch e商店游戏人气排行榜,比较意外的是任天堂第一方作品无一上榜。榜单前10名游戏如下:1、《只只大冒险》...
    日期:08-21
    中国移动大视频子链技术创新论坛在杭召开
    通信世界网消息(CWW)10月8日,由中国移动咪咕公司、北京大学、AVS产业联盟、中国移动浙江公司共同主办的“中国移动大视频子链技术创新论坛”在杭州召开。本次论坛以“数智观亚...
    日期:10-13
    中国联通董事长刘烈宏:AI是未来科技创新型企业的“必备技能”「中国联通刘总」
    通信世界网消息(CWW)“最近,我们注意到有专业人士使用GPT答了一下今年的高考试卷,其中英语得了140分、生物得了120分、语文得了110分,但是数学只得了80分,各科都是150分满分,大致是...
    日期:06-28
    概率运算的人工智能「新的人工智能算法可预测运动队的动作 准确率达80%」
    一种新的人工智能算法可以预测排球运动员的比赛中的行动,准确率超过80%。现在,开发该算法的康奈尔智能系统和控制实验室正在与Big Red冰球队合作,扩大该研究项目的应用。这些算...
    日期:10-13
    苹果即将更新停产产品名单:2013/2014款iMac或退役「苹果停产产品目录」
    根据苹果最新的备忘录显示的信息,在本月底,苹果将会把2013年和2014年的iMac列入停产产品列表。根据目前已知信息,此次被列入停产产品的将包含2013年的21.5英寸和27英寸iMac、20...
    日期:11-02
     爱奇艺完成向太盟投资集团发行5亿美元可转换票据
    2023年1月3日消息,爱奇艺发布公告称,已完成向私市股权投资公司太盟投资集团(以下简称“太盟”)旗下太盟亚洲资本IV-1发行5亿美元可转换优先票据。本次投资完成后,爱奇艺将进一步...
    日期:01-03
    不止设计节能,还有运营节能!第七届海尔磁悬浮杯大赛颁奖「海尔磁悬浮电机工作原理」
      作为能耗大户,建筑成为节能减排工作的重点领域。但是大型空间系统复杂,在方案设计、设备选型、施工建设、后期运维等全流程环节中,任何一环都不容忽视。具体怎么来做呢?或许...
    日期:04-27
    登陆本世代主机稳了!《黑神话:悟空》官方QA公布
    快科技8月20日消息,今天,在线下试玩结束后,《黑神话:悟空》官网更新了QA问答,公开回答了玩家较为关心的数个问题。根据官方QA,《黑神话:悟空》除了PC外,还将登陆XSX|S和PS5这两款第...
    日期:08-21
    台积电美国工厂开工「台积电、Intel等2.4万亿投资建厂 1.8nm工艺世无双、美国半导体或复兴?」
    4月18日消息,美国是半导体技术的发源地,迄今依然掌握着多项核心技术,然而在半导体制造领域,美国近20年来的份额确实在下滑,先进工艺已经落后台积电、三星等国外公司了。为此美国...
    日期:10-02
    中国移动“不抠门”了,老用户10年以上没换号,这4大特权免费用
    中国移动作为国内最大的通信龙头,相信用户对它都不会陌生!移动虽然拥有超十亿的用户数量,但是移动的口碑却一直不咋地,因为在早些年移动套餐中的各种“套路”,导致移动一直被网友...
    日期:11-06
    中国5G等多项指标居全球前列_中国5g在全球处于什么地位
    昨日,在乌镇举行的世界互联网大会发布《世界互联网发展报告2023》和《中国互联网发展报告2023》蓝皮书。北京青年报记者注意到,报告重点关注“数字基础设施建设”“数字经济发...
    日期:11-09
    网飞三体电影「《三体》影视化,网飞能拍好吗?」
      [环球时报特约记者 吕克]备受关注的《三体》剧集(网飞版)24日发布首个幕后花絮。花絮中,制片人和主演纷纷现身,首季场景和人设曝光,为广大科幻迷揭开该剧神秘面纱的同时,也让...
    日期:09-28
    行业云平台带来的是企业业务的创新-Gartner_云 行业
    【】6月19日消息,云行业浩浩荡荡发展十余年,见证过巨头的崛起,也有许多云计算相关厂商倒在了奔流的浪潮里。有业内人士指出,那些消失的云公司主要问题还在于不能匹配客户的诉求...
    日期:09-23
    国产光刻机研发新剧《我的中国芯》正片曝光引网友狂吐槽:真神作
    由李克执导的中国芯片科技题材网剧《我的中国芯》原定于7月10日在优酷开播,但该剧至今仍未播出。当日剧组官方微博发文称由于排播调整,本剧今日暂缓上线,播出时间待定。据了解,...
    日期:07-21
    小米13 Ultra拆解出炉:后摄几乎占满了主板_小米13锐龙版
    快科技4月19日消息,昨晚小米13 Ultra已经正式发布,作为高端影像旗舰,这次在影像方面又带来了不小的升级,甚至推出了一个拍摄套装,能装上手柄和相机滤镜。不少网友调侃称其为能打...
    日期:04-19
    因汽车需求飙升,瑞萨、恩智浦等芯片制造商提高半导体价格_全球半导体芯片供应紧张已经蔓延至汽车行业
      1 月 25 日消息,据国外媒体报道,由于汽车需求飙升,日本半导体巨头瑞萨电子、荷兰芯片制造商恩智浦半导体(NXP Semiconductors)和其他芯片制造商正在提高用于汽车和电信设...
    日期:06-09
    扎克伯格app「扎克伯格宣布大胆计划:将 AI 融入Meta 的每一个产品」
    6月12日 消息:Meta 前 Facebook 首席执行官马克·扎克伯格 (Mark Zuckerberg) 有一个大胆的新计划,目的是为 Meta 拥有的产品增加一些吸引力,也就是将在每一个产品中都加入一些...
    日期:06-12
    谷歌称其超级计算机比英伟达的更快、更节能 4000,多个芯片串联而成
    IT之家 4 月 5 日消息,Alphabet Inc.旗下谷歌公司周二公布了其用于训练人工智能模型的超级计算机的新细节,称这些系统比英伟达的同类系统更快更省电。谷歌自主设计了一种名为...
    日期:10-04