您的位置:首页 > 互联网

谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议_google deepmind

发布时间:2024-07-15 20:12:16  来源:互联网     背景:

声明:本文来自于微信公众号量子位(ID:QbitAI),作者:量子位,授权转载发布。

大模型圈再曝抄袭大瓜,这回,“被告”还是大名鼎鼎的谷歌DeepMind。

twitter怎么认证蓝v

“原告”直接怒喷:他们就是把我们的技术报告洗了一遍!

具体是这么个事儿:

谷歌DeepMind一篇中了顶流新生代会议CoLM2024的论文被挂了,瓜主直指其抄袭了一年前就挂在arXiv上的一项研究。开源的那种。

两篇论文探讨的都是一种规范模型文本生成结构的方法。

抓马的是,谷歌DeepMind这篇论文中确实明晃晃写着引用了“原告”的论文。

然鹅,即便是标明了引用,“原告”的两位论文作者Brandon T. Willard(布兰登)和R´emi Louf(雷米)还是坚称谷歌抄袭,并认为:

谷歌对两者差异性的表述“简直荒谬”。

而不少网友看过论文后也缓缓打出一个问号:CoLM是怎么审的稿?

唯一区别是换了概念?

赶紧瞅一眼论文对比……

两篇论文的比较

先浅看一眼两篇论文的摘要对比。

谷歌DeepMind的论文说的是,tokenization给约束语言模型输出带来了麻烦,他们引入自动机理论来解决这些问题,核心是避免在每个解码步骤遍历所有逻辑值(logits)。

该方法只需要访问每个token的解码逻辑值,计算与语言模型的大小无关,高效且易用于几乎所有语言模型架构。

谷歌deepdream

而“原告”的说法大致是:

提出了一个高效框架,通过在语言模型的词汇表上构建索引,来大幅提升约束文本生成的效率。简单来说,就是通过索引避免对全部逻辑值的遍历。

同样“不依赖于具体模型”。

方向上确实大差不差,我们还是接着来看看更多详细内容。

我们用谷歌Gemini1.5Pro分别总结了两篇论文的主要内容,并接着让Gemini来比较两者的异同。

对于“被告”谷歌这篇论文,Gemini总结其方法是将detokenization重新定义为有限状态转换器(FST)操作。

谷歌员工离职率

将此FST与表示目标形式语言的自动机组合,这种自动机可以用正则表达式或语法来表示。

通过以上结合,生成一个基于token的自动机,用于在解码过程中约束语言模型,确保其输出的文本符合预设的形式语言规范。

此外,谷歌论文中还进行了一系列正则表达式扩展,这些扩展通过使用特别命名的捕获组来编写,显著提升了系统处理文本时的效率和表达能力。

而对于“原告”论文,Gemini总结其方法的核心是将文本生成问题重新定义为有限状态机(FSM)之间的转换。

“原告”的具体方法是:

  • 利用正则表达式或上下文无关文法构建FSM,并将其用于指导文本生成过程。

  • 通过构建词汇表索引,高效地确定每个步骤中的有效词,避免遍历整个词汇表。

Gemini列出了两篇论文的共同点。

至于两者的区别,有点像前头那位网友说的,简单总结就是:谷歌将词汇表定义为了一个FST。

前面也说到了,谷歌在“Related work”中将原告论文列为“最相关”的一项工作:

最相关的研究是Outlines(Willard&Louf,2023),该研究同样采用有限状态自动机(FSA)和下推自动机(PDA)作为约束手段——我们的方法是在2023年初独立开发的。

谷歌认为两者的差异在于,Outlines的方法基于一种特制的“索引”操作,需要手动扩展到新的应用场景。相比之下,谷歌使用自动机理论彻底重新定义了整个过程,使得应用FSA和泛化到PDA变得更加容易。

另一个区别是,谷歌定义了扩展以支持通配符匹配,并提高了可用性。

三星s6+edge参数

谷歌紧接着在介绍下面的两项相关工作中,也都提到了Outlines。

一项是Yin等人(2024年)通过增加“压缩”文本段到预填充的功能,扩展了Outlines。

另一项是Ugare等人(2024年)近期提出的一个系统,名为SynCode。它也利用FSA,但采用LALR和LR解析器而非PDA处理语法。

与Outlines类似,该方法依赖于定制算法。

但吃瓜群众们显然不是很买账:

CoLM的评审们应该注意。我不认为这看上去是各自独立的“同期工作”。

网友:这事儿不罕见…

这件事一发酵,不少网友都怒了,抄袭可耻,更何况“科技巨头剽窃小团队的工作成果不是第一次了”。

顺便一提,布兰登和雷米发布原告论文的时候都在给Normal Computing远程工作,这家AI Infra公司成立于2022年。

哦对了,Normal Computing的创始团队有一部分就来自Google Brain……

另外,布兰登和雷米现在合伙出来创业了,新公司名叫.txt,官网信息显示,其目标是提供快速可靠的信息提取模型。并且官网挂出的GitHub主页,就是Outlines仓库。

说回到网友这边,更让大家伙儿生气的是,“这种情况已经变得普遍”。

一位来自荷兰代尔夫特理工大学的博士后分享了自己的遭遇:

去年10月我们完成了一项工作,最近有篇已被接收的论文采用了相同的思路和概念,但甚至没有引用我们的论文。

还有一位美国东北大学的老哥更惨,这种情况他遭遇过两次,下手的还都是同一个组。并且对面那位第一作者还给他的GitHub加过星标……

不过,也有网友表达了不同的意见:

如果说发个博客文章或未经评估的预印本论文就算占坑了,那人人都会占坑,不是吗?

对此,雷米怒怼:

好家伙,发布预印本论文并开源代码 = 占坑;

写篇数学论文,甚至不需要任何伪代码 = 好工作???

布兰登老哥也表示yue了:

开源代码并撰写相关论文是“占坑”,复制别人的工作却说“我更早有了这个想法”且投稿了会议反而不是啦?真恶心。

瓜就先吃到这里,对此你有什么想法?不妨在评论区继续讨论~

两篇论文戳这里:

谷歌DeepMind论文:https://arxiv.org/abs/2407.08103v1

原告论文:https://arxiv.org/abs/2307.09702

参考链接:

[1]https://x.com/remilouf/status/1812164616362832287?s=46

[2]https://x.com/karan4d/status/1812172329268699467?s=46

[3]https://x.com/brandontwillard/status/1812163165767053772?s=46


返回网站首页

本文评论
小米内置esim卡「无需实体SIM卡 小米海外推eSIM机型」
据消息显示,本周,小米在海外市场推出了首款eSIM机型,小米12T Pro国际版,可以在不少欧洲国家使用。谈起eSIM,一些朋友并不陌生,现在市面上已经有不少支持eSIM的智能手表,也就是空中...
日期:10-15
渔民放生300斤海龟后收获3000斤鲳鱼:这是海龟带来的好运_海龟 放生
9月20日消息,据媒体报道,浙江渔民在象山县南韭山海域捕鱼时,捕捞到了一只约1.6米长、150多公斤重的棱皮龟。看到网里进了大龟,他赶紧剪破渔网把它放生。幸运的是,那天放了海龟后,...
日期:09-21
Ubuntu 21.10开发版本已经开放下载_Ubuntu 21.10 将于 10 月 14 日发布,代号“顽皮的狐猴”
  7 月 7 日消息 Ubuntu 官网昨晚公布了 Ubuntu 21.10 的发布日期和计划功能,该版本将于 10 月 14 日发布,每日版本已可进行早期体验。   Ubuntu 21.10 代号为“Impish...
日期:03-20
手机行业发展史「曾经无比辉煌的手机行业,衰败都是因为它们太过于贪婪!」
曾几何时,国产手机凭借着低廉的价格和联发科的turnkey方案,一度逼得外资手机品牌节节败退。然而,随着时间的推移,国产手机的贪婪让其逐渐失去了优势,如今却让外资手机品牌稳住了...
日期:07-24
特斯拉Cybertruck儿童车4月23日发售:LED大灯、续航19公里_特斯拉小孩车
快科技4月19日消息,特斯拉儿童版Cybertruck即将于4月23日10:00正式登陆中国市场,为6至12岁的孩子们带来前所未有的科技驾驶体验。这款儿童车完美继承了特斯拉Cybertruck皮卡的...
日期:04-19
长城,还是搞不懂互联网_长城是什么网络
长城在营销上的改变是有整体性的。即都在向互联网化、网红化、年轻化、以及女性化的方向努力。很多言论确实出圈了,但也很容易引起争议。作者|杨知潮编辑|原 野长城的市场存...
日期:05-27
黄仁勋持有英伟达多少股份「NVIDIA业绩不给力 黄仁勋年收入锐减!仅员工中位值的94倍」
快科技5月11日讯,因为2023财年(截止1月29日)NVIDIA的收入未达预期,黄仁勋的年薪比前一年锐减10%。这个预期是公司会薪酬委员会设计的,高管只有在达到业绩目标后才能获得对应奖励...
日期:05-12
"比稀土更珍贵的钴矿:为何中国卖给美日两国?"
在当今世界,稀有矿产资源的重要性越发凸显,而其中尤为引人注目的是钴矿。这一矿物不仅在电动车、无人机和智能手机等高科技产品中发挥着关键作用,还被誉为代表未来能源革命的基...
日期:09-22
调查发现许多美国司机将部分自动驾驶汽车视为全自动「自动驾驶美国公司」
一项新的研究发现,使用特斯拉自动驾驶仪或通用汽车超级巡航等高级驾驶辅助系统的司机,尽管有警告,但往往把他们的车辆当作完全自动驾驶来使用。高速公路安全保险协会(IIHS)是一个...
日期:10-18
iphone16系列开始抢先曝光已试产多款原型机 苹果,iPhone 16 真机实锤了
来源:中关村在线小米 note 12根据内部消息,苹果的iPhone 16标准版机型正在设计开发的早期阶段。这些工作由工程师团队负责,并被命名为“DeLorean”。这意味着最终零售版的产品...
日期:12-13
魅族Q3出货量同比提升218%:增速全行业第一_魅族2021年
快科技11月30日消息,魅族21系列发布会今天下午正式举行,本次发布会将会推出年度旗舰魅族21系列,包含魅族21和魅族21 PRO至少两款机型。在新品发布会上,沈子瑜宣布,魅族2023年Q3出...
日期:12-01
小米称造车不影响运营 雷军曾表态要做世界前五:出货量超1000万_小米到底造不造车
11月23日下午小米发布了Q3季度财报,营收704.7亿元,预估701.6亿元,同比下滑9.7%;净亏损15亿元,去年同期为盈利7.88亿元;经调整后净利润为21亿元,同比下滑59.1%。在这个季度中,小米的...
日期:12-04
用AI陪玩家玩《我的世界》,华人AI创业者融资千万美金_我的世界陪玩多少钱
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:张凯然,授权转载发布。苹果电子邮箱登录入口官网网址近日,由华人 Robert Yang 创立的 AI 创企 Altera 推出了一个可以...
日期:05-11
拼多多店铺怎么运营才能有订单呢?有啥运营方法_拼多多商家如何运营
拼多多店铺怎么运营才能有订单呢.要使拼多多店铺产生订单,可以采取以下措施:爱彼迎联合创始人加入特斯拉董事会了吗3an推客是给商家提供的营销工具,3an推客其中有一种推广模式...
日期:04-02
年轻人给芒果核梳毛被指不务正业 回应:和大学生养狗没啥区别_芒果核有用吗?
近日,社交平台上出现了一种新奇的养芒果核的潮流。年轻人们在小红书 APP 上晒出了自己养芒果核的经历,并分享了晾干后毛茸茸的特性,让他们感受到了养宠物的快乐。北京早教机构...
日期:07-21
Twitter遭遇专利流氓:或被迫缴纳授权费
腾讯科技讯(万学)北京时间6月4日消息,据国外媒体报道,一家印度软件公司向美国微博网站Twitter发出了警告通知,称其可能侵犯了其正在美国申请并被美国专利及商标局(USPTO)受理的专...
日期:07-28
美国将首次试飞“太空发射系统”_美国航天火箭发射
来源:中国科学报 淘宝大数据违规1more高清降噪圈铁蓝牙耳机哈弗h9是国六b吗10颗立方体卫星。图片来源:CORY HUSTON/NASA   本报讯 8月底,美国宇航局(NASA)有史以来最强大的运载...
日期:08-21
斯坦福大学的研究人员推出Spellburst 可简化艺术创意转化为代码的过程
9月18日 消息:生成艺术家通常使用编程语言或AI文本到图像工具来将表达性语义转化为代码,以创建抽象的图案或超现实的景观。然而,编写艺术作品是一个耗时复杂的过程,而且通常需...
日期:09-18
苹果员工需1400余年:才能挣得CEO库克年薪_苹果ceo库克的年薪
快科技11月26日消息,近日,市场调查机构Switch on Business发布了企业CEO与员工薪酬差距报告,报告显示苹果CEO库克的年薪为员工平均年薪的1446.6倍。什么概念呢?这也就意味着,即便...
日期:11-27
诺基亚贝尔与高通携手首次实现基于商用芯片的端到端5G 10Gbps下行传输速率
通信世界网消息(CWW)在IMT-2020(5G)推进组的组织下,近日,诺基亚贝尔和高通技术公司宣布,为支持5G-Advanced超高速场景需求,双方成功在外场环境利用商用芯片组,采用5G空口双连接技术...
日期:10-19