您的位置:首页 > 互联网

为什么斯坦福大学生要抄袭中国大模型?_斯坦福大学模式

发布时间:2024-06-05 15:31:40  来源:互联网     背景:

声明:本文来自于微信公众号 吴晓波频道(ID:wuxiaobopd),作者:巴九灵,授权转载发布。

“他们会设法复制一切,却无法复制我的思想,我让他们辛苦偷窃,却永远落后我一年半载。”——Rudyard Kipling(印度作家)

美国大模型抄袭了中国?

6月初,一些眼尖的网友发现,一个来自美国斯坦福大学的AI团队于5月29日发布了一款名为Llama3V的大模型,号称只要500美元就能训练出一个 SOTA多模态模型,且效果比肩OpenAI的GPT-4V、谷歌DeepMind开发的Gemini Ultra与Anthropic目前能力最强的模型Claude Opus。

然而,经过网友仔细查验,这款大模型疑似抄袭、“套壳”一家由中国大模型公司面壁智能的开源成果——MiniCPM-Llama3-V2.5,后者是在5月中旬发布的。

所谓“套壳”,深度科技研究院院长张孝荣对小巴解释道:“通常是指在不改变核心算法和架构的情况下,对模型进行一些表面的调整或包装,并声称是原创。”

FutureLabs未来实验室首席专家胡延平进一步科普表示:模型开源本身就意味着开放给他人使用,可以说所有基于开源大模型的微调等二次开发都是在套壳。

区别在于,是明确声称基于别人的开源大模型来做——一个比较流行的规范做法是明示:同时感谢或致敬。

但很多只眼睛看了又看斯坦福团队的Llama3V后发现,并没有相关标识。

据雷锋网的观察,一开始,由于这款产品的主创团队有斯坦福背景,又集齐了特斯拉、SpaceX、亚马逊与牛津大学等机构的相关经历,因此模型发布后备受瞩目。

发现不对劲后,6月2日,网友试图在Llama3V的Github项目下抛出事实性质疑,但很快被Llama3V的团队删除,网友被这种不坦诚的举动激怒,开始在论坛公开曝光,并提醒面壁智能团队“打假”。

火山引擎股票

被抄袭方面壁智能是一家已完成数亿元融资的国内知名创业公司,拥有100多名研发人员,其中80%来自清华北大。

6月2日,面壁智能团队深夜回应,MiniCPM-Llama3-V2.5曾被用于识别清华大学藏战国竹简(后简称“清华简”)上的战国古文字,团队花费数月在清华简上逐字扫描并人工标注,且从未对外公开。

然而,测试后团队发现,斯坦福的模型不仅能识别出“清华简”中的战国古文字,而且连错误的识别结果都与MiniCPM模型完全一致,由此坐实抄袭。

斯坦福大学是为了纪念谁

消息传到国内,一石激起千层浪。

卧龙抄袭了凤雏?

这次的抄袭事件之所以备受瞩目,在于事件主角的特殊性:斯坦福大学和清华大学,以及一些“意外感”加持——是美国团队抄袭了中国团队(细想反而有些心酸)。

根据AMiner发布的《全球十个大模型核心团队成员分析报告》,十款全球著名的大模型GPT、Gemini、Claude、GLM、LLaMA、Qwen、Falcon、PaLM、BERT、T5的全部核心成员中,大都经过加州大学系统和斯坦福大学培养,而清华大学是其中唯一一所上榜的中国高校。

*小巴注:加州大学不是一所大学,而是由加州的公立大学所组成的大学系统,分别位于加州不同的市,但十所不同的分校大多都有名。

斯坦福大学模式

此外,熟悉大模型行业的有心人会发现,国内大模型的公司介绍里,往往会强调:公司的七成到九成都是研发人员,而必要时,他们还会写上清华创始团队。

甚至在斯坦福自己发布的《2024年人工智能指数报告》中,在讨论全球AI模型时,清华大学成为被提及为非西方机构中发布基础模型数量最多的学术机构之一。

由此,这次事件似乎发展成了“美国卧龙抄袭了中国凤雏”的走向,引发热议也就不足为奇了。

每年京东双十一苹果手机优惠活动

但从身份上细看,两个团队却有明显差距。

6月2日,斯坦福团队其中一名成员Aksh Garg(加格)在社交平台X上正式道歉,并对本次事件公开道歉,并进行了解释,他的推文称之所以会如此,主要是他们“信错了猪队友”。

据其原文,抄袭团队共有三位美国年轻人,Siddharth Sharma(夏尔马)、Aksh Garg(加格)、Mustafa Aljadery(阿尔贾德里)。

夏尔马和加格是斯坦福大学本科生,主要负责Llama3-V模型的宣传推广。阿尔贾德里是毕业于南加州大学的年轻创业者,主要负责Llama3-V模型的代码开发。在Llama3-V模型开发过程中,阿尔贾德里为了快速出名,抄袭了来自中国的MiniCPM-Llama3-V2.5大模型。

我们翻了翻另一位成员夏尔马以往的推文,如其所言,他确实是一位技术圈的KOL(意见领袖),给很多产品做过宣传,不只是Llama3-V。

因此事件的实质,是南加州大学背景的人抄袭了清华背景的大模型。

斯坦福大学研发的pi

而面壁智能一边,他的联合创始人兼首席科学家是刘知远。

据官网介绍,刘知远在人工智能领域著名国际期刊和会议发表相关论文200余篇,Google Scholar统计引用超过3.1万次,曾获教育部自然科学一等奖。

他的老师孙茂松的头衔更长——欧洲人文和自然科学院外籍院士,国际计算语言学协会会士,中国人工智能学会会士,中国中文信息学会会士,清华大学计算机科学与技术系长聘教授、博士生导师——同时也是桃李满天下,包括刘知远在内的三个学生同时都是国内知名AI创业公司的成员。

实际上,出自明星团队的面壁MiniCPM-Llama3-V2.5大模型在中国AI界颇有知名度,但大部分美国人并不知道。

界面报道中就提到,针对此事,谷歌DeepMind研究员Lucas Beyer在点评此事时说,有同样表现的MiniCPM-Llama3-V2.5得到了太少的关注,而这似乎仅仅因为这个模型不是来自一所“美国常青藤名校”。

因此,事件最终发展成了一场闹剧——一些有斯坦福大学和加州大学背景的草台班子,利用中美之间的信息差,抄袭了中国尖端研究团队的作品。

红米note11预计售价

当事人刘知远,在斯坦福团队道歉后的一天,在知乎感慨道:

人工智能的飞速发展离不开全球算法、数据与模型的开源共享,让人们始终可以站在SOTA的肩上持续前进。我们这次开源的 MiniCPM-Llama3-V2.5就用到了最新的Llama3作为语言模型基座。

而开源共享的基石是对开源协议的遵守,对其他贡献者的信任,对前人成果的尊重和致敬,Llama3-V团队无疑严重破坏了这一点。他们在受到质疑后已在Huggingface删库,该团队三人中的两位也只是斯坦福大学本科生,未来还有很长的路,如果知错能改,善莫大焉。

“你中有我,我中有你”

梳理完事件的来龙去脉,大家或许会感慨,事情的真相,似乎与人们看到新闻时,第一时间脑补的“中国清华系与美国斯坦福系的PK大赛”“中国的大模型崛起了”剧情走向有着很大的距离。

但情绪的落差也未必真有这么大。

胡延平就认为,这件事之所以引起广泛关注,主要在于“反向抄袭”这类情况比较少见。以往国内AI团队基于国外开源大模型来开发的比较多,国外团队使用国内大模型来开发的很少见。说明国产大模型虽然整体落后,但局部也有可圈可点之处。

比胡延平更有信心的专家则表达了不同的看法。

一位业内人士在看完这个事件后就对小巴感叹:“单就大语言模型来说,我一直相信中美差距会缩小,但美国会出新东西。而这个事情,确实可以说明中美在大语言模型上的差距正在缩小,技术层面上至少可以证明你中有我、我中有你。”

张孝荣也表示,斯坦福团队抄袭中国团队的行为确实可以反映出中国团队在大模型应用开发领域,处于基本与美国相当的水平。

不过,此事件另一个值得留意的地方,是本次事件中作为“发现者”“曝光者”以及“提醒者”的有心网友。

如果没有他们对于新大模型产品的严格审查,第一时间的质疑与提醒,这件事恐怕也很难从一个小众的领域里这么快破圈而出。

“只要眼睛多,bug容易捉。”这是1999年出版的《大教堂与集市》一书中的一句话,也是本书的核心奥义。

这个书名人文气息浓郁的作品,被称作互联网开源运动的“圣经”。

作者Eric S·Raymond埃里克·雷蒙在二十多年前,倡议用“集市”模式开放源代码,鼓励全球的软件开发者一起参与开发软件,从而取代过去大公司闭门造车的“大教堂”模式。

换言之,是成千上万的臭皮匠能顶一个诸葛亮。

他的预言成了我们的现实,他的理念是我们习以为常的价值观——如今人们所使用的所有软件、网络、操作系统无一不是开源下发展而来的产品。

开源贯穿互联网发展的始终,也延绵到了人工智能时代,幸好,雷蒙的“眼睛多”定律,不止有助于发现bug,也有助于发现抄袭。

这次事件,在某种程度上也让我们再次感受到了来自互联网开放精神的魅力,从某种意义上来说,这个斯坦福团队犯得最大的错,在于他们利用了互联网的开放性,却忽略了开放性的另一个重要特点:全民监督。

事后,就有网友疑惑评论:“难道他们不怕被发现么?”

吉利科技无人机

也许,再开放的世界,也敌不过一个自我封闭的大脑和视野。


返回网站首页

本文评论
数据显示:Linux 桌面用户占比份额首次超过 3%_linux哪个桌面占内存小
7月12日 消息:根据 Statcounter 的数据显示,Linux 在桌面用户中的份额首次超过了3%。虽然这个数据可能会有所出入,但从他们的统计趋势来看,Linux 的使用率在过去几年里一直在缓...
日期:07-12
高通新ceo「高通董事长孟樸:科技创新与生态合作激发向“新”力」
通信世界网消息(CWW)当前,中国提出加快形成新质生产力,为新型工业化等战略的实施增强了发展新动能。有行业人士与我讨论什么是新质生产力;也有记者问我,高通将如何助力新质生产力,...
日期:05-15
鸿海董事长刘扬伟:鸿海将通过投资并购扩大元宇宙布局
3月20日消息:据中国台湾经济日报报道,鸿海董事长刘扬伟表示,鸿海将投资并购AR眼镜供应商佐臻,以加强在AR、VR、MR领域的业务。他说,鸿海已经初步建立了元宇宙的平台、软件和硬件...
日期:03-24
OpenAI 年收入超160亿元,两月增长五成_openjaw待遇
12月31日 消息:据The Information报道,OpenAI 的聊天机器人 ChatGPT 付费用户数量快速增长,使其年化收入在两个月内从130亿元飙升至超过160亿元,同比增长超过57倍。数据显示,Cha...
日期:12-31
科学家从“天外来物”陨石中 发现了地球上从未见过的两种新矿物质
陨石来自地外,这种天然神秘的属性,自然引得科学家们去一探究竟。据报道,在索马里埃尔阿里(El Ali)镇附近发现并得名El Ali的巨大陨石中,新发现了两种地球上从未见过的矿物质。El A...
日期:12-02
八位堂zero2手柄使用说明「半透明充电鞍,八位堂燃云 Xbox 单充底座优雅上市」
八位堂官方宣布燃云Xbox单充底座 12 月 1 日上午 10 点正式发售,售价 139 元,首发价 99 元。八位堂小程序、天猫、京东、拼多多、抖音将同步开售。这是八位堂在品牌成立十周年...
日期:12-01
i茅台APP累计注册人数近2500万人
9 月 29 日消息,i茅台官方发布消息称,i茅台APP上线半年,收获了一份亮眼的成绩单。截至目前,i茅台累计注册人数近 2500 万人,酒类产品的总投放量近 900 万瓶,茅台冰淇淋线上销售近...
日期:09-30
索尼 WH-1000XM4 体验:充电 10 分钟播放 5 小时,降噪依旧强(sony wh1000xm4充电多久)
  标志性设计和经典的黑金配色,还有与上一代同款的 QN1 芯片和 40mm 单元,以及索尼手上为人所熟悉的 DSEE HX,这些都是 WH-1000XM3 身上的核心配置和技术。   如今,WH-100...
日期:07-15
「小米平板 SE 11寸金属平板曝光 「待机73.2天」」「小米平板21511」
来源:中关村在线赞麦源选怎么样国美真快乐最新资讯Redmi Note 13 Pro系列和全新平板Redmi Pad SE将在9月21日正式发布。据官方预热海报显示, Redmi Pad SE与前代产品相似,采...
日期:09-15
史上第一次 美国要强制规定航空公司取消或者延误时现金赔偿旅客
快科技5月9日消息,坐飞机出行遇到航班延误甚至取消都是家常便饭,如果不是非常严重的情况,航空公司可能不会赔偿用户多少,但是美国计划改变规定,史上第一次强制要求航空公司做出赔...
日期:05-09
报告显示:尽管AI工具普及,人工写作需求依旧旺盛
区块链存证认可.飞洛印redmi10x多少w快充...
日期:10-19
2019“科学探索奖”颁奖典礼在京举行,50位获奖青年科学家集体亮相
  11月2日,2019年“科学探索奖”颁奖典礼在北京隆重举行,奖励来自9大领域的50位获奖青年科学家,激励他们鼓足干劲,继续攀登科学的珠穆朗玛峰。   资料显示,去年腾讯公司成...
日期:09-08
雷军:小米汽车性能堪比两百万油车 小米汽车AI人工智能应用有哪些?
近日,雷军接受央视采访时再度回应小米汽车售价。雷军表示,小米汽车相当于传统燃油车两三百万元豪车的性能,配置非常强,成本也是非常之高的。大家喊的9. 9 万元、14. 9 万元甚至1...
日期:01-22
为什么雷克萨斯好多车型,不进中国?「中国人,该拒绝雷克萨斯了」
出品丨虎嗅汽车组作者丨李文博编辑丨周到头图丨视频截图一台落地价近200万元人民币的汽车,要具备哪些素质?首先,品牌得是顶级,大路货色不够看,小众稀奇才入门。其次,底蕴务必厚重,...
日期:09-07
蔚来将在1-2年内自研并量产自动驾驶芯片「蔚来自动驾驶研发」
蔚来汽车科技副总裁白剑在微博上表示,蔚来汽车将能够在1到2年内量产其自主开发的自动驾驶(AD)芯片。iphone12摄像头供应商钓鱼网站犯法吗白剑指出,自推出蔚来技术平台1.0(NT1)以来...
日期:08-17
京东皮肤医院好吗「京东健康皮肤医院正式上线」
4月23日消息,昨日,京东健康宣布上线的皮肤医院,探索专科互联网医院的全新模式,并与十余家品牌机构联合成立了“皮肤健康生态联盟”。据京东健康介绍,目前,京东健康皮肤医院已邀请...
日期:04-23
流量王wifi是真的吗「王婆说媒爆火的流量密码是什么 网友:真诚」
3月27日消息,据国内多家媒体报道,王婆是古典小说《水浒传》中的人物,而在现实世界里,开封市万岁山武侠城也有一位王婆”,她的扮演者是赵梅老师,近期走红网络。applewatch发售价王...
日期:03-28
刚刚,浦发硅谷银行紧急回应!美团发声:没放存款!破产风暴直击硅谷,最黑暗一天?币圈惊魂一跳,发生了啥?
硅谷银行突然倒闭,正在引发一系列多米诺效应。短短48小时,美国硅谷银行(SVB)火速倒闭,成为了美国金融业自2008年以来最大的倒闭案,造成的冲击波正在广泛蔓延。首当其冲的便是处于...
日期:03-13
黑熊爬上高压电塔触电死亡 电力供应已恢复正常
广西钦州市那彭镇近日发生一起熊被电死的事件,引发广泛关注。据了解,7日上午,当地供电出现跳闸情况,电力工人检查电路时发现一头熊仰面倒在高压电塔附近。工作人员表示,熊是被电...
日期:01-08
红米Note 11R上架!天玑芯片配直屏「note11天玑920」
中关村在线消息:9月29日,据相关爆料,红米即将明日正式发布红米Note11 R,发售时间为明日上午十点整,售价暂未公布,预计售价不会超过1999元,产品定位为高刷屏长续航,5G小金刚,新机主打...
日期:10-02