您的位置:首页 > 互联网

首个AI软件工程师震撼硅谷!手握10块IOI金牌,他们铁了心砸掉程序员饭碗

发布时间:2024-03-13 21:20:23  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:量子位 ,授权转载发布。

一觉醒来,程序员怕是真要失业了。

首个AI软件工程师一亮相,直接引爆整个科技圈。只需一句指令,它可端到端地处理整个开发项目。

在SWE-bench基准测试中,它无需人类帮助,可解决13.86%的问题。

相比之下,GPT-4只能处理1.74%的问题,且都需要人类提示告知处理哪些文件。

可以说,它远远超过了此前所有AI大模型。

从零构建网站、自主查找并修复Bug、甚至是训练和微调自己的AI模型通通都不在话下~也可为一些成熟的代码库做贡献。

就是一些不熟悉的技术,给它看一篇博客文章。它也能立马搞定。

比如用ControlNet,生成带有隐藏文字的图像,Devin就是一点就通~

据介绍,它已经成功通过一家AI公司面试,并且在Upwork上完成了实际工作。

而这背后的公司Cognition,虽然是初创公司,但小而精悍。

在招人信息中明晃晃写着:我们有10个IOI金牌得主。

让同行们直呼:哦莫,疯了吧~

目前Devin尚未公测,不过已经有少部分人拿到了资格,开始实测了一波……

首个AI软件工程师亮相

Devin被介绍为世界首个完全自主的AI软件工程师。

它在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。

在这之中,进行到任何一步它都可以回调所有相关的上下文信息,保证整体逻辑性,并方便随时校正错误。

既然是一个端到端AI,软件开发人员常用的工具,比如shell、代码编辑器和浏览器等等,Devin也都配备(沙盒计算环境中),主打一个全方位服务。

最终的Devin,让人类只需要发号施令,其他什么也不用做。

具体来看,其主要能力有以下六个:

1、端到端构建和部署程序

Devin可以帮我们解决的不只有是代码,还包括与之相关的整个工作流。

比如,当我们需要设计一个网页游戏时,Devin不仅能生成网页,还能直接完成服务端的部署,然后直接发布上线,省去了中间的人工操作。

只需要告诉Devin,我们想做一个个人网站,里面运行一个Devin定制版的生命游戏。

然后Devin表示自己会先搭建网站的基本架构,并询问了有没有更具体的需求。

在明确要求之后,Devin给出了这样一份任务清单:

  • 创建React应用,安装UI模块等依赖

  • 用React和UI模组搭建前端环境

  • 部署服务器并确保其在私有IP下运行

  • 通过CDN向首页添加p5.js库

  • 在React中部署并验证游戏的功能和资源是否正确配置

接着,Devin就会按照自己设计的这个清单开始编写代码,然后部署服务……

△Devin部署后端服务器的过程

最终完成全部工作之后,一个即点即玩的游戏链接就呈现在了我们面前。

2、自主查找并修复bug

不仅能一气呵成完成开发部署,Devin的debug能力也是一流。

开发者给Devin一个GitHub链接,让它先熟悉项目情况,然后一会儿要准备数据进行测试。

接着,Devin就会按部就班地编写测试用的程序并准备好有关数据,然后运行。

结果,在开发者已经发布的完整项目之中,Devin还真的找到了连开发者自己都没有发现的漏洞。

发现漏洞之后,Devin会回溯报错出现的位置及对应的数据,然后分析原因并给出解决方案。

最终经过调试,程序的bug被成功修复,完美通过了测试。

3、训练和微调自己的AI模型

除了这些一般的程序或项目,作为一个全能型AI助手,Devin还有能力帮助人类训练和微调其他AI。

对于一些常见的模型(比如示例中的Llama),用户只需要在promot中提及模型的名称,Devin就直接知道要训练哪个模型。

而在这个示例中,微调的具体方法(QLoRA)是以GitHub链接的形式输入给Devin的。

接到指令后,Devin还是像处理平常的程序一样边规划边执行,所需环境和依赖,还有模型本体,都会自动下载安装。

这些准备都完成之后,微调工作就会有条不紊地进行,而且其中的状态可以实时监控。

4、修复开源库

Devin的能力不仅在于开发者自己本身的项目,开源社区里的,它也能hold住。

比如我们只需要把GitHub项目的issue链接丢给Devin,它就能立即完成所需的所有配置,并自动收集上下文信息,然后开始解决问题。

当然,开源项目的功能请求(feature request)也没问题,和修问题的流程一样,自己搞好配置,收集上下文,然后就开始编码。

5、成熟的生产库也能做贡献

还没完,业已成熟的生产库,Devin也能给咱秀一把。

官方介绍,sympy Python代数系统中有一个对数计算的错误,就被Devin顺利解决:

配置环境、重现bug,自行编码并修复、测试,再次一气呵成。

△就是这个库

6、不熟的技术,现学现卖

最后,遇到自己不会的技能,Devin可以直接现学,并迅速付诸应用。

把你新刷到的技术文章链接直接丢给Devin:

Hi Devin!我在这个博客文章中(附网址)发现,可以生成带有隐藏文本的图像。文中提到了一个脚本,你能配置好它,然后为我真的生成一些图片吗?

Ps. 就是利用ControlNet来做这件事。

Devin接到请求后,首先询问了更为详细的需求,然后开始阅读博客文章,并像平常一样规划出了行动方案。

有了详细的行动方案后,它立刻就在数分钟内进行代码编写和调试。

同样的,在这里遇到bug也不用惊慌,Devin同样有能力直接进行修复。

完成工具的搭建后,Devin也没有劳烦人类自行配置使用,而是一气呵成,最终生成了咱们要的带隐藏文字的图像:

可以说表现相当令人惊艳。

而在具体测试中,Devin取得的成绩同样亮眼。

在评估Devin的表现时,团队没有使用常见的HumanEval,而是用了更具挑战性的SWE-bench。

这个数据集是由GitHub中的实际问题组成的,Devin不借助任何辅助,就取得了13.86%的最高解决率。

而同样在无辅助的条件下,GPT-4的问题解决率为零,此前的最佳水平是1.96%,加入辅助也才4.8%。

公司人均一块IOI金牌

如此炸天的新成果,背后却是一家名不见经传的初创公司。

但这种“名不见经传”背后,实际是一个10人员工的编程天才团队,IOI金牌就有10块…人均一块。

Devin背后公司名为Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的应用AI实验室。

此前这家公司一直秘密工作,于两个月前正式注册成立。

目前该团队规模仅有10人,但共揽获了10枚IOI金牌,创始成员均曾在Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro等从事AI前沿工作。

据悉,Cognition AI由Scott Wu、Steven Hao、WaldenYan创立。

联合创始人兼CEO Scott Wu,根据我们目前搜到的资料,Scott Wu曾就读于哈佛大学,曾是Lunchclub的联合创始人兼CTO。

亦庄刘强东别墅

曾连续三年揽获IOI金牌:

联合创始人兼CTO Steven Hao,毕业于MIT计算机专业,之前曾在Scale AI、Jane Street、DE Shaw、Quora工作。

也曾是IOI金牌得主:

联合创始人兼CPO Walden,曾于哈佛大学攻读计算机科学和经济学相关专业,还曾从事MIT PRIMES密码学和机器学习方向的计算机科学研究,还是沃顿商学院高中投资大赛北美地区决赛入围者。

2020年第32届IOI金牌得主:

据X推文的转发顺藤摸瓜,还有一位创始成员被扒了出来。

Neal Wu,同样有哈佛大学教育经历,曾在tryramp、GoogleBrain工作过。

整个团队长期目标,意在通过解决推理问题,在广泛的学科领域解锁新的可能性,而“代码仅仅是开始”。

不过对于Devin,目前他们尚未透露是如何实现这一壮举的,包括到底是使用自己的专有模型还是第三方模型。

此外,Cognition AI目前已获得硅谷投资大佬彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。

众所周知,彼得蒂尔以挖掘这种极具突破性的创新项目著称,而且哈佛背景的创业者更是和他渊源紧密。

上一个他早期投资中类似背景,最知名的是扎克伯格和Facebook。

“自动化软件工程与自动驾驶类似”

Devin一亮相,让不少工程师大惊失色:软件工程师…要失业了???

不过也有人依然乐观:终于有AI让我们从繁重的编程任务中解脱出来。

前特斯拉AI总监卡帕西倒是给了一颗定心丸。

自动化软件工程,目前看起来与自动化驾驶类似。

具体体现在发展进程上:首先人类手动编写代码,然后 GitHub Copilot 自动完成几行,再之后ChatGPT 编写代码块,现在就是Devin的出现。

接下来,他认为自动化软件工程会演变成为协调开发人员需要串联的许多工具一起编写代码:终端、浏览器、代码编辑器等。以及人类负责监督,逐渐转向更高级别工作。

结合卡帕西的经历和对自动驾驶的理解,他表达的更多是一种渐进式推进,即会有一段时间的人机共驾,然后在数据和迭代反馈后,才能实现完全无人驾驶。

自动化软件也类似,先低代码,然后零代码,最后完全不需要人写代码。

Perplexity AI CEO给出了个高度的肯定:这应该是任何Agent的第一个演示。

美股走低道指跌360点纳指

它似乎跨越了人类水平的门槛并且可靠地工作。它还告诉我们通过结合 LLM 和树搜索算法可以实现什么

德扑AI之父、前FAIR(Meta)研究科学家、现已加入OpenAI的Noam Brown转发开麦:

2024年是AI激动人心的一年。

所以,程序员们做好被解放的准备了吗?(Doge)

参考链接:

[1]https://twitter.com/cognition_labs/status/1767548763134964000/quotes

[2]https://waldenyan.com/

[3]https://twitter.com/itsandrewgao/status/1767628564432670904

[4]https://twitter.com/Lauramaywendel/status/1767588416730894756

[5]https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

—完—


返回网站首页

本文评论
首届算力互联互通大会成功举办,开启算力互联网新纪元「中国算力峰会」
通信世界网消息(CWW)2023年6月21日,由北京市通信管理局、中国信息通信研究院(以下简称“中国信通院”)、中国互联网协会、中国通信标准化协会主办的2023算力互联互通大会在京召开...
日期:06-22
小米提货卡0元拿家电是假的!网友分享骗子诈骗手段_小米商城线下提货
快科技10月31日消息,新型蟹卡”骗局还没技术,骗子又有新手段了。最近,很多网友表示收到小米提货卡”的快递,打开提货卡后发现,可0元领取电动牙刷、电饭煲、电水壶、微波炉等智能...
日期:11-01
提前复工生产!曙光紧急应援科技防“疫”战!
  随着新冠肺炎疫情在全国范围内的不断蔓延,防控形势愈发严峻。面对肆虐的疫情,用云计算、大数据等技术,实现疫情的精准排查,助力有效防控、精准施策非常关键,全国上下打响了...
日期:07-08
2023(第八届)世界物联网大会召开在即_世界物联网大会2020
2023(第八届)世界物联网大会召开在即 通信产业网|2023-10-09 16:32:59作者:通文来源:通信产业网【通信产业网讯】全球关注的2023(第八届)世界物联网大会即将于11月19日-21日在中国...
日期:10-12
groupon市值_Groupon三成收入来自海外 去年营收7.6亿美元
  北京时间2月26日凌晨消息,根据美国团购网站Groupon的一份内部备忘录显示,在2010年Groupon全年营业收入为7.6亿美元,与2009年的3300万美元相比翻了二十倍。在2010年的收入...
日期:07-26
特斯拉再建新工厂「特斯拉新工厂选址已有眉目:马斯克在这个国家早有部署」
全球电动汽车龙头特斯拉已开始游说加拿大安大略省政府,有意在该地区建立一个新的电动汽车工厂。p2p金融犯罪案例财联社8月9日讯(编辑 赵昊)综合多家外国科技媒体报道,全球电动汽...
日期:09-20
已在轨生活160多天 航天员费俊龙从太空发回对母亲的节日祝福「中国退役的航天员费俊龙」
今天是母亲节,很多人用各种方式给母亲发送了祝福,太空中的航天员也有自己的庆祝方式,费俊龙从太空发回对母亲的节日祝福。据苏州广播电台报道,苏州人费俊龙在太空中发来祝福,祝妈...
日期:05-15
为何经过40多年的发展关系型数据库依然是主流?OceanBase 2.2免费体验(oceanbase数据库开源吗)
  蚂蚁金服近期开展的 “共战‘疫情’,技术破局”数字课堂线上直播系列演讲我们将整理并发布在 “蚂蚁金服科技” 公众号上,欢迎关注。   今天将全面解读OceanBase 2.2版...
日期:08-22
马斯克的"读脑"设备首次植入人体,科学家期待什么?担忧什么?
2月4日消息,埃隆·马斯克(Elon Musk)创建的Neuralink旨在改变我们对脑机接口的认知,让科幻变成了现实。1月29日发布的消息中,马斯克宣布Neuralink已成功将其“读脑”设备首次植入...
日期:02-05
消息称谷歌将入局折叠屏手机市场,鸿海代工_折叠屏手机产业链
IT之家 8 月 8 日消息,据中国台湾地区经济日报报道,在三星即将推出新款折叠手机之际,消息称谷歌也将加入折叠手机市场,由鸿海代工,也让鸿海的智能手机制造延伸至折叠手机领域。an...
日期:09-11
喜茶联名奢侈品牌FENDI新品卖爆单!小程序抢崩 周边炒至百元「喜茶fenty beauty联名」
5月17日消息,今日,喜茶联名意大利奢侈品牌FENDI推出全新饮品FENDI喜悦黄,一杯售价19元,购买两杯即可赠送FENDI联名徽章或FENDI联名杯垫,有网友调侃年轻人的第一个FENDI产品?”动...
日期:05-17
董明珠首次回应孟羽童离职:网红不网红看人品质,人在格力还去外面接私活是不合规【附格力电器企业分析】
(图片来源:摄图网)网红秘书孟羽童已离职数月了,关于其离职原因引起了网友的猜测,其本人称,是因为自己准备读研究生。但董明珠一直没有正面回应此事。然而,11月6日,在接受《财经郎眼...
日期:11-09
oppo新款折叠屏「OPPO Find N3折叠屏包装盒曝光:更环保,设计语言保持一致」
OPPO推出首款可折叠手机OPPO Find N3 Flip, 预计很快将在中国市场推出 。近日, 一批OPPO Find N3手机的包装盒在网上泄露, 其整体采用灰色配色, 包装盒顶部写有“Find N3”...
日期:09-24
【全新】realme 真我gt neo 5g「16GB 1TB只需2599元!真我GT Neo5 SE首销」
真我手机官方今日宣布,真我GT Neo5 SE将于上午10点正式开售。此次首销,16GB 1TB版的到手价仅为2599元,这也是同档位中最实惠的1TB手机。顺丰保价与不保价坚果r1支持多少快充该...
日期:04-10
1月12日OPPO Find X7系列开售 京东手机小时达下单1小时送达新机_oppoa11京东
1月12日,OPPOFind X7系列正式开售,售价3999元起。想在开售当天就入手新机,可以使用京东手机小时达,下单1小时收到OPPO Find X7系列新品,正品有保障,足不出户就能快速完成换新。在...
日期:01-13
分类分级是推动平台互联互通的关键一步(互联网分级制度)
作者:陈兵;;责编:任绍敏   分类分级规范体系与新《反垄断法》结合,能提升平台经济反垄断监管效能。   8月1日起,新《反垄断法》正式施行,其在总则部分增加第9条规定“经营者...
日期:08-20
特斯拉目标2030年销量2000万辆「特斯拉:2023年全年车辆交付同比增长38% 达到181万辆」
(原标题:特斯拉:2023年全年车辆交付同比增长38% 达到181万辆) 财联社1月2日电,特斯拉2023年第四季度汽车交付量为484,507辆,市场预...
日期:01-02
科大讯飞刘庆峰:华为GPU已可对标英伟达A100 任正非派三个主席来搞定
快科技8月27日消息,作为人工智能的头部企业,科大讯飞也是投入了很多精力在发展AI。科大讯飞创始人、董事长刘庆峰出席2023年亚布力论坛夏季高峰会时表示,中国在人工智能都算法...
日期:08-27
“电子茅台”!华为Mate X5全能折叠屏正式开售:16GB 1TB顶配16999元
快科技9月14日消息,今日,华为陆续放出多个重磅消息,除公布华为秋季新品发布会定档9月25日外,还宣布新一代折叠屏旗舰华为Mate X5正式全面开售,目前该机各版本价格已全部公布,来看...
日期:09-14
中国移动李晗:400G驱动光通信迈入超宽谱时代,800G长距传输向C+L+S多波段探索
通信世界网消息(CWW)近日,中国移动启动省际骨干传送网400G OTN新技术试验网设备集中采购,开启了400G OTN规模商用“第一标”。推进400G产业成熟,加快800G/1.6T技术研发,以中国移动...
日期:11-16