您的位置:首页 > 互联网

全球首个AI程序员诞生,码农饭碗一夜被砸!10块IOI金牌华人团队震撼打造,996写代码训练模型

发布时间:2024-03-13 16:43:27  来源:互联网     背景:

声明:本文来自于微信公众号新智元(ID:AI_era),作者:新智元,授权转载发布。

全球首位AI软件工程师Devin诞生了,它掌握全栈技能,云端部署、底层代码、改bug、训练和微调AI模型都不在话下。最可怕的是,它完全不怕996,老黄的预言是彻底成真了!

就在刚刚,世界上第一位AI程序员Devin诞生。

一家叫Cognition的10人初创公司,才成立不到2个月,就给了全世界亿点点震撼。

刚一放出,Devin就刷爆了全网。

它掌握了全栈技能,能自主学习不熟悉的技术,端到端地构建和部署应用程序,自己改bug,甚至还能训练和微调自己的AI模型!

在SWE-bench上,它的表现远远超过Claude2、Llama、GPT-4等选手,取得了13.86%的惊人成绩!

也就是说,它已经能通过AI公司的面试了。

就在前不久,英伟达CEO黄仁勋表示,自己相信就在不久的将来,人类再也不需要学习如何编码了,孩子们应该停止编程课。

谁能想到,才短短数月,他的预言就成真了!

更令人震惊的是,Devin背后拥有一支强大的金牌程序员团队(规模不大,人才济济)。

据介绍,仅创始团队已经狂揽了10个IOI金牌!

首席执行官Scott Wu和弟弟Neal Wu获奖情况

Cognition AI的首席执行官Scott Wu称,自己从9岁开始学习编程,便爱上了将想法变成现实的能力。现在,这个梦想居然真的实现了。

网友惊呼:码农不存在了!?

看到Devin如此无敌的能力,网友惊呼,一切都完结了!

Devin会抢走我的饭碗吗?

德扑AI之父,OpenAI的研究科学家Noam Brown表示,2024年将是人工智能令人兴奋的一年。

计算机科学家,AI创业公司CEOSilas Alberti评价到:

它是一个能够独立完成任务的自主系统,在快速原型设计、修复bugs和复杂数据的可视化上表现卓越。

大部分其他助手在进行四五步操作后就会偏离任务轨道,但Devin能够在整个任务过程中准确地保持它的目标和方向不变。

投资了Cognition AI的硅谷大佬Peter Thiel更是认为,Cognition AI与Founders Fund之前投资过的DeepMind,现在的AI巨型独角兽OpenAI,Scale AI等公司处于同一水平。

AI初创公司Unify创始人称,Devin不仅抢走了我的工作,还抢走了我的名字,简直是雪上加霜。

美国著名开发者Brian Roemmele表示,自主编码智能体Devin已现AGI雏形!它能在几分钟内自主编写整个应用程序。这是真正无代码未来的开始。

Spotify工程师表示:目前尚不清楚智能体会在几年内取代软件开发人员,但免费午餐已经不复存在。

从为期8周的训练营毕业,然后找到一份价值20万美元的工作,这样的日子已经一去不复返了。做好磨练和深入学习的准备。熟练地引导人工智能取得好的结果可能才是未来程序员能体现出来的价值。

世界首位AI软件工程师Devin

AI软件工程师Devin的影响力,简直堪比2023年全网炸锅的智能体——AutoGPT。

Devin究竟有多强大?

Devin可以规划和执行需要数千项决策的复杂工程任务。

并且,它可以在每一步回忆相关的上下文,随着时间的推移学习,并纠正错误。

研究人员还为Devin提供了常见的开发工具,包括shell、代码编辑器、以及浏览器——皆是人类完成任务最需要的工具。

此外,Devin还具备主动与用户协作的能力。

比如,实时报告进度,接受反馈,并根据需要与你一起完成设计选择。

目前,Cognition AI还推出了一个Devin定制的Chrome插件——Tab Switcher。

而Cognition的开发者们纷纷分享出了自己使用Devin的示例,简直不要太惊艳!

学习如何使用陌生的技术

当你发给Devin一篇博文后,它会在几分钟内完成自主学习,从阅读文章,运行代码。

可以看到,Devin在Modal上运行了ControlNet,在写代码过程中,还会自我debug。

最后,人类程序员Sara想要带有自己名字的桌面壁纸,就立刻生成了。

,时长00:54

构建和部署端到端的应用程序

当你想要玩一个生命游戏(the Game of Life),交给Devin做就好了。

Devin首先会用工具Shell,创建一个新的react应用程序,然后开始通过编辑器编写代码。

代码完成后,它还会将应用自动部署到Netlify,一个初步的生命游戏就做好了。

这个过程中,Devin还可以逐一根据用户请求,完成功能的添加。

比如在初始屏幕上加上像素化的Devin一词,然后希望这个字体再大一些,帧速率更快。

与此同时,人类程序员要求Devin修复一个bug——屏幕在3秒后冻结的错误。

下一步,让Devin在10秒后提高帧速率,让网站能适应不同的窗口大小。

同时,一个游戏还得需要交互性,即在某处点击鼠标时,应该生成一个新块。

magic ui5.0怎么样

接下来,就是见证奇迹的时刻了!

,时长01:58

自行查找代码库错误,自行修复

这个名叫Andrew的开发者表示,自己维护了一个大型开源存储库,其中包含许多不同的算法,用于竞争性编程。

不久前有朋友告诉他:其中一个实现中有bug。Andrew插入了一个快速修复,但并没有测试它,因为没能抽出时间来编写测试用例。

既然如此,就给Devin来试试看!

小哥给了Devin存储库,让它来检查和处理这个存储库。然后,Devin就找到了正确的存储库,检查了所有文件。

接下来,在小哥的要求下,Devin还很轻易地就把测试写了出来——只是看了一下测试应该是什么样,接口是什么样,就完成了这项任务。

挑战还没完,接下来,小哥要求Devin将对所有输入进行测试,而不仅仅是测试这个输入,也就是自己常用的暴力测试。

于是,Devin重写了测试函数,使用了四个嵌套的循环,这一次,它发现了一个bug。

接着,Devin开始调试。它在这里添加了一个print语句,来调试输入和输出,然后重新测试,发现了错误:代码不应该返回负值。

于是Devin查看了正在测试的代码,然后添加进了这行代码,确保返回值是非负的。

现在Andrew可以确信,自己的代码是完全正确的了!

,时长03:09

训练和微调AI模型

Devin能力也在一步一步进阶。

最让人兴奋的是,它可以自己训练、微调模型,AI训AI成真了!

首先,给智能体Devin提供一个GitHub库的链接(比如QLoRA——一种量化大模型的微调方法)。

Devin所做的就是,微调7B Llama模型。

接下来,就是献技的时刻,Devin克隆了GitHub库,了解如何使用readme运行,设置好所需pip的要求,查看所有的脚本语言,并开始运行。

训练过程中,Devin还遇到了Cuda问题(这是在开源库中可以预料到的)。

不过这可难不倒Devin。它会自主查看英伟达环境,并找出如何重新安装软件包让其成功运行。

接下来,模型训练开始进行了。

可以看到损失率正在下降,程序员给出Devin正向反馈:做的不错!

大约1小时后,Devin已经顺利完成几百步训练,仍在进行中...

解决开源代码库中的错误和功能请求

只要给出一个指向GitHub问题的链接,Devin就会执行所需的所有设置和上下文收集了!

这位叫Tony的工程师,想一次运行一堆命令,并且希望在一个屏幕上跟踪它们的状态,于是他找到了一个名为impro的开源工具,希望执行这个操作。

看起来虽然impro完成了任务,但状态太模糊了。根本看不出来究竟哪些命令失败了。

Tony想改进这里的用户体验,但是自己根本不熟悉代码,于是他想到去求助Devin。

他发现网上有人面临同样的问题,所以他把这个问题的链接给了Devin,让它修复这个问题。

在右边,他很清晰地看到,Devin从一个工具跳转到了另一个工具。

它首先使用了Shell Deon CLS存储库,然后阅读了自述文件和编辑器,了解了子代码,然后,它返回Shell,安装了所需要的依赖项。另外,Devin还打开了一个Web浏览器。

然后,Devin就开始编码了!

在这个过程中,它甚至打开了一些R文档来调试编译器错误。最后,完成了任务,出了一份自己做了哪些改进的总结报告。

所以,Devin的更改有效吗?Tony发现,它成功了!第三个命令是成功的,他甚至可以看到状态码。

以下是完整视频:

,时长01:48

为成熟的生产存储库做贡献,修复系统错误

下面这个示例,是SWE-BENCH基准测试的一部分。Devin解决了Python代数系统中的一个错误。它会自行设置代码环境、复制错误、自行编码、测试修复程序!

这位叫Neil的开发者,分享了Devin帮自己改bug的示例。

他一直在用这个名为Senpai的存储库,它是一个用Python编写的代数系统。

但Neil发现,取分数的对数时,我们会得到一个无穷大的Zoo,这是绝对不可能的。

于是,他试着让Devin来解决这个问题。

Devin在存储库中复现了Zoo的问题后,随后,它找出了代码中正确的那部分,添加了print语句,以便找出问题原因。

可以看到,原因就在于,整数除法会得到0,就导致之前取了0的对数。因此,Devin用true除法替代了整数除法。

随后,它开始测试,确保没有其他问题。

就这样,Devin帮Neil节省了大量的时间。

,时长01:26

胜任自由职业平台Upwork的工作

Cognition的开发者You还试着在全球最大的综合类自由职业平台Upwork上,为Devin提供真正的工作。

没想到,它竟可以完全胜任,看来智能体也能出来做副业了......

在Upwork上,他首先挑选了一个用计算机视觉模型做推理的工作。

先来看看这个任务的要求:

- 我希望利用该资源库中的模型进行推断。(https://github.com/mahdi65/roadDamageDetection2020)

- 你的交付成果将是关于如何在AWS的EC2实例中进行操作的详细说明。

- 请提供你完成这项工作的评估报告。我不会回复没有评估的报告。

看起来很简单一个任务,但开发者You表示,自己也不知道如何开始做。

但是交给Devin,这件事就变得容易得多了。

Devin收到请求后,先开始设置了存储库。然后运行中发现了版本控制问题,Devin自主处理并更新了代码。

然后,Devin继续加载并导入软件包。它还从互联网上下载了图像,并运行模型。

接下来,Devin再次遇到了问题——关于打印调试,它自主修复了代码。

最后,Devin对数据结果进行抽样,并编写出一份报告。

它会一些标有损坏道路样本的图像,以及详细的text文档。

,时长02:01

13.86%正确率,Devin碾压GPT-4/Cluade3

SWE-bench是一个要求AI智能体解决开源项目(例如Django和scikit-learn)中实际GitHub问题的测试。

在评估中,Devin能够完整地正确处理13.86%的问题,这一成绩大幅领先于之前技术水平的1.96%。

即便是在提供了具体需要修改的文件情况下,先前最优秀的模型也仅能处理4.80%的问题。

华人金牌程序员团队

Cognition AI这家正在改变世界的公司,才正式成立不到2个月,仅有10名员工,分散在纽约、硅谷,以及世界各地的Airbnb民宿中。

就这样一个连正式办公场地都没有的团队,却已经从硅谷大佬Peter Thiel领投的Funders Fund和其他知名的投资机构那里获得了2100万美元的投资,其中还包括前推特高管Elad Gil。

在如此炸裂的产品的背后,团队成员背景更是夺目耀眼。

联合创始人兼首席技术官Steven Hao,在AI系统方面有着丰富经验,

他于2018年本科毕业于MIT计算机和数学专业。

2018年加入由Alexandr Wang创办的Scale AI,是一名资深的AI系统工程师。

联合创始人兼首席产品官Walden Yan,在加入Cognition AI之前他还是哈佛大学的一名在校大学生。

作为计算机和经济专业本科大四在读的学生,理论上应该今年本科毕业。

但实际情况却处在保密状态,因为他还没有告诉父母自己辍学的事情。(手动狗头)

他在个人网站上,列出了3个自己认为最为重要的成就:

- 是MIT PRIMES Research团队的成员

- 得过IOI金牌

- 创立DeepReason并开发了一款智能区块链审计工具

联合创始人兼首席执行官Scott Wu,是一名连续创业者。

在成立Cognition之前,他曾经创立了一个用AI驱动的社交网络平台Lunchclub,并且也曾就读于哈佛大学。

他的弟弟Neal Wu,也是公司的员工。

在加入Cognition AI之前也在包括谷歌等多家公司工作过,是一名经验丰富的软件工程师和销售。

本科同样毕业于哈佛大学计算机专业。

他们兄弟俩在非常青年时期就参加了很多国际编程比赛和科学奥赛,获奖无数。

不仅如此,团队的其他成员,也都是大佬级的存在。

还有一个nobody。

其中,Andrew He从6年级开始,参加了各种数学竞赛。在2014年和2015年的国际信息学奥林匹克大赛上获得了2枚金牌。

他就读于MIT,并于2019年毕业,获得了数学和计算机科学学士学位。

如此丰富的编程竞赛经历,对于他们开发这个编程AI智能体有着非常大的帮助。

众所周知,编程竞赛的核心就是要迅速准确地解决编程难题,强调快速解决复杂问题的能力,而且对于创新的解决问题的思路有着很高的要求。

在CEO Scott Wu看来,团队独特的背景让他们在这个领域有非常强大的优势。

将AI培养成程序员,实际上是一个复杂的算法挑战,这需要AI系统能够做出复杂的决策,并能预见未来几步,从而选择正确的路径。

这几乎就是我们多年来一直在大脑进行的一场场比赛。现在,我们需要用AI系统来参加这些比赛。

Cognition AI首款产品Devin的最大突破在于大大提升计算机推理和规划能力。

它要求AI系统不仅要预测句子中的下一个词或代码行的下一个片段,还能像人类一样进行思考,获得解决最终问题最为合理的方法和路径。

而行业共识也认为,AI的推理和规划能力将是AI下一步产生最重要突破最有可能的方向。

Devin在接受用户用自然语言提出的任务之后,不仅能够自主开始工作并完成任务,还会向用户报告其计划,并实时展示正在使用的命令和代码。

如果用户发现过程中的问题,可以即时提供反馈。它会在任务进行中立即调整。

而Devin最大的亮点在于,大多数现有的AI系统在处理这类长期任务时往往难以保持一致性和专注,但它能够在完成数百上千任务时始终不偏离目标。

其他计算机科学家或者资深程序员在试用过Devin之后认为,它已经不仅仅是一个编程助手,简直是一个可以独立工作的员工。

CEO Wu并没有详细说明他们的智能体背后使用的AI技术,只是笼统地解释说,团队找到了将大语言模型(例如OpenAI的GPT-4)与强化学习技术相结合的独特方法。

参考资料:

https://www.cognition-labs.com/blog

https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant


返回网站首页

本文评论
微信小游戏出现新爆款,居然出自一家棋牌大厂?「微信小游戏app」
声明:本文来自于微信公众号游戏新知(ID:youxixinzhi),作者:鳗鱼,授权转载发布。途游游戏可能度过了10年以来最好的一年。每次在iOS畅销榜上留意新品的时候,总会不自觉地忽略棋牌...
日期:06-06
OpenAI更新隐私政策:ChatGPT聊天记录可关,但插件系统也会被禁用
4月26日 消息:继意大利出于隐私考虑禁止AI语言模型之后,OpenAI宣布了一种新的数据管理方法,允许用户关闭 ChatGPT 的聊天记录。这意味着所有的对话不会再被用来训练和改进Open...
日期:04-26
创投生态拓荒者,6年对接260万次 六年不懈探索 微链绘就中国创投新画卷
  “我们要借改革创新的东风,在中国960万平方公里土地上,掀起‘大众创业’、‘草根创业’的新浪潮,形成‘万众创新’、‘人人创新’的新势态。”2014年9月,这一番话燃起了中...
日期:07-16
哪吒汽车CEO:电吸门是脑残无用设计 出门基本不动手的人才用「哪吒电动汽车2021款」
日前,关于汽车电吸门的话题引起网友热议。韩国试飞“载人空中出租车”起因是一位网友,在使用理想L7的电吸门时,手指头被夹伤,关于电吸门的安全性引起网友讨论。.有汽车博主提醒...
日期:05-12
中国高铁首次出海!雅万高铁全线打通:最高时速350公里
中国铁路国际有限公司消息,印尼当地时间10月16日下午,雅万高铁全线箱梁架设任务顺利完成,铺轨通道全面打通。雅万高铁预计2023年6月建成通车,连接印尼首都雅加达和旅游名城万隆,...
日期:10-17
味道酸爽!女游客用5L水桶带螺蛳粉汤回广东 网友:居然能上高铁
提到广西相信很多人会首先想到螺蛳粉,作为柳州市的特色小吃,螺蛳粉的辣、爽、鲜、酸、烫独特风味让很多游客慕名而来。rog幻15分辨率火车票多久刷新据白鹿视频,广州的程女士和...
日期:06-07
RTX 4060 Ti只给8GB显存!AMD背刺:没有16GB不好意思出门
不出意外的话,NVIDIA将在本月底发布主流级别的RTX 4060 Ti、RTX 4060,AMD则会针锋相对地拿出RX 7600 XT予以反击。在性能、势头都不如对手的情况下,AMD剑走偏锋,以大显存为切入...
日期:05-05
小霸王创始人盛赞苹果头显:很酷 真的很神奇_小霸王谁开发的
快科技1月31日消息,作为苹果目前最贵,也是最难买到的产品,Vision Pro成为了不少用户想要第一时间入手的产品,当然小霸王创始人也不例外。既然是苹果的股东,那么段永平就不太可能...
日期:02-01
电源厂商Enermax列出RTX 4070/4060和RX 7000系列显卡参考功耗
为了方便 PC DIY 玩家参考,许多电源供应器厂商都有在官网上提供简易的电脑组件功耗计算器。不过近日,有眼尖的人们发现 —— 安耐美(Enermax)刚刚更新了网页列表、并且曝光了几...
日期:10-11
苹果 iPhone 15 Pro 自定义「动作按钮」或是关键新功能之一「如何用iphone自定义动作」
7月27日消息:苹果日前向开发者发布了 iOS 17 的第四个测试版,最新测试版中有一些新的代码片段,可能暗示了即将发布的 iPhone 15 Pro 和 iPhone 15 Pro Max 上的传闻中的「动作...
日期:07-28
网友期待iQOO 12卖3999元 产品经理:这太难了_iqoo竞品
快科技11月2日消息,有网友给iQOO产品经理戈蓝V留言:iQOO 12 3999元。 对此,戈蓝V表示,这太难了,暗示iQOO 12成本很高。 据悉,iQOO 12采用1.5K柔性OLED直屏,首批搭载高通骁龙8 G...
日期:11-02
重磅:卢伟冰上任小米集团总裁 王翔功成身退「小米副总裁卢伟冰是哪里人」
中关村在线消息:12月30日,小米集团在港交所发布公告,宣布卢伟冰晋升为本集团总裁,并继续兼任本集团国际业务部总裁,同时管理本集团手机部、生态链部、大家电部、中国区、印度区;王...
日期:12-30
女子开特斯拉被查酒驾 罚2000元记12分:本人称吃醉蟹 交警回应「开特斯拉酒驾查吗」
近日,浙江台州,温岭交警凌晨开展酒驾检查时,女子钟某(开特斯拉)呼气测试为63mg/100ml。但她坚持表示没喝酒,并解释车上还有孩子她不可能喝酒。随后女子回忆起在朋友家吃饭时吃了生...
日期:12-18
抖音网红“乡村超模”陆仙人将于6月15日入淘开播_陆仙人模特资料
6 月 14 日消息,从乡村小路一步步走上国际T台的陆仙人 6 月 15 日将在淘宝直播间正式亮相。据了解,他不仅会为淘宝用户带来年度新作,而且会以办公室为主题,开启一堂有趣有用的穿...
日期:06-14
阿迪鞋误标1元 网友订单被强制取消(nike取消订单黑号)
1元钱就能买到阿迪鞋?确实有这样的好事,前几日,当当网上的一名网商误将1件库存量写成了1元价格,发布在网上,结果在凌晨几分钟内引来数百名网友抢购,但最后交易被迫取消。昨日,当当...
日期:07-22
联想v450驱动「联想4000驱动」
联想v450是一款多功能笔记本电脑,旨在提供出色的性能和可靠的功能,使其成为商务人士和学生们的理想伴侣。像所有计算机一样,联想v450也需要正确的驱动程序来确保其正常运行。在...
日期:05-29
网友呼吁接回旅美大熊猫丫丫  北京动物园:正在办理回国审批手续
近日,旅日大熊猫“香香”回国消息引发网络关注,同时也有不少网友呼吁尽快接回旅美大熊猫“丫丫”。对此,北京动物园方面表示,正在办理“丫丫”回国的审批手续,但具体日期尚不明确...
日期:02-22
全球芯片产能分布「Canalys:到 2026 年 Arm 架构 SoC 将在服务器和 PC 领域占据大量市场份额」
11月18日消息:据DigiTimes报道,市场研究公司Canalys总裁兼首席执行官Steve Brazier表示,四年后Arm架构将在云服务器市场上占据一半以上的市场份额,在个人电脑市场上占据30%的份...
日期:11-19
共创共赢!金蝶全力打造世界一流生态_金蝶最高端的erp
3月1日,以“共创共赢 迈向一流”为主题的2024年金蝶集团生态合作伙伴大会在重庆盛大举行。大会现场汇集了来自中国工业互联网研究院、香港创业创新研究院、微软、软通动力、...
日期:03-06
8岁女孩和41岁妈妈练出同款腹肌 已练习攀岩2年_八岁拥有八块腹肌的小男孩
湖南长沙,一位名为包女士的妈妈引发了网友们的羡慕,她晒出了她和 8 岁女儿一起练出的相似腹肌。这个令人瞩目的故事成为了网络的热点话题。包女士表示自己已经坚持健身一年多,...
日期:11-02