您的位置:首页 > 互联网

Karpathy 4小时AI大课上线,小白看了都会从零构建GPT-2

发布时间:2024-06-12 17:12:51  来源:互联网     背景:

声明:本文来自微信公众号“新智元”(ID:AI_era),编辑:桃子,授权转载发布。

距上次Karpathy AI大课更新之后,又有了1个多月的时间。这次他带了超详细的4小时课程——从零开始实现1.24亿参数规模的GPT-2模型。

apple watch功能实测

大神Karpathy新一期AI大课又上线了。

这一次,他讲的内容是——从头开始实现124M大小的GPT-2模型,足足有4个小时。

Karpathy对这个视频2个字总结:全面。

我们从空文件开始,以GPT-2(124M)模型结束。

也就是说,这就是手把手教程,就连AI小白看后,都会搭建GPT-2了。

Karpathy称这是从0到英雄(Zero To Hero)的系列中最新的视频。

翻看以往Zero To Hero系列中的视频,最长的也不过2小时25分,这次4小时完全创下了最新记录。

帖子中,他highlight了最新视频中的一些重点内容:

- 我们首先构建GPT-2神经网络

- 然后对其进行优化,以实现快速训练

- 参考GPT-2和GPT-3论文,设置训练运行优化和超参数

- 启动模型评估

- 祈祷一切顺利,上床睡觉

- 等到第二天早上,便可查看模型的结果,欣赏模型生成的有趣输出。

发布短短的几个小时,视频已经有了11万次播放量。

Karpathy表示,这次过夜的训练结果,表现甚至接近GPT-3(124M)模型的水平。

顺便提一句,Karpathy自己做的封面配图,也很有趣,直接把英伟达GPU点起来了。

网友在下面评论道,Karpathy就是我的神!

华裔天才少年Alexandr Wang称,你的视频就相当于流行音乐明星发布的新单曲。

我的生活很简单,Karpathy上线GPT-2『大片』,看就完事儿了。

视频下方,许多网友纷纷为这个免费课程打赏。

接下来,让我们一起来看看这节课讲了什么?

4小时大课,干货满满

最开始部分,Karpathy先介绍了下GPT-2的情况。

2019年,OpenAI首次发布了GPT-2模型,并公布了相关论文和代码。

论文地址:https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

而这次的视频,就是要复现一个GPT-2模型,共有1.24亿参数的模型。

之所以选择这一参数,要清楚的是,GPT-2在发布前会有一个小系列(miniseries),其中有4种参数,而最大的那个称为GPT-2。

另外,你可以将模型放在X轴上,各种下游指标放在Y轴上,便可以画出Sacling Law定律的曲线。基本上,随着模型规模扩大,下游任务性能越好。

1.24亿参数Transformer架构共有12层,并且有768个通道(channels)。

GPT-2发布已经是5年前的事了,而现在复现容易得很多,对GPU计算需求没那么大,大概需要1个小时,10美元的成本。

Karpathy表示,自己训练模型的GPU来自Lambda GPU Cloud,因为他认为这是在云中按需启动GPU实例的最佳和最简单的方法。

接下来,第一步就是加载GPT-2模型,进入GitHub源代码库,然后点击modle.py。

可以看到,这个模型使用的Tensorflow编写的。

Karpathy尴尬地表示道,现在我们很少使用了,直接从更友好的Pytorch开始。

为了更方便地复现,Karpathy还选择使用了Hugging Face上的GPT-2代码,其基于Transformer重新搭建,更容易使用。

接下来,就是从Hugging Face页面中,导入GPT-2模型。

在预训练GPT-2之前,如果想要复现一个1.5B模型,只需在gpt2后面,加上-xl。

下面,将Pytorch NN模块初始化为在如下类中定义,然后打印键值。

如下是,GPT-2模型内部不同的参数和形状,W token嵌入的权重大小是50257,768。

这节课共分为4个部分,接下来从构建到参数微调,Karpathy都给出了非常详细的讲解。

第一节是实施GPT-2nn.模块。

第二节是速战速决,混合精度的GPU,1000ms

第三节是Hyperpamats,AdamW,梯度剪裁

第四节是等待结果!GPT-2、GPT-3复现对比

最后,睡觉得到的结果,第二天再看结果。

模型的训练损失也在不断下降,而且与GPT-3的性能相媲美。

最后,这个4小时的大课,小编放这儿了。参考资料:

https://x.com/karpathy/status/1799949853289804266

https://www.youtube.com/watch?v=l8pRSuU81PU


返回网站首页

本文评论
构建面向未来的数据中心,2024年度睿启服务器新品发布会成功召开
通信世界网消息(CWW)5月30日,备受行业期待的2024年度睿启服务器新品发布会在北京成功召开。本次大会以“智算时代,构建面向未来的数据中心”为主题,吸引了众多企业代表和行业精英...
日期:06-03
小鹏汽车与小灵狗出行、神州租车达成战略合作_神州租车小鹏g3
1月9日 消息:小鹏汽车与小灵狗出行、神州租车正式签署三方战略合作协议,并在宁波完成首批小鹏P7的交付仪式。据了解,在本次的战略合作关系中,小灵狗出行负责小鹏P7的车辆采买,后...
日期:01-09
首发澎湃OS!小米14现身Geekbench:骁龙8 Gen 3性能曝光 战苹果A17_小米14吧
快科技10月23日消息,对于小米14来说,很多用户都相当期待,毕竟看点太多了,全新的系统、骁龙8Gen3等等。现在,小米14手机的身影现身Geekbench,其配备16GB RAM,多核成绩相当出色。Geek...
日期:10-23
马斯克的"读脑"设备首次植入人体,科学家期待什么?担忧什么?
2月4日消息,埃隆·马斯克(Elon Musk)创建的Neuralink旨在改变我们对脑机接口的认知,让科幻变成了现实。1月29日发布的消息中,马斯克宣布Neuralink已成功将其“读脑”设备首次植入...
日期:02-07
智库云遇黄石港_智库云科技集团黄石
  ,梦想临空腾飞   2月23日上午,黄石临空商务产业园重点项目开工暨签约的仪式拉开帷幕,市委书记董卫民、市长吴锦等出席开工仪式,春回大地,发展临空经济的种子已经在黄石肥...
日期:07-16
IDC:2019下半年阿里、腾讯、中国电信IaaS+PaaS及IaaS位居市场前三_gartner iaas市场份额
  IDC最新发布的《中国公有云服务市场(2019下半年)跟踪》报告显示,2019下半年中国公有云服务整体市场规模(IaaS/PaaS/SaaS)达到69.6亿美元,其中IaaS市场增速回落,同比增长60...
日期:04-10
iqoo谁代言「iQOO成为NBA中国官方合作伙伴 双方签署市场合作协议」
通信世界网消息(CWW)2023年12月25日,iQOO手机正式宣布,与NBA中国在vivo全球总部举办iQOO&NBA赠机仪式,双方共同签署市场合作协议,携手为热血助力,vivo品牌副总裁贾净东出席本次仪式...
日期:12-26
搭载骁龙8+处理器」-迄今为止最强悍小米平板 「小米平板6即将到来
这段时间以来,各大品牌今年的首款代表性旗舰陆续亮相,还未发布的机型中最受关注的自然要数全新的小米13 Ultra了,据多方爆料显示,该机将于本月与大家见面。而本次发布会上除了这...
日期:09-18
新浪微博公司注册地_新浪微博已注册境内外独立公司 分拆上市前奏
  6月13日凌晨消息,网易科技上周独家报道了《曹国伟年内将清空MBO股票或为认购微博股份》,关于新浪微博的未来,网易科技又获悉,新浪分拆微博上市已经箭在弦上:除了已在海外及...
日期:07-30
五一错峰出行有妙招,百度地图联合北京市假日办提前查景区人流量
  五一在即,你的“出行功课”做好了吗? 4月30日零时起,北京市突发公共卫生事件一级响应已降为二级,五一出行需求也应声上涨。当“预约旅游”成为假期的关键词,若想出门“放风...
日期:02-28
每日优鲜开涨近67%,拼多多涨6.8%,阿里巴巴、京东涨超5%,逸仙电商涨4%,唯品会涨超3%
查看最新行情   讯 北京时间8月4日晚间消息,道指开盘跌0.1%,标普500跌0.04%,纳指涨0.1%。每日优鲜开涨近67%,拼多多涨6.8%,阿里巴巴、京东涨超5%,逸仙电商涨...
日期:08-06
亚马逊合体「亚马逊与Hexa达成合作 支持卖家创建3D图像」
6月7日 消息:亚马逊和3D可视化公司Hexa达成了一项新的合作举措,允许亚马逊卖家使用Hexa沉浸式操作系统。卖家可以在亚马逊店铺产品页面上利用该技术创建三维图像、 360 度可...
日期:06-07
V12 敞篷!法拉利12Cilindri Spider发布:满足国6B要求
快科技5月3日消息,法拉利近日隆重推出了全新的双座敞篷跑车12Cilindri Spider,该车完美融合了经典与创新。据悉,该车的灵感源自20世纪五六十年代的法拉利GT敞篷车型,12Cilindri...
日期:05-04
抖音国学变现第一IP。_抖音讲国学
声明:本文来自于微信公众号 十里村(ID:shilipxl),作者:村长住在十里村,授权转载发布。你知道抖音最强的变现IP是谁吗?今天村长想要和各位分享一位厉害人物,他每年都为很多人创造...
日期:11-25
京东价钱「618前京东APP 12.0上线,推出“单价到手价”等功能」
5月9日消息,今年618前夕,京东APP 12.0全新上线。今日起部分用户已可陆续升级为全新的京东APP 12.0。据京东方面介绍,全新升级的京东APP 12.0已全面推出“单件到手价”功能,即消...
日期:05-09
3 月底陆续发布 MIUI-14 第二批正式发布计划公布,小米 11、Redmi K40 在列
1 月 30 日消息,小米 MIUI 14 操作系统于 2022 年 12 月与小米 13 系列一同发布。在此前公布的第一批开发版计划和正式发布计划的基础上,小米现已公布第二批 MIUI 14 正式发布...
日期:09-20
如何利用自媒体快速提升搜索引擎的排名: 一站式自媒体优化排名运营系统介绍
产品介绍:亮点①:内容自动生成+一站式发布自媒体图文发布+短视频发布覆盖小红书.百家号.头条.B站.微博.网易.搜狐.公众号亮点②:快速排名最快当天上词、指定关键词上词率达7...
日期:05-30
Adobe推出网页版Photoshop:直接在线修图 迎合居家办公潮流(photoshop做网页)
  老牌内容创作工具公司Adobe,也要追赶NFT和“元宇宙”潮流了,为什么这么说?   Adobe年度最重要的活动“Adobe MAX 2021”大会上,官方推出了网页版Photoshop与Illustrator...
日期:07-17
腾飞资本创始合伙人任溶:专注硬科技投资,做一个长期主义者_任溶 腾飞资本
文|闫妍出品|网易科技《潮头》栏目当下,硬科技已成资本市场的热词。随着科创板的推出及全面注册制的启动,硬科技投资赛道人头攒动,国内一众VC/PE们都在投早、投小、投科技,众多科...
日期:06-02
网站流量被超,Midjourney要掉下神坛?_网站流量超限是什么意思
声明:本文来自于微信公众号 白鲸出海(ID:baijingapp),作者:张凯然,授权转载发布。在2024年1月的 AI 产品榜(aicpb.com)中,网站流量一直排在 AI 生图产品榜排名第二的 Leonardo.ai...
日期:03-15