您的位置:首页 > 互联网

把字节当成token,清华和微软刚掏出来的bGPT到底什么来头

发布时间:2024-03-12 13:15:29  来源:互联网     背景:

声明:本文来自于微信公众号硅星GenAI(ID:gh_e06235300f0d),作者:苗正,授权转载发布。

相信你或多或少对GPT有一定的了解,但我赌你没听说过bGPT。bGPT的意思是byte GPT,即字节GPT。这是一种专门设计用于处理二进制数据和模拟数字世界的深度学习模型。简单概括,bGPT突破了传统语言模型的局限,能够直接理解和操作二进制数据,拓展了深度学习在原生二进制数据领域的应用边界。

库克卖苹果

bGPT的成果来自于微软亚洲研究院、清华大学以及中央音乐学院的共同开发,等会你就知道这里为什么会有中央音乐学院了,希望你还没有忘记五线谱。

从运行逻辑来看,bGPT反而很像是在解数学题

在硅星人Pro的文章《揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”》中提到,大语言模型有一个核心功能是通过代码将多种文本形式进行了统一。正是这种数据结构上的相同,才让大语言模型实现“思考”,进而生成各种各样的内容。但是文字的数据结构和音频、图像、符号、CPU状态数据等等完全不相同,所以想要只使用一个大模型就完成对所有类型数据结构的学习,并不容易。

不过我们每一个使用电子产品的人都清楚,无论是何种类型的数据,它是由“字节”组成的。因此,研究团队提出了一个想法,是否能用字节来代替传统的token,使得大模型可以把所有类型的数据放在一起进行训练推理。bGPT的技术原理是基于深度学习中的序列建模思想,通过训练模型对连续的字节序列进行预测,以理解并生成符合特定上下文的二进制数据。

bGPT可以处理不同类型的声音文件

如果说transformer模型的核心机制是自注意力,那么bGPT的核心机制就是“猜”。通过深度学习训练,学会根据当前字节序列预测接下来可能出现的字节,从而对数字世界的内在规律进行建模。即采用“下一个字节预测”的方式来模拟数字世界的各种活动。

就像大语言模型的预处理环节一样,bGPT也有预处理,而且逻辑上和大语言模型是一致的,也是将不同类型的数据(音频和图像)标准化为适合模型输入的格式。比如音频就会被转换为统一的WAV格式,设定采样率为8kHz,单声道,8位深度,并裁剪至一秒长度;而图像数据则被设置为32×32像素、RGB颜色模式、24位深度的BMP格式。

接下来模型使用最终解码层的补丁级特征,通过平均池化操作提取全局特征以供分类任务使用。这一步的作用是提取特征,为下一步的生成式建模做准备。为了凸显bGPT和市面上流传的文字、图像、视频大模型不同,研究团队特地选择了音乐作为模型生成的内容。

论文所选取的乐谱

英特尔9代

论文使用了两种文件类型来做演示,第一种是ABC记谱法,第二种是MIDI。ABC记谱法是一种简洁的人工编写的文本格式,用来描述音乐曲目,而MIDI是一种二进制格式,记录的是音乐演奏的具体表现细节。更直白一点,ABC记谱法就是我们人类看的操作手册,MIDI则是机器用模拟环境来还原这份操作手册。

bGPT首先将成对的ABC记谱法文件和对应的MIDI文件合并成连续的字节序列,并用特殊的分割符标识两个文件之间的界限。接着,模型运用生成式建模的方法来学习这些字节序列的规律,从而实现了双向转换。也就是说,bGPT可以将基于文本的ABC记谱法乐谱转换为MIDI二进制表演信号,以及将MIDI文件还原回ABC记谱法文本格式。

在实际效果上,bGPT在完成这项任务时展现了非常高的精确度。研究团队在论文中写到,在将ABC记谱法转换为MIDI格式时,错误率低至每字节仅0.0011比特。尽管转换过程中可能会遇到一些挑战,比如MIDI转回ABC时,由于MIDI不支持重复符号,导致ABC乐谱在视觉上显得比原始版本更为冗长,装饰音符也可能因MIDI的表现方式而在转换回ABC时无法完全精确对应,但总体上bGPT成功地模拟了这个数据转换的过程,证明了它在模拟和处理数字世界中不同数据格式间转换的能力。

此外,为了评估bGPT在模拟数字过程方面的性能,研究人员还创建了一个CPU状态数据集,通过Python脚本模拟CPU的操作,让bGPT学习和预测CPU执行不同指令时的状态变化,结果显示bGPT在此类硬件行为模拟上的准确性超过99.99%,进一步验证了其在模拟数字世界复杂过程的有效性和潜力。

iphone15promax对比iphone14promax

所谓CPU状态集,是一个专为评估和训练bGPT模型而构建的合成数据集,它模拟了CPU在执行一系列机器指令后内部寄存器状态的变化情况。此数据集中每个实例都包含了1KB大小的内存块,其中包含一定数量的机器指令,随后是一系列16字节的CPU寄存器状态序列,反映了每次执行指令后CPU的最新状态。寄存器主要包括了程序计数器、累加器、指令寄存器、通用寄存器。

那么换句话说,这CPU状态集,其实就是想让bGPT来模仿CPU的物理运行逻辑。研究团队之所以选择这种类型的数据结构,就是为了和传统大模型进行区分。人家玩的就是时髦,玩的就是另类。

损失函数和周期的关系图

让我们看这两张图,上面的是ABC记谱法/MIDI所对应的数据转换任务,下面就是CPU状态建模任务。Loss代表损失函数(loss function),Epoch代表完整周期。随着epoch数的增加,模型会不断更新权重参数,以期在后续的Epoch中达到更低的损失水平。结果证明,模型预测输出越来越接近实际标签,拟合程度越来越好,预测能力越来越强。

英国亚马逊仓库代码

数据转换任务使用IrishMAN数据集进行验证,不是我吹牛,这个数据集一般研究大模型的都不一定认识。它是一个包含了20多万首爱尔兰乐谱的ABC记谱法数据集。其中99%(214122首曲子)用于训练,1%(2162首曲子)用于验证。为了确保格式的统一,所有曲调都被转换为XML,然后使用脚本转换回ABC记谱法,并且包含自然语言的字段(例如,标题和歌词)被删除。

IrishMAN数据集

bGPT是非常有创意的,因为字节是最基本的信息存储单位,而且虽然人类用肉眼可能没办法理解0和1,但是不同类型的文件,它所对应的字节是截然不同的。咱们就拿音乐来说,它的字节是音频数据、编码格式、元数据。音频数据是声音振幅和频率随时间的变化,编码格式是表示方法(MP3、WAV等),元数据是这段声音的信息(歌曲名称、表演者、所属专辑等)。

因此这些字节是有规律可循的,它具备明显的特征,只不过人类识别不了罢了。借由当下火热的大模型技术,对这种格式的数据结构进行处理,最后成功实现。以这个逻辑来发展,是有可能发展出性能更强大的模型的。bGPT为这条道路开了个好头。


返回网站首页

本文评论
欧盟数据法案_欧盟考虑调整数字法案条款,更多欧洲科技公司或被纳入监管
  10 月 7 日消息,欧盟一位高级议员当地时间周三表示,欧盟议会可能会调整“数字市场法案”( DMA)条款,扩大适用该法案约束的网络科技范围。   此举可能意味着一些欧洲公司...
日期:07-17
白宫会谈后,苹果、谷歌、微软、IBM 纷纷做出承诺
  北京时间 8 月 26 日上午消息,美国时间周三,来自科技、保险等众多行业的商业领袖与美国总统在白宫开会,讨论网络安全问题。   美国大企业准备制定新的安全标准为其它企...
日期:12-02
从黄桃罐头到电解质水,“情绪解药”成带货流量密码
声明:本文来自于微信公众号新榜(ID:newrankcn),作者:Bamboo 卷毛,授权转载发布。最近你“桃”过疫情了吗?随着新冠疫情进入新阶段,各类感冒药物、防疫用品的需求量迅速上升,令人意...
日期:12-15
2名大爷乘高铁下车抽烟「大爷高铁上抽烟致强制减速 女家属:不就是抽根烟」
2月6日,江苏南通,一大爷在乘坐高铁时抽烟,因烟雾报警器响起导致高铁强制减速。到站后,大爷被民警带下高铁,结果大爷和旁边的家人情绪非常激动,一直和民警争吵,大爷试图冲过阻拦,重新...
日期:02-10
国家邮政局:一季度快递业务量累计完成268.9亿件_国家邮政局快递统计数据
4月21日 消息:国家邮政局公布2023年一季度邮政行业运行情况称,一季度,邮政行业寄递业务量累计完成341.7亿件,同比增长8.5%。其中,快递业务量累计完成268.9亿件,同比增长11.0%;邮...
日期:04-22
艾特智能首家AI真智能直营旗舰店在中山古镇盛大开业!
  8月1日,艾特智能首家AI真智能直营旗舰店在中山古镇盛大开业,正式落户星光联盟E淘品牌体验中心!   地址:中山市古镇镇星光联盟负一楼E淘品牌展示中心A17卡   这也...
日期:07-15
华为Mate 60 Pro已支持面容支付!微信、支付宝都能用_mate支持人脸支付吗
快科技9月5日消息,华为Mate60Pro先锋计划开启已经一周的时间,很多用户都第一时间用上了这款全新的国产高端旗舰。这次Pro版上采用了独特的三开孔”设计,其实这是为了高安全级别...
日期:09-06
野山猪山上放养「男子上山放羊突遇300斤野猪 保持冷静最终化险为夷」
近日,一男子在山上放羊时,突然遭遇一头 300 斤重的野猪。令人惊讶的是,男子在和野猪对峙几秒后,竟然幸运地没有被攻击。这个事件引发了网友的热议,有评论认为成年野猪发起疯来非...
日期:01-15
李想:2025 年之前理想汽车不会开发海外市场,专注于既定目标_理想汽车李想百科
IT之家 7 月 19 日消息,随着国产新能源的快速成长,比亚迪、蔚来、极氪等多个品牌已经布局海外市场,而理想汽车短期内并没有计划加入这一行列。理想汽车 CEO 李想昨日发文称,本月...
日期:07-19
植物大战僵尸宣布与中移动合作 将推Dota模式
  11月14日消息,“植物大战僵尸”开发商、宝开(PopCap)大中华区总经理刘琨在游戏开发者大会(GDC China)上正式宣布与中国移动(微博)达成合作,未来植物大战僵尸将推出Dota模...
日期:07-24
郎朗降临魅族20系列发布会:30日发布_魅族发布会是谁主持
魅族宣布,世界殿堂级大师郎朗为魅友演绎了魅族Flyme铃声,同时将作为表演嘉宾将会亲临魅族领克无界生态发布会现场。本次发布会将会带来魅族20系列旗舰、FlymeAuto车机系统等诸...
日期:03-28
济南高新区浪潮集团「浪潮携手济南起步区某科创园打造智慧园区新标杆」
通信世界网消息(CWW)伴随着城市现代化进程的加速,“智慧城市”概念应运而生。而智慧园区作为推动智慧城市经济发展和构建长期竞争优势的关键要素,因其独特的功能优势和巨大的经...
日期:02-23
东高科技与科大讯飞合作 加速数智证券服务机器人等应用落地_科大讯飞 高瓴资本
7月21日 消息:7月20日,东高科技与科大讯飞股份有限公司在广州签署战略合作协议。苹果发布ios16新功能这次合作将通过利用最新的AI技术,为东高科技提供更加智能、高效且个性化...
日期:07-21
郭明錤:iPhone 16系列仅Pro Max搭载潜望镜头_苹果13pro潜望式镜头
中关村在线消息:爆料人士郭明錤表示,明年发布的iPhone 16系列或许只有Pro Max(或Ultra)会配备更高端的变焦、潜望镜头。根据曝光,iPhone 15 Pro Max也将会是系列中唯一一款搭载潜...
日期:02-01
鼎桥通信亮相2023MWC上海世界移动通信大会,助力5G时代行业互联
通信世界网消息(CWW)6月28日-30日,2023MWC上海世界移动通信大会在上海新国际博览中心举办。本次大会以“时不我待”为活动主题,鼎桥展台携物联网、行业无线、定制终端三大产品线...
日期:07-01
抢占电池关键原材料 消息称大众汽车将在印尼投资50亿美元建厂
5 月 29 日消息,据印尼媒体 Kumparan 报道,印尼投资协调委员会秘书长 Ikmal Lukman 在接受其采访时表示,大众汽车将在未来数月内就电池工厂项目展开可行性研究。报道称,这座电池...
日期:09-26
各国5G套餐资费逐步出炉:每月无限量套餐最高767元 最低472元_4g无限量套餐用5g另外收费吗
  7月8日消息,据国外媒体报道,在通过向电信公司出售5G频段筹集了65亿欧元(73亿美元)之后,德国电信宣布开通商用5G服务。   德国电信提供的5G捆绑套餐分为两种:一种是与三星...
日期:09-05
骁龙8系列什么时候出的「骁龙8Gen 3首批机型有哪些 首发骁龙8Gen 3的手机是谁」
高通骁龙8Gen 3处理器已正式发布,该处理器CPU 提升 30%,GPU 提升 25%,NPU 提升 98%,具体会有哪些手机首发,以及首批搭载的手机是哪些呢,我们来一起看下吧。统一充电type-c接口ipho...
日期:10-25
双屏远控双屏,向日葵远程控制功能升级「向日葵远程控制两个屏幕」
远程控制电脑如何控制双屏?以往远控这种多屏设备,需要在主控端时常切换主副屏,非常不方便。尤其是想要把一个窗口从主屏拖拽到副屏时,非常麻烦。现在使用向日葵多屏远控就变得方...
日期:05-30
华为预计2023年实现销售收入超7000亿元_2020年上半年华为销售收入
12月29日 消息:华为轮值董事长胡厚崑发布新年致辞称,预计华为2023年实现销售收入超过7000亿元人民币,其中ICT基础设施业务保持稳健,终端业务好于预期,数字能源和云业务实现良好...
日期:12-29