您的位置:首页 > 互联网

图领域通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-09 15:42:26  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

腾讯暴跌市值蒸发5000亿港元 新闻

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

特斯拉宣布召回28万辆:可能突然加速

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

自动驾驶地平线概念股

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
男子吃火锅被锅底烧化鞋子:发现后为时已晚_吃火锅被烧伤怎么赔偿
5月10日消息,据梧桐Video 报道,河南郑州一男子吃火锅时习惯翘着二郎腿,不料发现鞋子碰到锅底被烧化,顿时愣住。当事人陈先生称当时快烫到袜子才感觉到,还好没有伤到自己,后来店家...
日期:05-11
iphone16电池容量多少16电池容量曝光 双版本大升级 iPhone_16x电池容量
来源:中关村在线microsoft edge chromium2020印度能进口中国苹果吗据内部人士透露,苹果即将推出的iPhone 16系列机型在电池容量上将进行调整。虽然总体来说电池容量提升了,但并...
日期:02-08
马斯克在推特上推的币「媒体称马斯克已完成收购推特,CEO和CFO遭开除」
  每经记者 李孟林;三星s5有没有红外线功能  当地时间10月28日,据《华尔街日报》报道,马斯克已经完成对推特(TWTR,股价53.70美元,市值410.94亿美元)的收购,推特首席执行官Parag...
日期:11-01
大学学历占全国人口比例「全国大学文化程度人口超2.18亿:高等教育比例近25%」
9月27日,国家教育部举办新闻发布会,介绍十年来教育改革发展的总体情况。据教育部发展规划司司长刘昌亚介绍,2021年,全国共有各级各类学校52.93万所,在校生2.91亿人;与2012年相比,学...
日期:10-05
邬贺铨院士:6G比5G快1000倍,有这个必要吗?_邬贺铨开讲啦5g观后感
穿戴的智能设备谷歌pixel6拍照什么时候装宽带有优惠   文;| 张俊   本期嘉宾:   中国工程院院士;邬贺铨   这是一个新技术交汇的时代,AI、5G等前沿技术正在加速改变我...
日期:08-21
苹果官网14天换货是新机吗「维修不再直接换新:苹果将为iPhone 14系列提供同机维修服务」
近日,根据苹果的一份内部备忘录显示,全球范围内的Apple Store和苹果授权服务提供商,将陆续为iPhone 14系列的全部四款机型提供同机维修服务。努比亚x发售时间京东众筹多久发货...
日期:11-18
又便宜2万!理想L8 Air发布:砍掉魔毯悬架
今年,新能源市场俨然将进入更胶着的竞争态势,这点从理想为L7/L8新增Air车型就能看出,理想也在想方设法争夺市场占有率。据悉,理想L8 Air相较于理想L8 Pro砍掉了魔毯空气悬架”,改...
日期:02-09
云计算掀起“价格战”  铜牛信息正在应对业绩考验_铜牛信息国资云平台
《投资者网》丁琬璎7月25日,北京铜牛信息科技股份有限公司(以下简称“铜牛信息”,300895.SZ)披露的业绩预告显示,公司今年上半年净利润预计同比下滑近9成。对于业绩下降的原因,铜...
日期:08-07
男子偷卖女朋友黄金用作恋爱开销 被判处有期徒刑二年_偷女朋友的金银首饰但是良心过意不去
据虹口检察公众号消息,在5月上旬的一个晚上,邵小姐因母亲需要项链而在家中四处寻找自己的两条黄金项链,但令人惊讶的是,她不仅未能找到这些项链,还发现几个黄金耳坠、一枚钻戒和...
日期:02-06
博主手持iPhone在华为园区录像 余承东微笑吐出四个字_余承东何时负责华为手机业务
快科技12月9日消息,在今年花粉年会上,博主趣评测”用苹果iPhone拍摄余承东、何刚等华为高管在园区行走的视频。 何刚走过时摆了摆手,说了两句你好,你好。”而余承东走来看到...
日期:12-09
AMD市值突破1.1万亿!128核Zen4即将发布:继续抢Intel市场
快科技5月11日消息,AMD日前宣布6月14日举行新品发布会,预计会正式发布5nm Zen4架构的数据中心处理器,最多128核256线程。受此利好消息影响,AMD股价大涨5%左右,一度逼近100美元,市...
日期:05-11
iphone塑料壳是哪款「突发!一款塑料壳iPhone将被苹果列入过时产品名单」
苹果计划在下个月将iPhone5c标记为过时的产品,根据MacRumors获得的一份备忘录。荣耀earbuds2se值得买吗苹果在2020年10月将iPhone5c标记为老式产品,这意味着该公司及其服务提...
日期:10-28
理想One正式换代!理想L8来了:综合续航可达1315公里 百项豪华配置「理想one增加纯电续航」
9月30日下午消息,理想One的换代车型理想L8今日正式上市。抖音新业务理想方面今后将用字母来代表产品平台,L代表增程电动平台的SUV系列,数字大小代表车型尺寸级别差异,在L8之后还...
日期:10-01
谁在“吊打”ChatGPT?_吊打出自哪里
声明:本文来自微信公众号“定焦”(ID:dingjiaoone),作者:黎明,,授权转载发布。考试拿第一,不一定就是好学生。AI行业的“百模大战”已经打了大半年。从上半年的火热,到下半年的渐冷...
日期:11-10
虎牙:三季度营收23.8亿元 移动端月活用户达8600万_虎牙年营收
11月15日消息:虎牙公布2022年第三季度财报。财报显示,2022年第三季度,虎牙公司总收入为23.8亿元,上年同期为29.755亿元。在非美国通用会计准则下,该季度归属于虎牙公司的净利润...
日期:11-16
张楠ceo简介「张楠不是张小龙,互联网大厂“功臣”不好当」
出品|网易科技《态度》栏目组作者|闫妍编辑|丁广胜临近春节,“宇宙厂”字节跳动发生重大变动。抖音集团CEO张楠宣布自己已辞去集团CEO一职,未来将把精力聚焦在剪映的发展上。未来...
日期:02-08
盖茨什么时候创立了微软_微软创始人盖茨:对乔布斯离世深感悲痛
  10月6日上午消息,据《纽约时报》网络版报道,苹果宣布公司联合创始人、前CEO史蒂夫·乔布斯(Steven Jobs)辞世,终年56岁。   苹果在一份声明中称,该公司“沉痛宣布”乔布...
日期:07-23
钉钉直播课堂模式和在线课堂的区别_钉钉线上教学模式被中国教育台推荐给全国老师
  4月2日,中国教育电视台打造的《同上一堂课·给老师帮帮忙》节目播出了“后疫情时期线上教学实践探索”主题内容。本期内容推荐了使用钉钉进行线上教学的案例。   本期...
日期:04-16
威客猪八戒:今年前7月交易额超2亿_猪八戒网股价
  猪八戒给人印象是又懒又馋。但重庆的朱明跃花了5年多,将一个好端端的公司名字“伊沃客科技有限公司”改注成“重庆猪八戒网络有限公司”。   “我2005年就想注册成这...
日期:07-22
马云今日卸任!十大金句成经典(马云的八句金句)
  (原标题:马云今日卸任!出走半生归来仍是“马老师” 这十大金句成经典)   事实上,当前的马云之于阿里,更多是一种精神象征,而不需要他负责操心具体的业务。因为,早在2013年...
日期:03-14