您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-06 23:26:53  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

去猿辅导的培训目标

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
刷视频挣钱是什么套路「“刷视频赚钱”套路为何屡打不绝」
;  李英锋  “边刷视频边赚钱”“轻松日赚百元”……近期,在部分短视频平台、社交媒体平台上经常能看见这样的广告语,推广一些号称可以通过刷视频赚钱的App。刷刷视频就能...
日期:10-01
扎克伯格 元宇宙「消失的元宇宙,扎克伯格的野心哪去了?」
凤凰网科技讯 北京时间3月15日消息,大约一年前,脸书母公司Meta CEO马克扎克伯格(Mark Zuckerberg)还在滔滔不绝地谈论元宇宙,声称这不亚于整个公司的未来。为了凸显这一雄心壮...
日期:03-15
外媒爆料华为海思下月发布麒麟990 5G基带领先高通半年以上_华为海思麒麟990相当于骁龙多少
  报道中提到,Mate 30系列会在今年9月19日亮相,而在这之前 ,华为将在德国IFA大会上发布麒麟新一代旗舰处理器,命名上可能直接跳过原来的方式,既冠以麒麟990的称号。   8月1...
日期:10-08
抖音电商:好物年货节商家直播累计时长超2945万小时_抖音年货节直播方案
1月9日 消息:12月28日,抖音电商正式开启“抖音好物年货节”,推出跨店每满150减20元,活动为期11天,至1月7日结束。昨日,抖音公布数据称,好物年货节活动期间,商家直播累计时长超过294...
日期:01-09
英伟达发布GH200超级芯片平台:股价却破防 大跌近5%「英伟达芯片组」
雷递网 乐天 8月10日英伟达日前发布新一代NVIDIAGH200GraceHopper™平台,英伟达称,该平台基于全球首款搭载HBM3e处理器的GraceHopper超级芯片,专为加速计算和生成式AI时代而构...
日期:08-10
杭州一居民家门口地面有80℃ 挖开后发现藏着电缆「家门口有电线柱子危险吗」
杭州余杭一位居民向外界求援,说自己家的农居房门前的一片水泥地面异常炙热,温度极高。究竟有多高呢,经过测量后,这片地面区域温度已经达到了80℃。消防员用各种工具敲开地面,费了...
日期:06-06
搜狐视频COO刘春近日接受专访时首度确认分拆预期
  “搜狐视频目前确有分拆计划,但相关时间表尚未确定。”搜狐视频COO刘春近日接受《第一财经日报》专访时透露。这是他首度确认分拆预期。   目前,视频业务仍置于搜狐娱...
日期:07-30
抖音发布春节提醒,建议家长为孩子开启青少年模式_打开抖音提示青少年模式
  近日,抖音官方账号“抖音黑板报”发布春节提醒,假期在孩子使用抖音时,建议家长开启青少年模式。公告详细讲解了青少年模式的开启方式,以及青少年模式下孩子可以获得的保护...
日期:07-16
云云协同双擎驱动 华为应用市场全面赋能开发者用户增长(华为云端云协同)
  5G、云计算、大数据、区块链等新技术正快速推动着数字经济迅猛发展,如何把握数字经济红利,逐渐成为各企业创新发展的“必答题”。6月24日,“进而有为”华为云城市峰会2...
日期:09-24
元宇宙虚拟房产「元宇宙也有地产泡沫?炒房客这下血本无归了」
声明:本文来自微信公众号“三易生活”(ID:IT-3eLife),作者:三易菌,授权转载发布。作为区块链的衍生品,元宇宙房产自然也与NFT和加密货币“同此凉热”。9月1日,2022世界人工智能大会...
日期:09-13
快手 q2财报「快手Q2国内业务单季盈利 现金储备因存款理财而下滑」
查看最新行情   作者/吕倩电咖新能源汽车  8月23日,快手科技(01024.HK)发布2022年第二季度业绩。该季度快手总营收同比增长13.4%至217亿元...
日期:09-04
3年轻人20万开店日营业额仅79元 工资都开不出来「20万开店多久回本正常」
一个月前,蔡先生和他的两个朋友合资20多万元,在河南郑州开了一家汉堡店。可是,他们的生意却非常惨淡,一天的收入只有79.2元。蔡先生说,他们每天都很难卖出100元的汉堡,店里的三个...
日期:04-11
CEO贾西亲自监督,亚马逊被曝组建新团队研发大语言模型_亚马逊 新ceo
8月1日消息,报道称,亚马逊CEO安迪·贾西(Andy Jassy)现在直接领导全新团队,致力于开发AI项目。最新泄露的内部电子邮件显示,贾西已通知由二十多位亚马逊高管组成的“S团队”,他提拔...
日期:09-19
机械硬盘为什么越大越贵「机械硬盘越混越惨了:三大品牌出货量雪上加霜」
机械硬盘本就遭遇着被SSD取代的艰难时刻,没想到又遇到PC电脑空前的低迷危机,境况可想而知了。来自StorageNewsletter和Trendfocus联合发布的数据显示,今年第二季度,全球机械硬盘...
日期:09-11
网友投诉餐馆反向抹零多收4毛:商家被罚1200元「商家反向抹零怎么举报」
平时我们在外购物吃饭,结账的时候商家顺手抹去零头是常有的事,但是你见过反向抹零”的吗?据四川当地报道,近期在一网友在攀枝花市某餐馆消费应付餐费147.6元,餐馆却收取了148元。...
日期:03-25
微信文章底部增加淘宝入口_微信文章底部增加淘宝入口怎么弄
IT之家 2 月 7 日消息,近日淘宝在微信中又多了一个新的流量入口,就在微信文章底部的广告位,点击该位置的淘宝页面之后,可直接从微信跳转到淘宝内完成购买,且能返回淘宝首页浏览更...
日期:02-07
2022元宇宙共享大会|元宇宙共创大赛暨产业风云榜合作启动_世界元宇宙大会
央链直播报道, 2022 年 8 月 16 日,“开放与兼容” 2022 元宇宙共享大会暨《元宇宙十大技术》图书首 发仪式,及元宇宙产业委第 一届第二次全体委员大会,在北京西山国管局杏林山...
日期:09-10
慧聪网为中小企业赋能 推动数字化转型升级(以数字化智能化促进企业转型升级)
  据中国工业和信息化部数据显示,在中国,中小企业贡献了50%以上的税收、60%以上的GDP、70%以上的技术创新和80%以上的城镇劳动就业。中小企业在我国经济中有着举足轻重的地...
日期:07-14
2023鼎捷软件生态伙伴大会成功举办 携手共享万亿市场
4月24日,“2023鼎捷软件生态伙伴大会”在苏州拉开帷幕。本次大会以“鼎聚生态力量 捷创数智未来”为主题,汇集300余位嘉宾参会,大会邀请了政府、机构领导,移动、联通、电信等运...
日期:04-27
2023年淘宝天猫京东双11红包领取第2波京东天猫双十一活动时间什么时候开始到几号结束?
本文为大家提供众多福利:2023 年淘宝/天猫双十一红包第 2 波活动时间与领取入口最高 23888 超级红包及跨店满减规则;2023 年京东双十一红包第 2 波活动时间与领取入口最高 111...
日期:11-03