您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-04 19:10:46  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

小米的编号

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

vivos6前置像素

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

安全平台手机移动版app

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
6299元起!中兴Axon 50Ultra开启预约:骁龙8 Gen 1芯片加持
中兴 Axon 50 Ultra 5G 手机已经上架电商平台进行预约,该手机拥有高通骁龙 8Gen 1 处理器,12GB 256GB 和 12GB 512GB 存储组合可选,并配备 13 根天线,支持自适应多天线切换和快...
日期:06-15
谷歌取消进入办公区必须接种新冠疫苗要求 称"世界已经不同"
4月12日消息,美国当地时间周二,谷歌向该公司全体员工发电子邮件,宣布在全球办公区取消进入办公楼需要接种新冠肺炎疫苗的要求,并称“世界已经变得不同”。在这封电子邮件中,谷歌...
日期:04-12
北大团队:诱导大模型“幻觉”只需一串乱码!大小羊驼全中招
kid 投稿自 凹非寺量子位 | 公众号 QbitAI 北大团队最新研究发现:随机token都能诱发大模型出现幻觉!比如喂给大模型(Vicuna-7B)一段“乱码”,它就莫名其妙弄错了历史常识。比亚...
日期:10-30
中联通童晓渝:分层分级构建公有云生态系统
  在近日召开的“云计算发展与政策论坛”成立仪式上,中国联通研究院副院长童晓渝表示,不要被动等待云计算标准的出台,而应借鉴国外领先云架构模式,推进国内云计算发展。同时,...
日期:07-22
全球电动车总销量「2022年全球电动车销量排行榜前十名出炉:中国霸气占7席」
快科技5月13日消息,近日海外汽车媒体Motor1”公布了2022年全球纯电动车销量排名,特斯拉两款主销车上榜,而中国则霸占了7席。来看具体榜单,第一二名均来自特斯拉,分别为Model Y和M...
日期:05-13
MediaTek展示天玑旗舰技术,先进科技引领移动平台创新趋势_天玑科技官网
10月12日消息,MediaTek举办天玑旗舰技术媒体沟通会,分享了天玑5G移动平台的最新技术进展和前沿趋势,包括移动光追、移动GPU增效方案、AI图像语义分割、5G新双通、Wi-Fi 7、高保...
日期:10-14
最便宜的Mate 50系列明天开售:现在能预购_mate 40预售
中关村在线消息:明天上午10:08分,华为Mate 50系列最后一款机型华为Mate 50E也将开售,该机是华为Mate 50系列中最便宜的机型,同时也是最轻薄的机型,仅7.98mm,起售价为3999元。目前,...
日期:10-14
周鸿祎:ChatGPT可能出现自我意识 人工智能会把人类消灭
360董事长周鸿祎日前在个人微博,大谈特谈他对ChatGPT的观点。当然,这一次周鸿祎畅想了今后演进的一些场景,他认为以后硅基的CPU产生自我意识不是没可能。ChatGPT是潘多拉盒子,人...
日期:02-15
中国互联网上市两大“法宝”:用户+增长
  墙内开花墙外也香,海外资本市场的中国概念股也迎来了属于自己的“春天”。   今年一季度陆续爆发的中东和北非政局巨变以及接踵而来的日本地震增加了市场对于政治格局...
日期:07-27
安全带有多重要?大爷坐大巴车座位上被弹起6次 全身多处骨折「长途大巴安全带」
坐车一定要系安全带,特别是大巴车这样的客运车辆,因为减震行程长,且路途颠簸,如果不系安全带的话,可能就会像下文这位大爷一样,直接被颠到医院。日前,网友上传视频显示,在一辆客车上...
日期:08-21
月饼新规来了!电商再难见500元以上的月饼(1000元月饼)
记者|俞瑶 张露曦; 编辑|余冬梅 于曼歌   距一年一度的中秋节还有不到一个月的时间,月饼已被各大商家摆放售卖。但今年的月饼行情有了新变化。   一位做定制月饼加补品礼...
日期:08-16
为什么说AI现在还不行?_ai不能代替人的原因
图片来源@视觉中国文 | 李智勇AI最近有点被妖魔化了,很像一个老虎在还没有橘猫大的时候,就已经被天天当成虎力大仙来讨论。这种普遍的高预期其实是有害的,尤其是当事情本身还需...
日期:12-11
五部门印发虚拟现实与行业应用融合发展行动计划「五部门印发虚拟现实与行业应用融合发展行动计划」
11月1日 消息:今日,为提升我国虚拟现实产业核心技术创新能力,加快虚拟现实与行业应用融合发展,工信部等五部门印发了《虚拟现实与行业应用融合发展行动计划(2022—2026年)》。计...
日期:11-03
网易在中国排第几「网易成中国市值第四大互联网公司」
12月14日 消息:截至12月13日收盘,网易的港股市值达到了5425亿港元,超过了美团的5133亿港元市值,使其成为中国的第四大互联网公司。vivo x fold外观体验最新的财报显示,2023年第...
日期:12-14
鲁大师7月新机性能榜:第一名有些意外!(鲁大师性能天梯图)
  鲁大师数据中心公布了7月安卓新发布手机性能排行榜,数据来自鲁大师APP 07.01日-07.31日的数据,榜单只筛选在这期间新发布的机型。部分新机测试数据较少或为工程机数据,分...
日期:07-17
短剧创业者:短剧赛道八成项目亏损 稳赚的只有流量平台_短剧创作的步骤
最近,岳昊对短剧行业发展进行了评价,他表示:“在风口上,赚钱和呼吸一样简单。” 岳昊,一位曾在影视行业打拼多年的专业人士,从表演出身后转向编剧和导演,决定再次创业,这次的方向是...
日期:11-30
抖音新潮好物夜,抖音电商的破圈之战_抖音电商好物秒杀频道第一个活动专区
  从2015年电商平台首次与一线卫视搭台办购物节晚会到现在,这一模式已经成为了电视综艺节目和电商购物节促销活融合的一种独特的状态。   如今,六年过去了,这一种以晚会...
日期:01-25
10岁以下网民占35%_我国10岁以下小小网民有420万 比例达1.1%
  随着互联网技能的增长、互联网接入终端的普及,越来越多的未成年人成为网民,而且年龄越来越小。刚刚在京发布的国内第一本青少年蓝皮书《中国未成年人互联网运用报告(2009...
日期:07-30
WIN7出现高危漏洞 金山卫士快速修复(电脑修复高危漏洞时可以取消修复)
  11月9日,微软例行发布了本月的安全补丁。本月微软共发布了4个补丁,其中修复了一个影响Windows 7操作系统的高危漏洞。攻击者可借由该漏洞,远程控制用户电脑,任由黑客摆布。...
日期:07-24
北京移动推手机对讲 可实现全国范围内使用_中国移动手机对讲
  昨天,北京移动宣布推出“手机对讲”业务,该业务基于移动通信网络,在手机上可实现类似对讲机的功能。   据北京移动方面介绍,“手机对讲”使用的是GPRS网络,不同于普通对讲...
日期:07-24