您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-06 03:16:12  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

科大讯飞1024开发者节直播

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

阿特拉斯卡车

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
年中大促来了!淘宝天猫618预售开启:投入力度前所未有_淘宝天猫618什么时候结束
快科技5月26日讯,今晚20点,淘宝、天猫同步开启618预售,你加购心仪的商品没?按照此前启动会上的说法,今年淘宝天猫618是历史上最大投入的一届,除了满减之外,将首次推出聚划算直降场,...
日期:05-27
通信世界全媒体“总编逛展”
通信世界网消息(CWW)小米高管潘九堂介绍恐怖惊悚类游戏新浪2020科技风云榜...
日期:06-04
苹果 iOS 17.3 公开测试版发布:新增失窃设备保护功能_iphone失窃和遗失保障
苹果公司于昨天发布了iOS 17.2正式版系统,今日为开发者推出了iOS 17.3 Beta版本的更新。这次的更新中,苹果首次引入了“失窃设备保护”(Stolen Device Protection)功能。当用户...
日期:12-14
网红俄罗斯小哥「俄罗斯小哥ChatGPT找女友:聊了5239个女生,现在订婚了」
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。美国亚马逊董事长有事 AI 它是真上啊。我向一位女生求婚,ChatGPT 已经和她交流了一年。...
日期:02-06
观潮论坛:中外专家汇聚BCS共商数字世界竞合之路
  数字技术缔造了数字世界,让全球连接更加紧密,但也带来空前激烈的全球科技竞争,数字世界已成大国博弈的主领域。面对技术垄断、国家数据主权、关键基础设施安全、勒索攻击...
日期:08-09
“富域计划”亮相成都春熙路,推介川渝家乡味
  一口川渝美味,巴适得板。近日,抖音电商“富域计划”走进成都春熙路,推出“家乡的味道”线下集市,集合众多川渝商家在抖音开播,将当地美食推荐给全国消费者。   6月28日至3...
日期:08-03
电信光缆招标「中国电信启动2023-2024年度干线光缆及配套设备集采」
2023/5/29 15:13 中国电信启动2023-2024年度干线光缆及配套设备集采  水易 C114讯 5月29日消息(水易)来自中国电信官方消息,中国电信2023-2024年度干线光缆线路工程光缆及...
日期:05-29
坚果g9功率_高颜值搭配强功能,坚果G9实为“高性价比机皇”
  挑选产品的时候,特别是购买价格不菲的电子产品,我们一般在意的都是什么呢?品牌?配置?功能?哪怕其中一个有质疑都不敢轻易入手。所以能经受住来自消费者的目光与考验,还能...
日期:05-06
液晶屏不良率接近20%!乐视电视手撕代工厂:《甄嬛传》收入都被你吃了
在最受欢迎的时候,全国每售出5台电视,就有1台是乐视超级电视。 中兴旗下品牌手机智能机器人叫什么马来西亚芯片工厂最新消息新零售巨头不是京东淘宝商户抗议事件   来源:时代...
日期:08-12
顶配卖12400元!三星Galaxy S24 Ultra发布:万元骁龙8 Gen3机皇
快科技1月18日消息,三星举行Galaxy S24系列新品发布会,除了发布Galaxy S24、Galaxy S24 外,还推出了超大杯机型Galaxy S24 Ultra。售价方面,12GB 256GB售价1300美元(约合人民币93...
日期:01-18
微信视频号:预计投入50亿流量帮助新主播开播 完善变现工具和激励政策
1 月 10 日讯:在今日的 2023 微信公开课PRO上,内容主要从短视频、直播以及直播带货三个维度展开。在会上,微信视频号团队宣布, 新一年预计投入 50 亿流量,持续帮助新主播开播。...
日期:01-10
董明珠称格力研发人员全部来自中国高校「格力员工评价董明珠」
10月9日消息,格力电器董事长董明珠近日在接受媒体采访时谈到研发团队,她表示,格力是非常特殊的一个企业,没有外资、没有外国所谓的国际人才,格力所有的一万几千个研发人员全部来...
日期:10-18
创建gpt磁盘「GPTS应用怎么创建?GPTS无法创建应用很卡怎么办」
在首届开发者大会上,OpenAI宣布推出了GPTs功能,也就是GPT Store,类似App Store的应用商店,任何用户都可以去参与创建应用。那么GPTS应用该如何创建?碰到应用无法创建很卡怎么办...
日期:11-13
中科创达与北京智源人工智能研究院成立AI大模型实验室_北京科创智源生物科技有限公司
7月13日 消息:今日,中科创达宣布与北京智源人工智能研究院共同成立”魔方未来联合实验室“。基于该实验室,双方将在大模型开发与应用创新等方面展开战略合作,通过优势资源共享...
日期:07-13
海信电视 艺术画廊「明与暗的极致探索!光绘艺术家与海信电视U8双向奔赴」
在普通人眼里,光是能让色彩真实浮现的明亮。但在艺术家眼里,光还是可以绘制生动艺术的画笔。对于光的极 致追求,总有一些人与事物会双向奔赴,比如光绘艺术家王思博与他的“最 佳...
日期:12-29
新记录!理想汽车4月交付2.56万辆:L7单月交付破万 皇后座太香_理想汽车 2021
快科技5月1日消息,5月第一天,又到了各大汽车厂商交4月成绩单的时候了,根据理想汽车公布的4月交付数据显示,其再次创下新的记录。据了解,今年4月理想汽车共交付新车25681辆,再次创...
日期:05-01
劳斯莱斯创百年史上最高销售纪录 宾利不甘示弱:年度热销1.5万台
近日,据劳斯莱斯汽官方,在刚刚过去的2022年,其品牌销量创下历史新高,在全球约50个国家和地区的客户交付汽车达6021辆,同比增长8%,创下了成立百年来最高销售纪录。奢华车领域的另外...
日期:01-10
摩托罗拉ThinkPhone现身CES 2023:新一代骁龙8+商务旗舰
在经过多轮曝光后,摩托罗拉在CES 2023上首次正式公布ThinkPhone,证明了这款手机的真实存在,并明确其属于摩托罗拉品牌产品线。以创始人命名的品牌零跑汽车 IPO从官方渲染图来看...
日期:01-04
华为发布全球首个商用能源行业 AI 大模型「盘古矿山大模型」_华为盘古概念股
7月18日消息:华为联合山东能源集团在今天发布会上宣布,华为盘古大模型在矿山领域实现了首次商用,解决了人工智能在矿山领域落地难的问题,引领矿山 AI 开发模式从作坊式向工厂式...
日期:07-19
Intel 14代酷睿i3原地踏步!4核心变6核心梦碎_第四代酷睿i3 4130
Raptor Lake Refresh 14代酷睿只会是13代的升级版,不同型号增加核心、提升频率、扩大缓存,大概率还会拉高内存频率支持。不过,最初的曝料看起来很美好,后来却被发现并非如此,i5系...
日期:07-27