您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-04 13:17:44  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

光储充项目

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

迷你世界联动QQ音乐

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

中国苹果手机和华为手机销量

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
足球迷必备!小米主题推出世界杯高清壁纸_ac米兰欧冠夺冠高清壁纸
2022届世界杯正在卡塔尔如火如荼进行中,这项顶级体育赛事受到了广泛关注。小米用户现在有福了,小米主题推出了世界杯高清壁纸。据介绍,这些壁纸是小米主题联合《FIFA 足球世界...
日期:11-25
ARM大变脸 要对高通“赶尽杀绝”:不给授权开发CPU_高通收购ARM
和NVIDIA的联姻失败后,ARM公司似乎正考虑大幅调整自己的经营方式。nvidia rtx a2000日前,高通在反诉ARM的文件中提到,后者酝酿在2024年后(2025年起)不再给半导体公司颁发完整的IP...
日期:11-07
闲鱼推出七天无理由退货 仅针对经营性卖家退款「闲鱼推出七天无理由退货 仅针对经营性卖家」
10月9日 消息:二手交易也能无理由退货了?近日,闲鱼发布了关于新增《闲鱼社区七天无理由退货规范》的公示通知。公告称,为保障卖家权益,闲鱼社区新增了七天无理由退货。值得注意...
日期:10-13
满帮推出区块链公路物流碳足迹管理平台,设专项基金鼓励碳减排
6月5日消息,世界环境日当天,满帮集团正式宣布升级“满运碳路计划”双碳战略,并与南京邮电大学正式达成双碳方面的战略合作,共同成立联合创新实验室,宣布双方共同打造的区块链公路...
日期:06-06
知名“大空头”查诺斯做空AMC院线、Zoom视频通讯
  华尔街知名大空头吉姆-查诺斯(Jim Chano)表示,他周一在meme股AMC院线开设了新的空头头寸。  AMC股价周二下跌约4%,昨日收盘暴跌近42%。查诺斯称,他购买了AMC优先股(APE)并做...
日期:08-25
魏少军:中国半导体投资力度不足,应自立自强主动作为_半导体所魏大海
7月20日,2023世界半导体大会期间,国际欧亚科学院院士、清华大学微电子所原所长魏少军发言指出,半导体产业的发展离不开投资,目前中国半导体投资有了大基金一期、二期,加起来有340...
日期:07-21
大华集团产品「大华股份:大模型技术提升智慧物联行业生产力」
2023/5/29 09:33 大华股份:大模型技术提升智慧物联行业生产力  颜翊 C114...
日期:06-02
新华三升级零碳智慧园区解决方案(新华三 智慧园区)
8月18日,紫光股份旗下新华三集团发布了其零碳智慧园区创新场景解决方案。mix2全面屏中国电子技术标准化研究院信息技术研究中心主任范科峰表示,“零碳智慧园区的核心特色在于...
日期:08-20
三大运营商:“携号转网”服务在全国上线试运行_运营商携号转网发展方向分析
  11月15日消息 11月10日,工信部发布《携号转网服务管理规定》,根据“携号转网”全国推广工作进度安排,各电信企业和中国信息通信研究院已完成全国“携号转网”系统建设改造...
日期:04-02
广告商抵制、估值仅剩三分之一 专家却断言马斯克不会卖掉X公司
1月3日消息,埃隆·马斯克(Elon Musk)会在继续亏损的情况下出售之前收购来的社交媒体平台X吗?专家们对此发表了看法。他们普遍认为,马斯克不见得愿意出售X公司,但可能会出售部分...
日期:01-03
全国大学文化程度人口超2.18亿:高等教育比例近25%_大学文凭人口占比
9月27日,国家教育部举办新闻发布会,介绍十年来教育改革发展的总体情况。据教育部发展规划司司长刘昌亚介绍,2021年,全国共有各级各类学校52.93万所,在校生2.91亿人;与2012年相比,学...
日期:09-30
国美电器多个破产申请被驳回 苏泊尔在列「国美电器下架」
凤凰网科技讯 2月8日消息,据天眼查App显示,近日,国美电器有限公司新增多个破产审查案件,申请人沈阳盛兴达厨卫用品有限公司、哈尔滨苏泊尔炊具销售有限责任公司、长春苏泊尔炊具...
日期:02-08
Trax成立零售与消费品行业领袖顾问委员会
  上海,2021年2月26日——全球领先的零售业计算机视觉解决方案和数据分析提供商Trax今日宣布成立顾问委员会。Trax顾问委员会成员均是消费品和零售业的行业领袖,将帮助Trax...
日期:07-16
隐图抑或雄心:高通发帖AI朋友圈
  高通用一年一度的一场技术峰会,为其AI战略做了专题展示。   10 月 25 日,高通在骁龙峰会上一举推出包括智能手机5G SoC和支持Windows11 的新一代旗舰PC芯片在内的AI技术...
日期:11-09
天猫养车首个生产性实训基地落地杭州「天猫养车培训」
12 月 5 日消息,阿里巴巴新康众产教融合示范基地近日落地杭州技师学院。该基地是天猫养车首个生产性实训基地,首个同时涵盖天猫养车产学研示范基地、新康众汽配供应链产学研示...
日期:12-06
vivo蓝心大模型内测资格获取方法 手机AI大模型哪个好
vivo蓝心大模型是vivo自研的通用大模型矩阵,它包含了十亿、百亿、千亿三个参数量级的模型,可以用于文本、语音、图像等多种模态的场景。vivo蓝心大模型具有以下五个特点:大而...
日期:12-04
山东省科学技术奖:本次行业唯一,累计行业第一「2021年度山东省科学技术奖建议授奖项目」
企业发展的主要动力来源于科技创新。那么,如何评价一个企业的科技创新实力?权威部门认可是重要因素之一。北京绿米智能家居6月20日,2022年度山东省科技创新大会召开。 本次行...
日期:06-25
使用 Windows 11 上的生成式人工智能助理 Copilot:您能执行的所有操作都在这里
11 月 6 日消息:尽管有许多疑虑,人工智能——特别是从提示中生成文本和图像的生成式 AI——继续被推广到我们日常使用的硬件和软件中。微软在这一领域一直很活跃,今年早些时候...
日期:11-07
苹果开始向 iPhone 用户发放“电池门”事件赔款,每笔92.17美元_苹果因电池门在欧洲多国面临诉讼
IT之家 1 月 7 日消息,作为“电池门”事件的大结局,苹果现已开始向“受害者”们发放赔偿金。参与该案并提交索赔的 iPhone 用户已经陆续获得打款,每份赔偿约 92.17 美元(IT之家...
日期:01-07
2019年brandz全球品牌价值100强_2022年BrandZ全球品牌百强发布:中国品牌14家上榜
  6月15日,“2022年BrandZ最具价值全球品牌100强”排行榜正式发布。  在今年的榜单中,苹果在硬件、软件和服务领域上不断拓展业务组合,实现了品牌差异化并重回榜首。谷歌...
日期:07-18