您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-04 18:02:45  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

华为平板 128GB

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

b站上市主体

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
我国探月计划公布:嫦娥七号将在月球南极着陆 要建月球科研站「我国将要发射一颗绕月运行的探月卫星」
据国家航天局消息,我国日前在海南海口召开了月球与深空探测特别会议。与会专家表示,嫦娥六号任务计划于2025年前后在文昌发射,目前已确定了氡气探测仪等4台国际荷载。据介绍,嫦...
日期:11-28
7c+ Gen 3 的 Chromebook 项目夭折 「消息称高通骁龙」_chromebook 7310
IT之家 8 月 13 日消息,据 Chromeunboxed 报道,原本备受期待的搭载高通骁龙 7c + 第三代芯片的 Chromebook 项目已经被取消,这意味着我们将无法看到这款性能强劲、续航出色的 A...
日期:09-18
百度输入法智能输入_AI手写、语音降低输入难度,百度输入法让老年人打字不费劲
  当移动互联网的发展为年轻人的生活带来诸多便利时,却不知不觉间将很多不会上网、不会使用智能手机的老年人挡在门外。现在智能手机几乎已人手必备,手机输入法也成为了人...
日期:07-16
4799元没人买账!RTX 4070价格“一泻千里” 一周跌去9%
从产品线布局和更新换代的角度来看,RTX 4070 4799元起的价格并不算离谱,而且不少超频版也直接来到起步价,似乎挺良心了。但是,市场和用户对于RTX 4070并不买账,上市一天之内国内...
日期:04-21
企业拼成本、拼价格毫无竞争力?经济学家马光远:改变竞争模式要鼓励通用技术,更得有耐心!_
12月22日,在2022网易未来大会创新力论坛上,著名经济学家、中国社会科学院研究生院经济学博士、产业经济学博士后马光远著名经济学家马光远发表了主题演讲《中国经济转型升级的...
日期:12-22
微信:治理个人帐号发布违禁品营销信息行为
5月29日 消息:微信发布《关于微信个人帐号发布违禁品营销信息的治理公告》称,近期,微信团队加强了对微信个人帐号发布违禁品信息行为的治理,包括但不限于违规利用互联网发布特...
日期:05-30
域名版图恐生变革 .co域名成增长最快新全球域名
  日前,.co域名的官方注册运营商 CO Internet S.A.S. 宣布, .co 域名注册突破100万大关。”Angel List(全球天使投资人寻求有前途的创业投资机遇的领先网站(Angel.co)创始人...
日期:07-30
厦门海辰新能源科技有限公司新闻「海辰储能高质量发展产值破百亿 获颁“厦门市首家独角兽企业”」
1 月 17 日,以“凝心聚力感恩逐光”为主题的“ 2023 年度海辰储能百亿产值致谢会”在海辰储能厦门总部国际会议厅举行。厦门市政府向海辰储能授牌“厦门市首家独角兽企业”,厦...
日期:01-19
“国潮起·万物生”2023科技国潮产业大会正式定档,7月相约余杭!
在“文化+科技”双轮驱动的国潮崛起语境下,科技创新正在成为推动产业变革的核心变量,同时也是影响商业市场竞争的关键要素。“国潮起·万物生—— 2023 科技国潮产业大会”应...
日期:05-26
微信又一个重磅功能来了:腾讯推出“问一问” 对标知乎_腾讯wechat
3月28日的微信公开课上,腾讯又给微信带来了多个新功能,其中视频号将增加付费订阅功能,同时微信搜一搜”团队则带来了一个对标知乎的新功能问一问”。联想air小新13能触屏么据介...
日期:03-29
非洲民航机场一天现三起严重事故:一名飞行员丧生_非洲航空失事
快科技1月19日消息,前段时间日本机场接连发生安全事故,引起网友关注热议,但最新报道显示,非洲民航机场更为离谱,曾一天在三个国家发生三起事故。据报道,日前,一架捷波航空33年机龄...
日期:01-19
讯飞办公系列产品——新中产职场人群的选择(讯飞智能办公本怎么样)
  12月30日,吴晓波年终秀在厦门国际会展中心如期举行。财经作家吴晓波发表了跨年演讲,盘点这一年的经济起伏并对即将到来的2020作了八大预测。场景实验室创始人吴声作为特...
日期:05-05
高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪「3d渲染清晰」
声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:梓文,授权转载发布。还原度也太高了。在开始今天的介绍前,先一起来看看下面的几个场景。雷军小米13发布会穿的白...
日期:08-28
张宇:Redmi Note 13是真的脱胎换骨 不像大家认识的Redmi了「红米note2013121」
快科技9月11日消息,小米集团张宇为Redmi Note 13系列预热。张宇表示,Redmi Note 13系列是真的脱胎换骨,不像大家之前认识的Redmi了。这次Redmi Note 13系列主打影像,后置主摄是...
日期:09-11
监控易信创运维:IT基础设施性能数据采集再现利好
信创,即为用国产化基础软硬件来替代国外产品,这对于我国IT产业发展是机遇,也是挑战。现如今,我国各大IT研发机构从关键环节核心组件自主创新着手,建立自主IT底层架构和标准,推动IT...
日期:06-06
佳能家用数码相机「佳能数码相机入门选哪款」
佳能是全球知名的电子产品制造商,其中家用数码相机是该品牌最为经典的产品之一。市场上拥有着广泛的用户群体,主要以高端消费者、业余摄影师和专业摄影师为主,深受大众的欢迎。...
日期:05-31
苹果发布 iOS 16.1 首个公开测试版:全面支持电量百分比显示_ios14.1显示电量百分比
IT之家 9 月 16 日消息,苹果今天向公众测试者发布了即将到来的 iOS 16.1 更新的首个测试版,相较开发者测试版仅晚了一天,不过更新内容应该是完全相同的,例如对电池百分比图标的...
日期:09-18
K60手机售价新低 16G版跌破两千_Redmi_红米k60至尊版测评
来源:中关村在线苹果15系列3d防尘全屏钢化膜小米Redmi K60手机是一款高性能的智能手机,搭载了高通骁龙8+ Gen 1移动平台。该款手机于去年12月31日首销,目前京东售价为1979元起(...
日期:10-31
百度Q2财报:营收341亿元,净利润同比增长43%至52.1亿
8月22日消息,百度发布了截至2023年6月30日的第二季度未经审计的财务报告。第二季度,百度实现营收341亿元,同比增长15%。归属于百度公司的净利润为52.10亿元,同比增长43%;归属百...
日期:08-22
12.4万保时捷首单用户发声:已获道歉 可能会买下「保时捷上千万」
前不久,保时捷官网12.4万元就能买帕纳梅拉的话题引起热议,官方称这是价格输入错误,在链接产生598个预订单后被官方下架。此事起因是银川保时捷中心在微信小程序商城上架了一台...
日期:02-09