您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-05 11:50:58  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

发光的苹果logo

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

谷歌pixel watch 智能手表爆料

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
美团:获贝莱德增持975万股公司股份「美团持股股东」
  据港交所9月23日披露文件,贝莱德9月20日增持975万股美团股份,其持股比例从4.94%上升到5.11%。罗格朗公司全称苹果siri...
日期:09-28
英伟达并不是唯一受益者,AI训练也利好存储芯片厂商「英伟达最新aic」
5月30日消息,虽然存储芯片市场不景气,但人工智能有巨大的需求,这将使三星、SK海力士等公司受益。5月24日,英伟达发布财报,公司市值在两天内暴涨2070亿美元。此前,半导体行业一直处...
日期:05-30
Win11企业版默认启用SMB签名导致Bug:微软发布解决方案
快科技6月14日消息,早在一年前,微软就宣布Win11的家庭版将不再通过Server Message Block(SMB1)进行身份验证。但直到现在,SMB签名也依旧是Win11企业版的身份验证机制之一,甚至于在...
日期:06-15
鱿鱼游戏是网飞出品吗「网飞爆火网剧续作来了!《鱿鱼游戏》第二季官宣:老角色回归」
2021年9月,一部网飞出品、黄东赫执导《鱿鱼游戏》爆火,一度成为网飞观看量最高剧集,成为2021年的现象级作品,甚至不少游戏以及电影后续也融入了《鱿鱼游戏》的元素,剧中抠椪糖”...
日期:06-19
Mozilla向科技巨头 “开火”,指责谷歌、微软垄断浏览器市场「mozilla firefox和firefox」
声明:本文来自于微信公众号 OSC开源社区(ID:oschina2013),授权转载发布。Firefox 开发商 Mozilla 近日发布了一份研究报告(PDF 下载地址见文末),全文长达66页,主题是探讨为什么浏览...
日期:09-29
Redmi Note 13曝光 千元机皇要来了!「redmi 13评测」
Redmi Note系列下半年的迭代新机即将发布。按照Redmi的迭代策略,这款新机将是Redmi Note 13系列的正式代机型,而非T型机型。Redmi Note系列一直以来都以出色的性能和令人满意...
日期:06-26
首届线上云原生峰会精彩回顾,云原生正在吞噬世界_云原生核心网
  8 月 1 日,为期 3 天的“CloudNative + Open Source Virtual Summit China 2020 中国线上峰会”圆满落幕。该大会由 Linux 基金会旗下非营利组织云原生基金会(CNCF)主办...
日期:07-14
亚运开幕式现场万人AR互动创纪录! 支付宝AI+AR技术融合立大功
9月23日晚,杭州第19届亚运会开幕式精彩呈现,向世界奉献了一场精彩绝伦的视觉盛宴,数实融合成为最大亮点。作为亚运官方合作伙伴、技术服务方的支付宝用技术助力开幕式首创了数...
日期:09-24
人工智能再次挑战,大批高薪律师这次会被替代吗?_人工智能对律师行业的影响
4月10日消息,人工智能以前的进步曾经让人们预测,法律这个高薪行业将最有可能面临失业率大增的风险。但最终,这种预测并未成真。这一次会有所不同吗?以下是翻译内容:十多年前,一些...
日期:04-10
魅族172021「魅族Flyme 10.5内测招募开启:魅族20/PRO/INFINITY首批参与!」
快科技12月1日消息,今天,魅族Flyme 10.5的内测招募正式开启,首批参与机型为魅族20、魅族20 Pro以及魅族20 INFINITY。华为手表新款watch3可以微信聊天吗第二批参与Flyme 10.5内...
日期:12-02
IFA开幕在即,海尔智家四大品牌参展「海尔智家是海尔旗下的品牌吗」
  当地时间 9 月 1 日, 2023 柏林国际电子消费品展览会(以下简称IFA)将在德国柏林会展中心盛大开幕,预计来自全球各地的 2000 余家参展商和25. 6 万名观众参加此次展会。现场,...
日期:08-31
10月浏览器市场份额出炉:Chrome占比略有下降但仍占主导_浏览器市场占有率排名
  NetMarketShare最新公布了2019年10月份的浏览器市场份额数据。Chrome相比上个月出现了略微的降幅,但仍一马当先,依旧是近七成用户的浏览器首选。   可以看出,Chrome浏...
日期:05-15
指责索尼搞鬼,对诉监管部门:微软为收购动视拼了「索尼谁收购了」
  上周四,微软迎来了一个坏消息。他们连横游戏平台与内容的雄心战略,斥资687亿美元收购动视暴雪的交易,遭到了美国政府的无情拒绝。  游戏野心被泼冷水  美国反垄断监管...
日期:12-12
z460联想笔记本拆机视频「z460 联想」
联想的Z460系列是一款出色的笔记本电脑系列。它被设计成一款平衡性能和便携性的笔记本电脑。该系列采用强大的Intel Core i3, i5和i7处理器和Windows 7操作系统,为用户提供最...
日期:05-29
美国手机使用率「专业研究报告显示:美国 iPhone 用户比安卓故障发生率高出 58%!」
据GreenSmartphones网站报道,一项研究发现,相较于安卓系统,iOS用户遇到找不到功能的情况更频繁,研究认为安卓易用度明显高于iOS。该研究通过分析谷歌搜索引擎的数据,分别统计了安...
日期:06-25
2023全球光纤光缆大会 中天科技获颁“最具竞争力企业10强”
2023/5/20 16:12 2023全球光纤光缆大会 中天科技获颁“最具竞争力企业10强”   5月16日至18日,2023年APC全球光纤光缆大会在中国武汉光谷科技会展中心举行。大会以“纤...
日期:05-26
美团推出多款机器人  无人机“3公里15分钟”送货到家  _网易科技(美团无人配送机器人)
8月18日,美团在2022世界机器人大会上,展示多款在仓、在途、在楼机器人产品。本次大会吸引了130余家企业携500余件展品亮相,30余款全球首发新品将在博览会现场集中发布。资料图...
日期:08-19
华为预计2023年实现销售收入超7000亿元_2020年上半年华为销售收入
12月29日 消息:华为轮值董事长胡厚崑发布新年致辞称,预计华为2023年实现销售收入超过7000亿元人民币,其中ICT基础设施业务保持稳健,终端业务好于预期,数字能源和云业务实现良好...
日期:12-29
马斯克星链天线「马斯克:正努力终结“网络死角” 第二代星链将能直连手机」
8月26日消息,美国当地时间周四,SpaceX创始人埃隆·马斯克(Elon Musk)和T-Mobile首席执行官迈克·西弗特(Mike Sievert)表示,两家公司正在努力终结“网络死角”,并将推出全新的移动服...
日期:08-26
信通院张海懿:400G长距即将步入商用,800G标准和实验验证有序推进_张信军 海通
通信世界网消息(CWW)新型算力、AIGC等创新业务与应用蓬勃发展,引发全光运力加速升级演进需求,光网络持续向更高速率、更大容量、更低能耗等方向演进趋势明显。因此400G、800G等...
日期:11-10