您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-05 16:53:04  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

极米科技2019年的产值

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
买什么相机好_学生买什么相机好
相机已经成为了现代人生活中必不可少的一部分,它不仅能够记录美好的瞬间,还可以帮助我们发掘更多美的东西。当我们面对如此多的相机选择时,如何选择一款好的相机便成为了一个问...
日期:06-04
上任把火!马斯克完成收购推特 开除多名高管「马斯克删推特账号 新闻」
10月28日 消息:27日,特斯拉CEO马斯克正式收购了社交媒体公司Twitter,收购金额为440亿美元。入主推特后,马斯克做的第一件事就是开除多名高管,冻结并检查所有代码。目前,马斯克已...
日期:11-01
华硕Zenfone 10外观曝光:骁龙8 Gen2旗舰_华硕zenfone8中国上市吗
如今,智能手机的屏幕越做越大,虽然视觉效果更佳,但是便携性就不那么理想了。对于喜爱小屏旗舰手机的用户而言,华硕Zenfone系列是一个不错的选择。最近,知名数码博主Evan Blass曝...
日期:06-21
B站百大,一个挖增量的游戏_b站百大能赚多少钱
声明:本文来自于微信公众号 字母榜(ID:wujicaijing),作者:彦飞,授权转载发布。2021年10月,在中国市场挣扎多年的二线豪车品牌沃尔沃,请来一位新代言人:罗翔。沃尔沃广告海报中,罗翔...
日期:01-09
显卡会降频吗「Intel显卡被曝降频:闪电搞定」
日前有玩家和媒体发现,Intel Arc A770 16GB限量版显卡存在降频问题,显存实际频率并非标称的17.5GHz,而是16GHz。redmi note 11t pro 1399元具体原因不详,不确认是软件识别错误,还...
日期:10-31
菜鸟推出自营快递“菜鸟速递”:全国近300城承诺晚到、破损、不上门必赔
快科技6月28日讯,阿里巴巴旗下菜鸟集团宣布推出自营的快递业务:菜鸟速递。据了解,快递“菜鸟速递”由服务天猫超市的配送业务升级为全国快递网络,主打好用不贵,并提供半日达、当...
日期:06-29
元宇宙招聘「元宇宙相关岗位平均月薪1.85万元 最高能拿4万」
  来源:快科技  元宇宙作为第三代互联网形态,其时空拓展、高度沉浸、感官延伸、人机融生等特点,让人心生向往。目前各大企业也纷纷布局元宇宙。  9月26日,智联招聘发布《2...
日期:09-29
新东方智慧教育平台「新东方智慧教育助力教育行业均衡高质量发展」
在智慧教育的浪潮中,新东方智慧教育以其出色的表现和强大的实力引人注目。作为教育科技领域的重要参与者和探索者,新东方智慧教育不仅在技术上不断创新和迭代,而且在教育思想和...
日期:05-05
HEY!精致生活,从HARMAY話梅科技好物开始(harmay话梅官网购物)
  生发帽、增肌健身仪、美妆冰箱……一大波与众不同,而又令人忍不住想要一探究竟的黑科技产品,集体在HARMAY話梅北京西单更新场店登场。伴随此次話梅西单更新场店开业,【話...
日期:09-22
亚马逊常用代码「亚马逊推出 AI 编程工具CodeWhisperer 正式版」
IT之家 11 月 29 日消息,亚马逊在去年 6 月推出了 AI 编程工具 CodeWhisperer 的预览版,而在今日的“AWS re:Invent 2023”活动中,亚马逊公布了 CodeWhisperer 的正式版本。亚...
日期:11-30
创新驱动“十四五”数字中国建设,开创数字化治理新时代_十四五时期 加快数字化发展
  在全球“百年未有之大变局”大背景下,2021年,全球经济依然受到新冠肺炎疫情影响,然而中国在数字经济发展方面逆势而上,带来了“十四五”规划开局之年的新气象。   一方面...
日期:05-14
oppofind x7具体发布时间Find X7系列卖点前瞻 全球首款双潜望加持影像“封神” OPPO
来源:中关村在线1月8日14:30,OPPO Find X7系列即将正式发布,目前其已经在全网吸引了超越百万预约,热度极高。这个被称为“封神旗舰”的系列究竟有何魔力?让我们从目前放出的预热...
日期:01-08
特斯拉6月销量吊打国产电动车「9月份纯电动车销量榜:特斯拉“大小王”继续霸榜」
刚刚过去的9月,国内狭义乘用车市场销量达192.2万辆,同比增长21.5%,环比8月的187.1万辆增长2.8%,汽车市场继续快速复苏,而新能源阵营销量也再创历史新高,9月销量70.8万辆,同比增长93...
日期:10-18
小米电视大师系列正式亮相_小米电视大师发布时间
  (原标题::4K 120Hz / 动态 HDR / 四窄边全面屏)   7月2日消息 今日下午,在小米电视大师系列品鉴会上,。   小米电视大师系列采用四窄边全面屏设计,搭配无缝一体成型中框...
日期:07-14
李想发微博夸比亚迪:这方面比特斯拉还好「李想多大」
(原标题:李想发微博夸比亚迪:这方面比特斯拉还好) 每经编辑 黄胜3月29日,针对比亚迪最新的财报,理想汽车CEO李想发微博称:“第四季...
日期:03-29
全球最强!传音发布260W有线、110无线快充:8分钟充满「传音手机率先实现160w快充」
前不久,Redmi展示了Note 12 Pro+魔改版,实现了300W的快充功率,实测仅需5分钟即可充满。需要注意的是,既然被叫做魔改版,这款300W充电技术就极大概率不会量产。知网论文撤稿而另一...
日期:03-11
光年之外袁进辉再创业,澄清美团20亿收购谜团:投资人不赔不赚,王慧文真花了钱
出品 | 科技作者 | 梁昌均一则5000万元的天使轮投资,让外界再次关注到美团联合创始人王慧文和美团之前的一场交易。获得融资的是光年之外联合创始人袁进辉再次创业成立的公司...
日期:01-14
确认搭载可变光圈+全焦段四摄 「小米13」-Ultra影像狂堆料
经过了好长一段时间的密集爆料,大家期待已久的小米年度旗舰终于在不久前迎来了正式官宣。据小米和徕卡相机官方联合宣布,由徕卡和小米联合研发的小米13 Ultra将于本月正式与大...
日期:09-18
苹果 iPhone 14 / Pro 系列配色爆料:紫色将取代粉色和远峰蓝_iphone12pro粉色
IT之家 8 月 31 日消息,一周后,苹果将为大家带来全新的 iPhone 14 和 iPhone 14 Pro 系列机型。Twitter 爆料者 @Jioriku 和 Naver 爆料者透露了一些关于新机的配色信息。基于...
日期:09-26
浙大校长杜江峰谈华为崛起的经验 鼓励毕业生到艰苦环境和基层一线去磨砺
快科技6月26日消息,日前,浙大校长杜江峰在浙江大学2023届本科生毕业典礼上,发表了《逐梦星河 弘毅致远 奔赴下一场山海》的讲话。杜江峰表示,进入数字时代,知识迭代更新的速度进...
日期:06-26