您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-04 10:32:57  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

redmi型号图片

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

tcl电视销量世界前三

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

十年前的富士康

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

小米9有屏下指纹

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
每周AI大事件|苹果开发Apple GPT、OpenAI用合成数据训AI、GPT-4变得越来越笨
欢迎来到的[每周AI大事件],这里记录了过去一周值得关注的AI领域热点内容,帮助大家更好地了解人工智能领域的动态和发展风向。Part1动态[国内要闻]1.腾讯音乐推出AI社交APP“未...
日期:07-21
极光:2019年Q4智能手机行业季度数据研究报告(2020年Q4季度手机销量)
  极光 (Aurora Mobile,NASDAQ:JG)发布《2019年Q4智能手机行业季度数据研究报告》,从智能手机整体市场情况、5G手机及iPhone专题研究、安卓手机品牌忠诚度等方面洞悉Q4智能...
日期:03-23
荣耀保时捷设计首款荣耀与保时捷设计联合打造先锋之作将于今晚发布 为先锋而生
来源:中关村在线简单的猜成语游戏特斯拉Q3交付量创纪录,连续五个季度实现盈利中关村在线消息:今日上午9:00,荣耀手机官方放出概念视频,对首款保时捷设计产品进行预热。根据之前...
日期:01-12
又一款产品 AirPods将于2024年12月在印度开始生产
近年来,苹果开始在印度生产iPhone等广受欢迎的产品。该公司最大的供应商富士康负责其在该地区的智能手机生产,现在,它似乎也将在其工厂生产AirPods。根据一份新的报道,苹果正计...
日期:08-18
印度耗资百亿卢比的大桥又塌了 可能是建筑材料质量不行_印度大桥26亿倒塌事故真假
据报道,印度比哈尔邦正在建设跨越恒河的阿格瓦尼-苏丹甘吉大桥,该桥近日再次发生了部分坍塌的事件,然而目前还没有收到人员伤亡的报告。当局表示这座桥梁是该邦政府最有野心的...
日期:06-05
中国载人登月火箭进展「130吨级 3300秒!中国载人登月火箭主力发动机创新纪录」
快科技6月2日消息,中国航天科技集团六院研制的我国载人登月火箭主力发动机,130吨级泵后摆液氧煤油发动机,近日圆满完成上台后的第六次试车。日本的车企至此,这台发动机累计试车...
日期:06-03
CWI中国首家概念店“亮相”:重新定义AIOT时代的健康管理中心
  昨日,加拿大健康管理中心CWI(中国)首家概念店正式亮相北京。该店是依托生活方式医学理论体系,结合人工智能平台建立的健康管理中心,同时也是CWI与妙健康在国内共同打造的...
日期:02-11
四相科技用高精度定位技术助力国产飞机C919生产智能化
5 月 29 日,国产大飞机C919 首 次搭载 135 名旅客从上海虹桥机场平稳地降落在成都天府国际机场,开启常态化运营。从 1970 年中国自主研制的“运十”飞机立项,到 2023 年C919 成...
日期:05-31
格力直播间删除孟羽童视频  孟羽童发文称靠别人永远不如靠自己
近日,有媒体在短视频APP上搜寻“明珠羽童精选”,只发现了一个名为“格力明珠精选”的直播间。这个直播间曾经的头像是董明珠和孟羽童合影,但现在只剩下了单独的董明珠头像。中...
日期:05-10
Gizmodo西班牙网站改用AI翻译发文,老编辑被裁员
IT之家 9 月 7 日消息,Gizmodo 母公司 G / O Media 近日发布公告,旗下西班牙子网站 Gizmodo en Español 解雇所有编辑和记者,今后改用人工智能,自动将英文报道翻译为西班牙语进...
日期:09-09
华为最新平板电脑_华为最新平板电脑是哪款
华为近日推出了最新款平板电脑,它拥有强大的性能和出色的视觉体验,让用户能够更为愉悦地进行办公、娱乐等活动。下面就让我们来看看这款的具体特点和优势。造车跑路美国联想拯...
日期:05-31
云南移动政企部总经理「中国移动与云南省政府签署战略合作协议」
通信世界网消息(CWW)11月28日,中国移动通信集团有限公司与云南省人民政府签署战略合作框架协议。云南省委书记王宁、省长王予波,中国移动党组书记、董事长杨杰出席签约仪式;云南...
日期:11-30
双11招聘信息「“天猫双11招聘季”正式上线国家大学生就业服务平台」
11 月 7 日消息,在教育部学生服务与素质发展中心指导下,近日,阿里巴巴与生态商家共同发起的“天猫双 11 招聘季”正式上线国家大学生就业服务平台,即日起,通过教育部国家大学生就...
日期:11-13
5g救护车的概念「印度推出首辆5G救护车 所有设备可在5G网络下运转」
  10 月 4 日消息,印度 10 月 1 日在印度移动大会上宣布正式推出 5G 服务,并将在年内提供给近 75% 的人群,第一阶段覆盖 13 城,2023 年底前推广全国。  据央视新闻报道,大...
日期:10-09
华为创新中国华云共享世界_华为云深耕云原生技术,助力云时代数字化转型
  近日,在2019华为全球分析师大会期间,华为云PaaS首席科学家熊英博士在+智能,见未来(华为云&大数据)的分论坛上,从云计算行业发展谈起,深入云原生发展趋势,对华为云智能应用平...
日期:05-12
深耕实体制造业-为新能源汽车产业集群贡献民企力量 赛力斯张兴海
6月19日,重庆市推动民营经济高质量发展大会召开,重庆市多家优秀民营企业代表参会并发言。重庆市工商联主席、赛力斯集团董事长(创始人)张兴海在演讲中表示,“赛力斯集团从一根弹...
日期:09-23
俞敏洪:直播带货是东北人的机会 中国人民太喜欢听他们讲话了_俞敏洪现场直播
2023年亚布力论坛第九届创新年会将于6月17日-18日在山西太原召开。新东方教育科技集团董事长俞敏洪与泰康保险集团股份有限公司创始人、董事长兼CEO陈东升展开对话。苹果发...
日期:06-19
李子柒时隔两年回归?新造型引热议,网友:完全认不出
时隔两年后,李子柒终于在最新发布的视频中再次亮相了,视频中她穿着一件白色T恤看起来很随意,但是一些网友发现她看起来和以前似乎不太一样了。她的长发已经垂到了腰际,妆容依旧...
日期:09-26
29家企业加入飞桨硬件生态共创计划 加速实现AI基础软硬件互联互通
随着AI在产业中的普及应用,各类型场景对人工智能算力的需求不断被释放,提供训练、推理能力的AI芯片产品百花齐放。而芯片算力的有效利用,需要与成熟的深度学习框架适配协同。近...
日期:03-24
amd radeon r7是什么显卡「AMD发布RDNA3专业显卡Radeon Pro W7600/W7500:RX 7600血亲4300元贵一倍」
快科技8月3日消息,AMD正式发布了面向主流图形工作站的专业显卡Radeon Pro W7600、Radeon Pro W7500。这是4月份的Radeon Pro W7900、W7800之后,第二批基于RDNA3架构的专业显卡...
日期:08-04