您的位置:首页 > 互联网

图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东

发布时间:2024-02-06 11:30:40  来源:互联网     背景:

声明:本文来自于微信公众号 量子位 (ID:QbitAI),作者:丰色,授权转载发布。

能不能有一种通用的图模型——

它既能够根据分子结构预测毒性,又能够给出社交网络的朋友推荐?

或者既能预测不同作者的论文引用,还可以发现基因网络中的人类衰老机制?

你还真别说,被ICLR2024接收为Spotlight的“One for All(OFA)”框架就实现了这个“精髓”。

伯克希尔哈撒韦什么时候入股比亚迪

它由圣路易斯华盛顿大学陈一昕教授团队、北京大学张牧涵以及京东研究院陶大程等研究者们联合提出。

作为图领域首个通用框架,OFA实现了训练单一GNN模型即可解决图领域内任意数据集、任意任务类型、任意场景的分类任务。

具体如何实现,以下为作者投稿。

图领域通用模型设计面临三大难

职场社交网站领英宣布全球裁员6%,涉及960名工作岗位

设计一个通用的基础模型来解决多种任务是人工智能领域的一个长期目标。近年来,基础大语言模型(LLMs)在处理自然语言任务方面表现出色。

然而,在图领域,虽然图神经网络(GNNs)在不同的图数据中都有着不俗的表现,但如何设计与训练一个能同时处理多种图任务的基础图模型依然前路茫茫。

与自然语言领域相比,图领域的通用模型设计面临着许多独有的困难。

首先,区别于自然语言,不同的图数据有着截然不同的属性与分布。

比如分子图描述了多个原子如何通过不同的作用力关系形成不同的化学物质。而引用关系图则描述了文章与文章之间相互引用的关系网。

这些不同的图数据很难被统一在一个训练框架下。

其次,不同于LLMs中所有任务都可以被转化成统一的下文生成任务,图任务包含了多种子任务,比如节点任务,链路任务,全图任务等。

不同的子任务通常需要不同的任务表示形式与不同的图模型。

最后,大语言模型的成功离不开通过提示范式而实现的上下文学习(in-context learning)。

steam deck掌机最高配置

在大语言模型中,提示范式通常为对于下游任务的可读文字描述。

但是对于非结构化且难以用语言描述的图数据,如何设计有效的图提示范式来实现in-context learning依然是个未解之谜。

用“文本图”概念等来解决

下图给出了OFA的整体框架:

具体而言,OFA的团队通过巧妙的设计来解决上述所提到的三个主要问题。

对于不同图数据属性与分布不同的问题,OFA通过提出文本图(Text-Attributed Graph, TAGs)的概念来统一所有图数据。利用文本图,OFA将所有的图数据中的节点信息与边信息用统一的自然语言框架来描述,具体如下图所示:

接着,OFA通过单一LLM模型对所有数据中的文本进行表示学习得到其嵌入向量。

这些嵌入向量将作为图模型的输入特征。这样,来自不同领域的图数据将被映射到相同的特征空间,使得训练一个统一的GNN模型可行。

OFA收集了9个来自不同领域,不同规模的图数据集,包括引用关系图,Web链接图,知识图谱,分子图, 如下图所示:

此外,OFA提出Nodes-of-Interest(NOI)子图与NOI提示节点(NOI Prompt Node)来统一图领域内不同的子任务类型。这里NOI代表参与到相应任务的一组目标节点。

比如,在节点预测任务中,NOI是指需要预测的单个节点;而在链路任务中,NOI包括需要预测链路的两个节点。NOI子图是指围绕着这些NOI节点扩展出的一个包含h-hop邻域的子图。

然后,NOI提示节点为一个新引入的节点类型,直接连接到所有的NOI上。

重要的是,每个NOI提示节点包含了当前任务的描述信息,这些信息以自然语言的形式存在,并和文本图被同一个LLM所表示。

由于NOI中节点所包含的信息在经过GNNs的消息传递后将被NOI提示节点所收集,GNN模型仅需通过NOI提示节点来进行预测。

这样,所有不同的任务类型将拥有统一的任务表示。具体实例如下图所示:

最后,为了实现图领域的in-context learning,OFA引入统一的提示子图。

在一个有监督的k-way分类任务场景下,这个提示子图包含了两类节点:一类是上文提到的NOI提示节点,另一类是代表k个不同类别的类别节点(Class Node)。

每个类别节点的文本将描述此类别的相关信息。

NOI提示节点将会单向连接到所有类别节点上。通过这个方式构建好的图将被输入进图神经网路模型进行消息传递与学习。

最终,OFA将对每个类别节点分别进行二分类任务,并取概率最高的类别节点作为最终的预测结果。

由于类别信息存在于提示子图中,即使遇到全新的分类问题,OFA通过构建相应的提示子图即可直接进行预测而无需任何微调,从而实现了零样本学习。

对于少样本学习场景,一个分类任务将包含一个query输入图和多个support输入图,OFA的提示图范式会将每个support输入图的NOI提示节点与其所对应的类别节点相连,同时将query输入图的NOI提示节点与所有类别节点相连。

后续的预测步骤与上文所述一致。这样每个类别节点将会额外得到support输入图的信息,从而在统一的范式下实现少样本学习。

OFA的主要贡献总结如下:

统一的图数据分布:通过提出文本图并用LLM转化文本信息,OFA实现了图数据的分布对齐与统一。

统一的图任务形式:通过NOI子图与NOI提示节点,OFA实现了多种图领域子任务的统一表示。

统一的图提示范式:通过提出新颖的图提示范式,OFA实现了图领域内的多场景in-context learning。

超强泛化能力

文章在所收集的9个数据集上对OFA框架进行了测试,这些测试覆盖了在有监督学习场景下的十种不同任务,包括节点预测、链路预测和图分类。

实验的目的是验证单一的OFA模型处理多任务的能力,其中作者对比使用不同LLM(OFA-{LLM})和每个任务训练单独模型(OFA-ind-{LLM})的效果。

比较结果如下表所示:

可以看到,基于OFA强大的泛化能力,一个单独的图模型(OFA-st,OFA-e5,OFA-llama2-7b,OFA-llama2-13b)即能够在所有的任务上都具有与传统的单独训练模型(GCN, GAT, OFA-ind-st)相近或更好的表现。

同时,使用更强大的LLM可以带来一定的性能提升。文章进一步绘制了训练完成的OFA模型对于不同任务的NOI提示节点的表示。

可以看到不同的任务被模型嵌入到不同的子空间,从而使得OFA可以对于不同的任务进行分别的学习而不会相互影响。

在少样本以及零样本的场景下,OFA在ogbn-arxiv(引用关系图),FB15K237(知识图谱)以及Chemble(分子图)上使用单一模型进行预训练,并测试其在不同下游任务及数据集上的表现。结果如下:

华为p50抢购一空

可以看到,即使在零样本场景下,OFA依旧可以取得不错的效果。综合来看,实验结果很好的验证了OFA强大的通用性能以及其作为图领域基础模型的潜力。

更多研究细节,可参考原论文。

地址:

https://arxiv.org/abs/2310.00149

https://github.com/LechengKong/OneForAll

—完—


返回网站首页

本文评论
CNZZ站长统计“热点图”功能上线全面开放_cnzz站长统计怎么用
  今日,中文互联网数据统计分析服务提供商CNZZ旗下的站长统计“热点图”功能正式发布http://new.cnzz.com/about/heatmap.html,并且采取全面开放的推广政策,只要是CNZZ“站...
日期:07-22
赛博朋克2077 总销量「《赛博朋克2077》更新销量数据:已卖出2000万份」
  9月28日晚间,游戏公司CD Projekt官微宣布,《赛博朋克2077》累计销量突破2000万份。据了解,CD Projekt花了8年时间开发《赛博朋克2077》,成本高达12亿兹罗提(约合人民币17.28...
日期:09-29
「明略科技」创始人吴明辉:打造数据中台,承载企业核心资产 | 2019WISE新经济之王大会
  企业多元化的发展必须围绕核心竞争力。   11月26-27日,36氪在北京国际会议中心举办了2019 WISE新经济之王大会,大会下设13大会场,邀请超百位新经济社群的代表,共同关注新...
日期:06-14
三星galaxy芯片「消息称三星电子手机存储芯片涨价 10~20%,客户包括小米、OPPO等」
IT之家 9 月 13 日消息,芯片行业分析师表示,尽管 PC 芯片的需求仍然疲软,但内存芯片市场现在已经出现了复苏的迹象,特别是在移动 DRAM 芯片领域。据《韩国经济日报》,三星电子公...
日期:09-13
杭州6万一晚酒店没有涨价 常有人住「杭州酒店住一个月多少钱」
五一假期,旅游市场火爆异常,酒店价格也随之飙升。近日,有网友爆料,杭州西湖边的一家酒店一晚要 6 万块钱,让人大吃一惊。记者联系了酒店方面,得知这个价格是真的,但并不是五一特别...
日期:04-27
火狐Firefox 72浏览器将默认阻止指纹脚本
  目前,Mozilla已在Firefox 72 Nightly的增强跟踪保护的标准模式中启用了“指纹识别器”选项,默认情况下启用了标准内容阻止模式,当用户上网时,将受到保护,使其免受指纹脚本的...
日期:04-11
不确定性也很多 花费130亿美元投资OpenAI,能给微软带来什么?,潜力很大
4月10日消息,微软已陆续向人工智能初创企业OpenAI投资130亿美元。这些投资让OpenA的估值达到近300亿美元,其中蕴含着巨大潜力,同时也存在很多不确定性。微软在2019年向OpenAI投...
日期:10-03
“全域智能・暴风增长”,国双数字营销反欺诈专题沙龙圆满落幕!
  7月23日,“全域智能・暴风增长”国双数字营销反欺诈专题沙龙暨国双获得TAG认证发布会在上海静安香格里拉酒店圆满落幕。来自中国广告协会、中国信息通信研究院、上汽名爵...
日期:05-28
三星手机未来「开启未来显示之门:三星要做更懂MICRO LED的未来“引路人”」
MICRO LED显示技术是当今显示产业炙手可热的新兴技术,并吸引了全球行业的广泛竞争。作为LCD和OLED时代,全球显示的龙头,三星在MICRO LED上再次以突破创新实现了技术、产品、市...
日期:08-04
威马W6宣布涨价:3款车未来3月每月上调2000元「威马w6落地价」
10月1日消息,因受上游原材料价格上涨等综合因素,威马汽车将在近期针对在售车型威马W6的价格进行上调。TCL华星T9项目立项批复此次价格调整覆盖“NEX探索版520KM”、“PRO全能...
日期:10-03
99公益日马化腾内部信:一块做好事,一块把好事做好(99公益日 一块做好事)
  各位同事,大家好!   第五个99公益日,又来到我们眼前。   今年我们提出了一个朴实的口号:一块做好事。   一方面,我们希望能够号召更多网友小行大善、日行一善,踏出公...
日期:09-26
为交付Semi卡车做准备 特斯拉招募技术服务人员「特斯拉汽车交付专员」
9月5日消息,上月美国电动汽车制造商特斯拉首席执行官埃隆·马斯克(Elon Musk)证实,公司将于今年晚些时候开始交付电动卡车Semi。特斯拉官网发布的招聘信息显示,公司正在为“Semi...
日期:10-31
百川智能发布角色大模型 Baichuan-NPC_百川智能怎么样
1月9日 消息:百川智能于2024年1月9日发布了角色大模型 Baichuan-NPC,并推出了 “角色创建平台 + 搜索增强知识库” 的定制化解决方案。Baichuan-NPC 经过深度优化,在角色知识...
日期:01-09
华为主动停掉中国三大汽车门户合作,没有赢家,一场双输_华为合作三家车企
文/王新喜华为主动停掉中国三大汽车门户网站(懂车帝、易车网、汽车之家)合作,这件事情引发了广泛的讨论,很多人认为华为这种高度,已经不需要这些门户的合作了。华为的退出,损失的...
日期:01-08
ChatGPT创业,让子弹再飞一会儿「让子弹再飞会电影」
深燃(shenrancaijing)原创整理 | 唐亚华最近一段时间以来,ChatGPT成了AI乃至互联网领域最大的新风口,它甚至被一些人视为堪比蒸汽机、互联网、手机的颠覆性、革命性的存在。国内...
日期:04-08
中移物联与内蒙古移动举办“万物互联 智赢未来”物联网中低速业务推介会
9月20日,中移物联与内蒙古移动以“万物互联 智赢未来”为主题在呼和浩特举行内蒙古物联网中低速业务推介会。此次会议详细介绍了中移物联在物联网中低速业务方面的整体布局以...
日期:09-27
90Hz、双眼4K+高分辨率 PICO 4 VR一体机发布:2499元起「pico g2 4k单眼分辨率」
今晚的发布会上,字节旗下的PICO发布了新一代PICO 4 VR头盔,配备了双眼4K+高分辨率的超视感屏,刷新率也达到了90Hz,同时非常轻薄,国内售价2499元起。外观方面,PICO 4 外观采用黑色...
日期:09-28
239元赠内存卡!小米室外摄像机CW300发布:2.5K全彩夜视_小米户外摄像机
快科技12月8日消息,小米室外摄像机CW300正式发布,首发239元赠32GB内存卡。小米室外摄像机CW300采用了400万像素F1.6大光圈镜头,搭配2.5K超清画质,画面放大也能保持清晰。美版iph...
日期:12-09
通义千问团队发布Qwen1.5 聊天模型性能大幅提升
2月7日 消息:在近期几个月的深入探索之后,通义千问团队终于迎来了其开源系列Qwen的下一个重要版本——Qwen1.5。2022款宝马X8MQwen1.5的亮点之一是其丰富的模型系列,涵盖了从0...
日期:02-07
apple store设计理念_苹果在线商店迎来重新设计
  8 月 4 日消息 经过短时间维护后,苹果 Apple Store 在线商店现已恢复,并带来了全新的 UI 设计。此外,苹果官网主页导航栏新增了一项“商店”按钮,可以直达苹果在线商店(似...
日期:06-23