您的位置:首页 > 互联网

AI测出你几岁死亡?Transformer算命登Nature子刊,成功预测意外死亡_测试人死亡时间

发布时间:2024-01-07 16:52:08  来源:互联网     背景:

声明:本文来自于微信公众号 新智元i(ID:AI_era),作者:新智元i,授权转载发布。

【新智元导读】AI算命将可以预测人类的意外死亡?丹麦科学家用全国600万人的公开数据训练了一个基于Transformer的模型,成功预测了意外死亡和性格特点。

AI真的可以用来科学地算命了!?

丹麦技术大学 (DTU) 的研究人员声称他们已经设计出一种人工智能模型,据说可以预测人们的生活中的重大事件和结果,包括每个人死亡的大致时间。文章在前两天登上了Nature的子刊Computational Science。

作者Sune Lehmann称,我们使用该模型来解决一个基本问题:我们可以在多大程度上根据过去的条件和事件来预测未来的事件?

看来作者研究的目的没有别的,确实是想用AI来帮大家算命。

研究人员将人的生活轨迹表征为时间顺序的生活事件序列,这种表征方法与自然语言具有结构相似性。

利用Transformer模型的表征学习能力,可以学习到生活事件的语义空间,并生成个体生活序列的紧凑向量表征。

研究人员利用丹麦约600万人口的健康和劳动力数据,构建了基于Transformer的模型life2vec。

模型的输入数据是个人的出生时间,地点、教育、健康状况、职业和工资等,而输出数据包括了意外死亡和性格的细微差异等和个人生活息息相关的内容。

研究团队基于生活序列对个人的生活事件展开了预测,模型表现明显优于当前其他方法。

相比于其他方法,life2vec模型对于性格的细微差异有更加优秀的预测结果

研究人员在论文中进一步指出,模型的概念空间和个体表征空间都是有意义和可解释的,可以用来生成新假说,为个体化干预提供可能。

人的一生也许是可以预测的

人类目前正在经历的人类预测时代的核心原因是海量数据集和强大的机器学习算法的出现。

在过去的十年里,机器学习通过访问越来越大的数据集,使越来越复杂的模型成为可能,从而使图像和文本处理领域发生了革命性的变化。

语言处理发展得特别快,Transformer体系结构已被证明可以成功地捕获了大量非结构化单词序列中的复杂模式。

虽然这些模型起源于自然语言处理,但它们捕获人类语言中的结构的能力推广到其他序列,这些序列与语言有着相似的属性。

但是由于缺乏大规模数据,Transformer模型尚未应用于行业外的多模态社会经济数据。

研究人员的数据集改变了这一点。他们的数据集的巨大体量使研究团队能够构建个体生命轨迹的序列级别表征,其中详细说明了每个人如何在时间中移动。

研究人员可以在不同类型的事件中观察个人生活是如何演变的(关于心脏病发作的信息与加薪或从城市搬到农村的信息混合在一起)。

每个序列中的时间分辨率和序列的总数都足够大,研究人员可以有意义地应用基于transformer的模型来预测生活事件的结果。

这意味着表征学习可以应用于一个全新的领域,以发展对人类生活的进化和可预测性的新理解。

具体地说,研究人员采用了类似Bert的架构来预测人类生活的两个非常不同的方面:死亡时间和个性细微差别。

研究人员发现,研究人员的模型可以准确地预测这些结果,在早期死亡的情况下,比目前最先进的方法高出∼11%。

为了做出这些准确的预测,研究人员的模型依赖于生活中所有事件的单一公共嵌入空间-轨迹。

正如研究语言模型中的嵌入空间可以提供对人类语言的新理解一样,研究人员可以研究嵌入空间的概念,以揭示生活事件之间的非平凡相互作用。

下面,研究人员提供了对由此产生的生活事件的概念空间的洞察,并展示了该空间和模型本身的健壮性和可解释性。

基于Transformer的模型还产生了对个体的嵌入(语言表征中的类比是总结整个文本的矢量)。使用显著图和概念激活向量(TCAV)等可解释性工具,研究人员表明个人摘要也是有意义的,并具有作为行为表型的潜力,可以改进其他个人水平的预测任务,例如,增强对医学图像的分析。

模型预测结果

研究人员用一种简单的符号语言对丰富的数据进行编码。

复杂的多源时态数据的原始数据流带来了巨大的方法论挑战,例如不规则的采样率、数据的稀疏性、特征之间的复杂交互以及大量的维度。

用于时间序列分析的经典方法(例如,支持向量机,ARIMA)[42,43]变得繁琐,因为它们具有伸缩性,不灵活,并且需要大量的数据预处理来提取有用的特征。

使用转换方法允许研究人员避免手工制作的特征,而是以一种利用与语言的相似性的方式对数据进行编码。具体地说,在研究人员的例子中,每一类离散特征和离散连续特征形成一个词汇表。

这个词汇表——连同时间的编码——允许研究人员将每个生活事件(包括其详细的限定信息)表征为一个由合成词或概念符号组成的句子。

研究人员在每个事件上都附加了两个时间指标。一个是指定个人在事件发生时的年龄,另一个是捕捉绝对时间,见下图。

因此,研究人员的合成语言可以捕捉到这样的信息:2020年9月,弗朗西斯科在埃尔西诺尔的一座城堡里当警卫时收到了2万丹麦克朗。

或者在寄宿中学的第三年,赫敏参加了五门选修课。在这个意义上,一个人的生命进程被表征为一串这样的句子,它们一起构成了个人的生命序列。

研究人员的方法允许研究人员编码关于个人生活中事件的广泛的详细信息,而不牺牲原始数据的内容和结构。

life2vec模型

研究人员使用transformer模型来形成个人生活的紧凑表征。研究人员称研究人员的深度学习模型为life2vec。

Life2vec模型基于transformer架构。由于其压缩上下文信息的能力以及考虑时间和位置信息,Transformer非常适合表征生命序列。

Life2vec的训练分为两个阶段。首先,研究人员通过同时使用

(1)一个遮蔽语言模型(MLM)任务,迫使模型使用标记表征和上下文信息。

(二)一个序列排序预测(SOP)任务,关注序列的时间连贯性(来训练模型。预训练创建了一个概念空间,并教会模型生命序列结构中的模式。

接下来,为了创建个人生命序列的紧凑表征,模型执行了一个分类任务。模型在这最后一步学习的个人总结取决于分类任务;它识别并压缩了为给定下游任务最大化确定性的模式。

禾赛 激光雷达 上市终止

例如,当研究人员要求模型预测一个人的个性细微差别时,人物嵌入空间将围绕着对个性贡献的关键维度构建。

跨领域的准确预测

任何模型的首要测试是预测性能。life2vec不仅超越了现有的SOTA,同时还能在非常不同的领域进行分类预测。研究人员在两个不同的任务上测试了他们的框架。

预测早期死亡率

研究人员估算一个人在2016年1月1日之后四年内存活的可能性。这是统计建模中常用的任务。此外,死亡率预测与其他健康预测任务密切相关,因此需要life2vec建模个人健康序列的发展以及劳动历史,以成功预测正确的结果。

测试我几岁

具体来说,给定一个序列表示,life2vec推断出一个人在研究人员序列结束后的四年内(2016年1月1日)存活的可能性。

研究人员专注于对年轻的群体进行预测,包括30至55岁的个人,其中死亡率难以预测。

研究人员展示了使用修正的马修斯相关系数C-MCC61,的模型的性能,该模型由于存在未标记的样本而调整MCC值。

Life2vec比基线高出11%。请注意,增加RNN模型的大小并不能提高它们的性能。

下图2.D还细分了各种子组的性能:基于年龄和性别的交叉组,以及基于序列长度的组。

预测个性的细微差别

死亡作为一个预测目标是明确定义的,也是非常可衡量的。

为了测试life2vec的多功能性,研究人员人员现在预测个性细微差别,这是测量光谱的另一端的结果,是个体内部的东西,通常可以通过问卷调查来衡量。

atm是什么意思

快看 | 京东健康登陆港交所,市值突破3100亿港元

尽管很难测量,但个性是塑造人们思想、情感和行为并预测生活结果的重要特征。具体地说,研究人员关注内向-外向维度领域中的人格细微差别(为了简单起见,下面是外向),因为相应的人格细微差别是上个世纪(在西方世界)出现的基本人格结构的几乎所有综合模型的一部分。

作为研究人员的数据集,研究人员使用了在丹麦个性和社会行为小组(POSAP)研究中为一大群有很大代表性的个体收集的数据。

研究人员随机选择一个项目(个性细微差别)每个外向方面,并预测个人水平的答案。

上图显示,将Life2vec应用于生命序列不仅允许研究人员预测早期死亡率,而且具有足够的通用性,足以捕捉个性的细微差别)。

Life2vec在所有项目上的得分都高于RNN,但只有在项目2和3上差异有统计学意义。为这一特定任务而训练的RNN也能够提取个性周围的信号,这一事实突显出,尽管变压器模型很强大,但使Life2vec如此通用的很大一部分原因是数据集本身。

概念空间:理解概念之间的关系

研究人员方法的新奇之处在于,该算法学习包含人类生活中可能发生的所有事件的单个联合多维空间。研究人员从可视化开始研究人员对这个空间的探索。

全局视野

在上图中,使用PaCMAP将原始的280维概念投影到二维图上,该图保留了高维空间的局部和全局结构。

在这里,每个概念都根据其类型进行着色。

这种颜色清楚地表明,总体结构是根据合成语言的关键概念组织的:健康、工作类型等,但有有趣的细节,将出生年份、收入、社会地位和其他关键的人口统计信息分开。这个空间的结构是高度鲁棒的,并在一系列条件下可靠地重复出现。

测试你的死亡日期,你还能活多久?

概念空间的精细结构是有意义的。深入挖掘全局布局,研究人员发现该模型学习了附近概念之间的错综复杂的关联。

研究人员通过邻居分析来研究这些局部结构,该分析利用原始高维表示中概念之间的余弦距离作为相似性度量。

个人摘要

的摘要是一个单一的向量,它概括了一个人的整个生活事件序列的基本方面。

个人摘要跨越了研究人员的人嵌入的空间。为了形成人的摘要,模型确定哪些方面与手头的任务相关。从这个意义上说,人称摘要是以特定的预测任务为条件的。下面,研究人员侧重于死亡可能性的人称摘要。

测试死亡年龄

上图可视化了个人概要的空间。

相对于死亡率预测,该模型将个体组织在从低到高的估计死亡率(D组中的点云)的连续体上。

在图中,研究人员通过红色菱形显示真实的死亡,而预测的可信度通过点的半径来表现(例如,具有小半径的点是低置信度预测)。

此外,使用从黄色到绿色的颜色映射来显示估计的概率。

研究人员看到,虽然区域2大多数都是老年人,但仍然看到很大一部分年轻人(图5E),它包含一小部分真正的目标(图5F)。

洗衣机洗完后插头要拔掉吗

B区具有很大程度上相反的结构,大多数是年轻人,但也有相当数量的老年人(图5E),只有一人实际死亡(图5F)。

当研究人员查看低概率区域的实际死亡时,研究人员发现距离区域1最近的5个死亡原因如下--两个意外,脑部恶性肿瘤,宫颈恶性肿瘤,心肌梗死。

参考资料:

https://arxiv.org/abs/2306.03009


返回网站首页

本文评论
玩赛车游戏 4399游戏盒尽享“速度与激情”_4399小游戏中所有赛车游戏
  追逐、飙车、警匪、黑帮…在最新上映的《速度与激情5》这部影片中,两位驰骋赛车届的主角为了让自己彻底获得自由,组成了一支终极赛车团队,和当地的触目惊心的腐败政府展开...
日期:07-28
00后女网红出售AI版自己:同时和上千名男友谈恋爱!可年入4亿
快科技5月11日消息,同时交往1000多位男友是什么感觉?恐怕来自美国加州的00后美女Caryn Marjorie有发言权。2021投影仪排行榜微软surface折叠屏不过,Caryn可能并不感同身受,因为...
日期:05-12
但有停产风险-恒大汽车,恒驰5已交付超900辆_恒大汽车正式公布恒驰系列的命名体系
【】3月23日消息,恒大汽车在港交所发布公告称,目前已交付900辆恒驰5。同时也表示,本集团在无法获得新增流动性的情况下有停产风险。公告显示,为能集中财力支持恒驰5的量产,本公司...
日期:10-06
从10元开始 威客官网发力智慧交易_威客赚官方网站
日前,威客网官方网站(witkey.com),作为世界上第一个提出“威客”概念的智慧交易平台,在业内其他兄弟网站迅速发展的同时,悄然改换面貌了。   现在,一打开该网站,首先映入眼帘的...
日期:07-27
相互宝陆续关停_相互宝今日24点关停
  1月28日 消息:今日24点,上线三年的网络互助平台相互宝将正式关停。根据相互宝公布数据显示,至2018年底上线以来,用户总数超过 1 亿人,共救助了179127名患病成员。   相互...
日期:09-16
小米、华为入局愈发“内卷” 新能源汽车行业洗牌有望加速_小米进军新能源汽车的威胁
快科技12月28日消息,随着小米、华为的入局,新能源汽车行业将加速洗牌。最近华为问界M9发布,搭载了HUAWEI XPIXEL智能大灯、HUAWEI SOUND卓越系列音响、华为途灵智能底盘、HUAWE...
日期:12-28
特斯拉降价了电动车降价没「特斯拉降价丰田不装了!首款电动车bZ4X狂降3万:仅需16.98万起」
2月9日消息,广汽丰田官方宣布称,旗下首款电动车bZ4X厂家限时直降30000元,降价后,起售价仅16.98万元。去年10月份广汽丰田bZ4X正式上市,新车共推出5款配置车型,售价格区间为19.98-2...
日期:02-10
英国芯片设计公司Arm宣布新任CFO「英国芯片架构公司」
  财联社9月27日电,英国芯片设计公司Arm当地时间周一宣布任命Jason Child为首席财务官(CFO)。Child拥有超过30年的高增长公司领导经验和全球金融职能扩展经验。Child将于2022...
日期:09-30
德国软件公司SAP CEO:生成式AI有着巨大增长潜力「德国软件公司sap工资」
6月28日 消息:德国企业软件制造商SAP思爱普(SAPG.DE)的首席执行官克里斯蒂安·克莱因在《Handelsblatt》商业日报的一次采访中表示,生成式人工智能技术具有巨大的增长潜力。特...
日期:06-28
蜜雪冰城商标被模仿获赔50万!法院:主观攀附太明显「蜜雪冰城商标官司」
蹭知名品牌的商标,为自家产品做宣传,此类的案例屡见不鲜,但是如果被对方追究起来的话,可能最终成了搬起石头砸自己脚。三星fold铰链松动11月1日消息,近日,蜜雪冰城公司与蜜雪约(广...
日期:11-03
苹果iOS 16.1 Beta 3为初代AirPods Pro带来自适应通透模式「ios12.3.1支持airpods pro吗」
  IT之家 9 月 30 日消息,本周早些时候,苹果发布了 iOS 16.1 开发者预览版 Beta 3 和公测版 Beta 3。该版本似乎还有一项隐藏改进,将第二代 AirPods Pro 中引入的自适应通透...
日期:10-01
360的周鸿祎「周鸿祎:360不打价格战,要通过创新推动行业变革」
新浪科技华为p60还会有吗在2023第十一届互联网安全大会上,周鸿祎表示,安全未来一定是服务业,360将卯定产业价值、客户价值、社会价值助力产业升级。周鸿祎表示,行业里老有人爱争...
日期:08-10
再开首页流量入口 手淘价格“暗战”打响
声明:本文来自于微信公众号亿邦动力(ID:xxxxx),作者:石航千,授权转载发布。淘宝天猫开始反击了?前有京东高调祭出比价全网的百亿补贴,后有抖音出资补贴TOP商家的高价值用户,2023年的...
日期:03-29
百度大脑EasyDL专业版最新上线自研超大规模视觉预训练模型_目前百度的easydl定制化图像识别支持
  在学习与定制AI模型的过程中,开发者会面对各种各样的概念,在深度学习领域,有一个名词正在被越来越频繁地得到关注:迁移学习。它相比效果表现好的监督学习来说,可以减去大量...
日期:07-14
马斯克1天损失152亿美「马斯克个人财富高位腰斩 较一年前损失1.2万亿」
凤凰网科技讯 北京时间11月9日消息,随着投资者纷纷抛售特斯拉公司的股票,其CEO埃隆马斯克(Elon Musk)的个人财富在周二跌破了2000亿美元。目前,投资者担心马斯克这位特斯拉CEO...
日期:11-19
2020年香港福布斯富豪榜「福布斯2023香港富豪榜发布 阿里蔡崇信名列第九」
2月23日 消息:《福布斯》杂志近日发布了2023年香港富豪榜,阿里巴巴执行副主席蔡崇信以85亿美元的身价位列榜单第九名。富士康将造电动汽车《福布斯》表示,香港50位最富有的人...
日期:02-25
特斯拉电动皮卡发布会「特斯拉Cybertruck电动皮卡随马斯克现身F1美国奥斯汀大奖赛」
10月23日消息,当地时间周日,美国电动汽车制造商特斯拉首席执行官埃隆·马斯克(Elon Musk)携儿子X Æ A-12现身得克萨斯州举行的一级方程式赛车比赛现场。现场镜头显示,马斯克还...
日期:10-23
我每天都佩戴使用 「库克,Vision」-Pro头显是苹果最先进的个人电子设备
8 月 4 日消息,蒂姆・库克(Tim Cook)在今天召开的财报电话会议上,在回答投资者和媒体提问时,表示自己每天都在佩戴 Vision Pro 头显。库克表示 Vision Pro 头显是苹果“有史以来...
日期:09-18
miui侧边栏怎么开启「雷军:小米手机端侧大模型可媲美云端运算能力_网易科技」
8月14日消息,今晚2023雷军年度演讲在北京举办。在演讲中,雷军提到小米全面拥抱大模型,小爱同学已经开始升级大模型。换手率与量比的深度完美解析雷军表示,在AI方面,小米已经有了7...
日期:08-14
饿了么新一轮免单活动或开启?官方回应来了「饿了么免单怎么使用」
凤凰网科技讯 6月14日消息,据天眼查App显示,饿了么关联公司拉扎斯网络科技(上海)有限公司申请注册2枚“猜答案免单”商标,国际分类为广告销售、教育娱乐,当前商标状态均为申请中。...
日期:06-14