您的位置:首页 > 互联网

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读

发布时间:2023-09-07 22:19:40  来源:互联网     背景:


新智元报道

编辑:Aeneas Lumina

【新智元导读】社交环境会影响阅读选择?谷歌的机器学习算法助力推荐系统优化用户体验,学校与年级分组比地区更准确。

小米汽车要多久

开卷有益,是我们一直以来的认识。阅读可以帮助人们提高自己的语言能力、学习到新的技能....

阅读还能够改善情绪,提高心理健康水平。经常阅读的人有更丰富的常识以及对其他文化更深入的理解。

并且,有研究证实愉悦阅读与学业成功相关。

小米civi1s新品发布会直播

但在信息爆炸的时代,线上与线下的阅读资源都十分丰富。读什么,就成为了一项艰巨的挑战。

尤其是阅读的内容既要匹配不同的年龄阶段,又要引人入胜。

而推荐系统则是这个挑战的解决方案。它能够向读者呈现相关的阅读材料,并帮助他们保持阅读的兴趣。

推荐系统的核心是机器学习(Machine learning, ML),它被广泛应用于构建各种类型的推荐系统中:从视频到图书,再到电商平台等。

经过训练的ML 模型可以根据用户偏好、用户参与度和推荐的项目单独向每个用户进行推荐,从而改善用户体验。

谷歌最新的研究提出了一种考虑到阅读的社会性质(如教育环境)的有声读物内容推荐系统:STUDY算法。

由于一个人的同龄人目前正在阅读的内容会对他们感兴趣的阅读内容有重大影响,因此,谷歌与Learning Ally进行了合作。

Learning Ally是一家教育非营利组织,拥有一个针对学生的大型精选有声读物数字图书馆,非常适合构建社交推荐模型。

这能使模型能够从有关学生本地化社交群体的(如教室)实时信息中获益。

STUDY算法

STUDY算法采用了将推荐内容问题建模为点击率预测问题的方法。

其中模拟用户与每个特定项目的交互概率取决于:

1)用户和项目特征

2)该用户的项目交互历史序列。

iphone五福一安

之前的工作表明Transformer模型非常适合建模这个问题。

当单独处理每个用户时,模拟交互就成为了一个自回归序列建模问题。

STUDY算法是通过这一概念框架对数据建模,然后对这个框架进行扩展的最终成品。

点击率预测问题可以对个别用户过去和未来的项目偏好之间的依赖关系进行建模,并且可以在训练时学习用户之间的相似性模式。

但有一个问题是,点击率预测的方法无法对不同用户之间的依赖关系进行建模。

为此,谷歌开发了STUDY模型,可以解决自回归序列建模中无法对阅读的社会性质进行建模的缺陷。

STUDY可以将多个学生在一个课堂上阅读的书籍序列连接成一个序列,从而在一个模型中收集多个学生的数据。

但是,在用Transformer对这种数据表示进行建模时,需要仔细研究这种数据表征。

在Transformer中,注意力掩码是控制哪些输入可用于预测哪些输出的矩阵。

在序列中使用所有先前的token来为输出的预测提供信息的模式,会导致上三角形注意力矩阵,它一般会在因果解码器中被发现。

然而,由于输入进STUDY模型的序列不是按时间顺序的,尽管它的每个组成子序列都是按时间顺序,传统的因果解码器也不再适合这种序列。

在试图预测每个token时,模型不允许注意力转向序列中出现在它之前的每个token;其中一些token可能具有较晚的时间戳,并包含在部署时不可用的信息中。


因果解码器中通常使用的注意力掩码。每一列代表一个输出,每一列代表一个输出。矩阵条目在特定位置的值为1(显示为蓝色),表示模型在预测相应列的输出时可以观察到该行的输入,而值为0(显示为白色)则表示相反。

STUDY 模型以因果转换器为基础,将三角矩阵注意力掩码替换为基于时间戳的灵活注意力掩码,从而允许跨不同子序列的注意力。

与普通转换器相比,STUDY 模型在一个序列中保持一个因果三角注意矩阵,并在不同序列中具有灵活的值,这些值取决于时间戳。

因此,序列中任何输出点的预测都会参考相对于当前时间点过去发生的所有输入点,无论它们是出现在序列中当前输入点之前还是之后。

这一因果约束非常重要,因为如果在训练时不执行这一约束,模型就有可能学会利用未来的信息进行预测,而这在现实世界的部署中是无法实现的。


(a)一个具有因果注意力的顺序自回归变换器,它可以单独处理每个用户;(b)一个等效的联合前向传递,其计算结果与(a)相同;(c)通过在注意力掩码中引入新的非零值(紫色显示),允许信息在用户间流动。为此,研究者允许预测以时间戳较早的所有交互为条件,而不论交互是否来自同一用户

实验

谷歌使用Learning Ally数据集来训练STUDY模型,并使用多个基线进行比较。

团队使用了自回归点击率转换解码器(称之为「个人」)、k-近邻基线(KNN)和可比较的社会基线——社会注意力记忆网络(SAMN)。

他们使用第一学年的数据进行训练,使用第二学年的数据进行验证和测试。

团队通过测量用户实际交互的下一个项目,在模型的前n个建议中的时间百分比,来评估这些模型。

红米note128g多少钱

除了在整个测试集上对模型进行评估外,团队还报告了模型在测试集的两个子集上的得分,这两个子集比整个数据集更具挑战性。

可以观察到,学生通常会与有声读物进行多次互动,因此,简单地推荐用户阅读的最后一本书,就显得微不足道。

因此,研究者将第一个测试子集称为「非延续」,在这个子集中,我们只考察每个模型在学生与不同于前一次互动的书籍进行互动时的推荐性能。

另外,团队还观察到,学生们会重温他们过去读过的书,因此,将为每个学生推荐的书本限制在他们过去读过的书本范围内,就可以在测试集上取得很好的表现。

尽管向学生推荐他们过去最喜欢的书籍可能有一定的价值,但推荐系统的大部分价值还是来自于向用户推荐新的、未知的内容。

为了衡量这一点,团队在测试集的子集上对模型进行了评估,在这个子集上,学生们第一次与书目进行交互。我们将这个评估子集命名为「新子集」。

可以发现,「STUDY 」在几乎所有评估中,都优于其他模型。


适当分组的重要性

STUDY算法的核心是将用户分组,并在模型的单次前向传递中对同组的多个用户进行联合推断。

研究人员通过一项消融研究,考察了实际分组对模型性能的重要性。

在提出的模型中,研究人员将同一年级和学校的所有学生进行分组。

然后试验了由同一年级和同一学区的所有学生定义的分组,以及将所有学生归入一个组中,并在每次前向传递时使用随机子集的分组。

研究人员还将这些模型与 「个人」模型进行了比较,以供参考。

研究发现,使用更本地化的小组更有效,即学校和年级分组优于学区和年级分组。

这支持了一个假设,即研究模式之所以成功,是因为阅读等活动具有社会性:人们的阅读选择很可能与周围人的阅读选择相关联。

在不使用年级对学生进行分组的情况下,这两种模式的表现都优于其他两种模式(单一小组模式和个人模式)。

这表明,阅读水平和兴趣相似的用户的数据有利于提高模型的性能。

最后,谷歌的这项研究是仅限于假定社交关系是同质的用户群进行建模的。

参考资料:

https://ai.googleblog.com/2023/08/study-socially-aware-temporally-causal.html


返回网站首页

本文评论
从MWC看中信国际电讯:聚焦智慧创新,连接无限可能_中信国际电讯集团官网
通信世界网消息(CWW)以5G、AI、云计算、大数据等为代表的数字技术,正在飞入千家万户,融入千行百业,为社会经济发展夯实数字底座。而信息通信企业,则成为了数字技术与市场应用之间...
日期:07-19
防不胜防 巴西公共网站平均每3天被黑一次
  中新网6月25日电 据“中央社”报道,计算机系统安全网站Zone-H指出,去年6月24日至今年6月24日,巴西共记录1199起公共网站被黑客入侵事件,平均每天发生3起。  黑客主要目标...
日期:07-30
加强上市公司信息披露_中国海外上市企业应当加强信息披露 增强投资者信心
  获取中国海外上市企业财务信息困难已成为这些公司的主要问题之一,在此问题上中国公司需要进一步开放态度。   美国证券交易委员会(The Securities and Exchange Commi...
日期:07-30
莫斯利安酸奶怎么样_伊利酸奶
本文目录一览: 1、莫斯利安和安慕希哪个更好?2、莫斯利安和安慕希哪个更好?3、莫斯利安怎么样?为什么不用放冰箱?4、莫斯利安和伊利纯牛奶哪个好?5、莫斯利安和伊利纯牛奶...
日期:06-02
北师大联合作业帮  用大数据为河南学生“画像”
  2020年初疫情期间,在线直播课报名人数河南省全国第一。小学、初中学生拍照搜题最爱搜数学,高中生则多搜物理。郑州学生升学过渡期,比其他城市要短……   1月20日,北京师...
日期:07-26
朋克、说唱、电音……音乐界的各位“扛把子”,都在苏宁双十一狮晚
  官宣!又是官宣!还是官宣!苏宁双十一晚会,这次是要“搞大事”了吗?   自从在10月21日的“双十一全民嘉年华”发布会上,苏宁宣布将与湖南卫视合作双十一“狮晚”——连日...
日期:12-10
淘宝40岁一50岁女装店「90后女子上班坚持12年装50岁大妈:会网购的人几乎都认识她」
如果你经常会网购,尤其是会给母亲选购衣服的话,你一定认识她。梁晓晴是一位主打中老年的服装模特,出生于1992年的她今年刚过了30岁生日,但她却已经坚持12年每天把自己打扮成50岁...
日期:11-17
运营商取消“不限量套餐”_不限量套餐将取消
  此前推出的达量限速套餐,严重限制了运营商通过流量盈利的空间。在增长几近停滞甚至出现倒退的势头下,三大运营商急需从不限量套餐大战这个泥潭中抽身出来,为接下来的5G竞...
日期:06-26
一键重装Win7技术出现 回顾Windows系统的技术变迁(重装win7系统的过程)
大约10年前,微软Windows XP发布之后,Windows在操作系统市场占有率上取得了史无前例的成绩。然而,再好用的系统也会崩溃,也需要通过重装系统来恢复正常。 在以前,用户只能通过Win...
日期:07-22
微软修复IE泄露微博等密码漏洞 金山卫士推送补丁(microsoft ie漏洞)
  6月15日,微软刚刚发布了6月份安全补丁,其中修复了一个近日曝出的影响所有 IE 浏览器的漏洞。攻击者利用该漏洞可获取IE中的cookie信息,包括登录邮箱、微博、论坛等各类账...
日期:07-30
虚幻5引擎打造!《泰坦尼克号》游戏发布最新Demo_泰坦尼克号模型开箱
今天,游戏《泰坦尼克号:荣耀》正式发布最新的Project 401试玩Demo,允许玩家探索游戏50%左右的中的场景。与此前相比,在Project 401 Demo中,游戏升级到了虚幻5引擎,从而带来了更为...
日期:03-05
NASA将在太空进行首次全球水资源调查_NASA 地球
12月14日消息,美国国家航空航天局(NASA)牵头开发的地表水与海洋地形观测(SWOT)项目卫星将于周四凌晨从南加州地区发射升空。卫星入轨后将首次对包括海洋、湖泊以及河流在内的全球...
日期:12-14
雷军放言自动驾驶2024年进入第一阵营 华为百度小米的快慢之道
两年内追赶到行业第一阵营,这个目标看似激进,但其实也是小米造车必须要去面对的考验。   “目前的进展比较顺利,甚至可以说超预期。”8月11日晚,小米进入造车大军500天后,小米...
日期:08-16
非同凡响 不止艺术|gorenje by Starck艺术家电套系亮相2023
2023 年 6 月 9 日,国际高端艺术领导家电品牌gorenje携gorenjeby Starck艺术家电套系隆重亮相“设计上海”2023。同时邀请斯洛文尼亚共和国驻华大使苏岚女士、国际知名艺术家...
日期:06-09
华为Mate 50系列蓄势待发:至少三款旗舰 全系标配高通骁龙U_华为mate50系列前瞻
今天,爆料人RODENT950绘制了Mate 50系列新品发布会海报,海报显示,华为Mate 50系列可能会在9月7日发布。目前Mate 50系列已经获得入网许可,型号分别为BNE-AL00、DCO-AL00、CET-AL...
日期:09-27
抖音上线超市业务,一切只是刚刚开始「抖音正在营业中」
声明:本文来自于微信公众号 电商报Pro(ID:kandianshang),作者:老电,授权转载发布。抖音正式上线超市业务新年开工第一天,抖音就放出一个大招:抖音超市。和之前的试点业务不一样,目...
日期:01-29
发黑床单、盗版影片、摄像头偷窥无遮拦:这样的私人影院难持久
只需一套投影设备、一组氛围灯、一张床,消费者就能享受自在的观影乐趣。如今,凭借可提供更为私密、更多选择的观影体验的优势,私人影院在各地蓬勃发展。然而,记者调查发现,生机盎...
日期:08-16
亚马逊评论采集「报道称亚马逊正在测试AI生成产品评论摘要」
6月13日 消息:据最新报道,国外电商巨头亚马逊正在测试利用AI生成产品评论摘要。用户发现称,亚马逊正在测试人工智能生成的产品评论摘要,该功能正在进行 A/B 测试,公司尚未发布正...
日期:06-13
智慧光网筑基算网全光底座,助力“东数西算”国家战略实施_官方正版智慧光网手机版
通信世界网消息(CWW)随着全国一体化大数据中心体系完成总体布局设计,“东数西算”工程全面启动,通过构建数据中心、云计算和大数据一体化的超级算力网络体系,实现东部算力需求和...
日期:06-25
在线教育已成为盗版侵权重灾区_严厉打击“网络盗课” 腾讯课堂对盗版侵权行为采取零容忍态度
  4月23日,北京市海淀区人民法院通过“北京云法庭”系统作出一项裁定,责令被告梁某立即在其经营的设计网站、微信公众号、微店等平台中,停止传播“腾讯课堂”网课视频资源。...
日期:03-06