您的位置:首页 > 互联网

为什么普通人出圈,都在小红书?_为什么小红书都是女生炫富的

发布时间:2024-01-16 14:28:36  来源:互联网     背景:

声明:本文来自于微信公众号 机器之心(ID:almosthuman2014),作者:机器之心,授权转载发布。

解码小红书推荐系统:为什么在这里普通人更容易被看见?

出差期间,我在酒店百无聊赖地打开了小红书。一篇看似平淡无奇的笔记吸引了我的注意——一位 ID 叫倚着彩虹看夕阳的用户发帖,说自己在酒店的床上看西游记时,感觉到前所未有的放松。

从标题到配图,这篇发布于去年5月的笔记没有任何明显的爆点,但显然在小红书上引发了广泛的共鸣,收到了大量的点赞、收藏和评论。我也被吸引,陷入了#走不出的评论区。

现代人的信息获取方式很大程度上受推荐系统所影响,这篇笔记在发布8个月后依然能进入我的视野,小红书的推荐系统功不可没。相比之下,很难想象同样的内容在其他平台上也能得到如此广泛的传播。

为什么在小红书上普通人更容易被看见?它的流量算法,如何让每个人都有机会成为爆款文的主角?为什么身边人越来越爱刷小红书?

带着这些疑问,我走访了小红书技术团队,希望通过他们的解释,能更深入地了解这个让无数用户感叹特别懂我且氛围极好的内容社区。

重视普通人表达——

小红书内容分发和推荐逻辑

随着近些年用户和内容的快速破圈,小红书摇身一变,从人间种草机成为生活百科全书。作为一个基于用户生成内容(UGC)的生活指南社区,小红书融合图文、视频、直播等多种内容形式,内容维度非常丰富。推荐系统需要权衡多重目标优化,算法背后的价值观让小红书选择了不一样的技术路径——去中心化分发、注重用户体验和社区的高质量互动,这也形成了其特别的内容分发和推荐策略。

小红书旨在创建一个普通人帮助普通人的内容分享社区,满足普通人的内容被看见的需要。有一个非常典型的案例凸显了小红书推荐系统的快速与准确,曾经有一位女孩在信号较差的火车上发帖求助卫生巾,仅仅两个小时后,她就收到了陌生人的神奇馈赠。在这里,任何人都可以分享他们觉得有趣或有用的生活细节,无论多么微小。

为什么我们在小红书上能看到这么多素帖爆火的案例,其中一个重要的影响因素是技术分发的逻辑。小红书的技术理念很独特,将大约一半的流量给普通 UGC 用户,让普通人的创作有平等被看到的机会。与此同时,这些普通人的经验与生活分享也会在未来逐步释放出长尾价值。

在小红书上,笔记被推荐的综合考虑因素很多,没有标准的公式一概而论。具体说,纳入考虑的因子包括点击、时长、完播、下滑、质量、点赞、收藏、关注、转发、评论等。小红书的推荐系统会根据用户的习惯调整各因子的权重,一般会综合考虑消费、互动和体验类指标,结合用户的消费行为偏好,实现个性化的权重组合。同时,小红书推荐系统也会根据笔记的发布意图来调整收藏、转发和评论的权重,例如,日常分享类的笔记更看重点赞,工具类笔记更看重收藏,求助类笔记更看重评论。

小红书上各种被看见的普通人普通事

当一篇新的笔记在小红书发布后,它将经历一系列复杂的处理步骤,通过人以群分的内容分发体系,把信息精准给需要的人。虽说当前各种推荐系统的核心算法和基本流程在很大程度上是类似的,但与传统推荐系统追逐的全局最优不同,小红书将流量分层,寻求局部最优,通过识别不同的人群,让好的内容从各个群体中涌现出来,跑出了适合社区的新一代推荐系统。

那些素帖爆火背后的秘籍,无一不透露着:一个优秀的推荐系统,关键在于如何根据具体的应用场景、用户行为和反馈来调整和优化这些基本方法。

对小红书来说,关键的问题包括在冷启/爬坡阶段,如何进行内容理解从而定位种子人群并进行高效的人群扩散;在召回/排序环节,如何提升模型预测的精准度,以及如何进行实时流量调控;还有如何保证内容的多样性,使用户的短期兴趣和长期兴趣得到平衡。

挖掘长尾,高效分发——多模态内容理解

内容理解是推荐分发的基础。精细和准确的个性化推荐,离不开对内容的充分理解,只有让系统真正掌握了到底内容在讲什么,才能够推荐得更加准确。传统的内容理解主要依赖于标签化体系,然而,这种体系的主要问题在于标签粒度过大和标签维度过窄。在小红书这样海量且多样性强的内容场景中,这两个问题尤其突出。无论如何定义标签体系,都难以覆盖多样化、长尾化的内容,同时,标签体系的运营更新也难以跟上内容的迭代和发展。

为什么小红书这么火

为了解决标签化内容理解体系的问题,小红书技术团队借助大规模多模态预训练模型,构建了向量化的内容理解体系。这种向量体系具有更开放的通识知识和动态自由的使用方案。作为传统标签体系的补充,向量化系统通过隐性聚类能力实现了细粒度、动态化的内容分类;另一方面,通过预训练和微调的方式,提高了系统在更多维度上对内容识别和评价的精度。

在多模态预训练方面,团队采用了类似于 CLIP 的对比学习,在经过清洗和去噪的小红书笔记样本上进行训练。小红书是一个天然的优质多模态图文对样本集散地,通过将笔记封面图和笔记标题组对的方式,不需要人工标注,就能获得数以十亿甚至更大的样本集合,保证了样本的规模性、多样性和时效性。在优质样本的支持下,团队开发出了参数量从10M 到10B 不等的各种 backbone 选型,支持 BERT、RoBERTa、ResNet、Swin-T、ViT 等架构,以满足下游的各种使用需求。

以多模态预训练向量为基座,实现对复杂多模态内容的综合语义表征

在应用实例上,团队实践了基于笔记多模态向量的层次化内容聚类,用于 Feed 的多样性打散。通过向量聚类得到的 ClusterID 作为隐性内容标签,并通过调整聚类相似度门限来动态控制 ClusterID 的粒度,从而实现自由粒度上的相似内容打散和频控。

基于纯静态内容特征刻画笔记质量,实现冷启/长尾优质内容高效分发

同时,团队利用内容的后验分发数据(例如点击率、点赞率、快划率等),对预训练向量进行微调,从而实现对内容分发质量的级别预测。小红书开创性地构建了一整套内容质量框架,利用封面图片画质美学模型和多模态笔记质量分模型,定义有用和美好的内容。由于内容分发质量完全聚焦在内容的静态特征上,因此在冷启动和长尾内容推荐上更为有效,不会受到马太效应的影响,避免了推荐趋向于热门内容的问题。

新笔记冷启动,种子人群识别——

去中心化分发的基础

小红书发现,扶持新发布、低曝光的笔记可以增强作者的发布意愿。在全域曝光中,大约一半的流量分发是普通用户发表的内容。优质、有价值、引发共鸣的内容永不过时。小红书推荐分发还具有独特的中长尾流量效应。哪怕一条笔记的初始数据一般,只要它有价值,系统捕捉到中长尾信号,依然会被推荐给需要的用户,与发布时效无关。

一个素人博主没有多少粉丝,创作的内容都有可能成为爆款,帖子点赞量或收藏数上千。在前文酒店的床上看西游记的例子中,发帖的用户粉丝量少,主页互动内容也不多,如何对其进行推荐和展示?

这归结为推荐系统的一个核心问题——新内容的冷启动。冷启动的问题本质是在行为数据比较少的情况下充分理解内容,从而实现更精准的推荐,一般会被建模为一个 Regret Minimization 问题,主要关注如何最小化奖励函数的损失值。其中,奖励函数的估值标准至关重要,因为它反映了每个平台的不同价值选择。

多数平台会选择消费类指标,如点击率和停留时长,作为奖励函数的评估标准。相比别的平台,小红书具有更强的 UGC 生态,社区属性更强。所以,在冷启动阶段,系统更加关注高质量评论的数量、挖掘高潜笔记,因为高质量的评论数量反映了目标人群对新内容的互动情况,也即新内容是否被准确分发到了符合其特性的人群中。

在新内容冷启动问题方面,小红书技术团队形成了一套包含4步的 pipeline:

1、内容信息提取:新内容刚上传时,没有用户行为信息,只能通过内容信息进行分发。技术团队运用 NLP、CV 和多模态融合技术,提取内容信息,生成相关的话题和内容特征。

2、种子人群圈选和投放:团队利用内容信息定位目标人群,这些人群是通过双塔模型和图神经网络产出的用户 Embedding 进行聚类得到的。然后根据内容信息,判断哪些人群对新内容更感兴趣。新内容在种子人群中的投放,借助贝叶斯寻优调整 boost 系数,以找到用户指标损失和新内容曝光的最优权衡。

3、基于行为反馈的人群扩散:在初期分发后,新内容会积累一定的用户反馈。小红书希望将这些新内容也分发给与反馈用户相似的其他用户。他们通过 lookalike 模型进行人群扩散,根据与新内容有过交互的用户向量生成新内容向量,并将其作为向量索引。通过定义不同的用户向量和新内容向量的相似度函数,小红书推荐系统 lookalike 模型的点击率提高了约7%。

4、模型承接:在完成初期的冷启动后,新内容进入正常分发阶段。模型的时效性决定了模型是否能有效处理新内容。通过持续迭代,目前小红书首页推荐的召回、粗排和精排模型的训练都做到了分钟级更新。

最终的效果,小红书已经实现了每日新内容占40% 曝光,新内容的分发效率(pCTR)与老内容持平,且24小时内冷启动完成率超过98%。

推荐多样性,长短期兴趣的平衡——

兴趣的探索和保留

在小红书 APP 首页,会用发现 Explore定义信息流推荐的场景,希望能够帮助用户发现感兴趣的内容,或是找到新的兴趣。在发现这一目标的驱动下,多样化的推荐显得尤为重要。

用户的兴趣是多样化的,并且会随着时间的推移而变化。这些变化可能体现在一天的早晚,一年的四季,或者人生的不同阶段。因此,小红书的推荐系统不仅要提供用户当前感兴趣的内容,还要积极探索用户可能感兴趣的新领域,以更好地满足用户的期待。

外交部回应英国禁止华为参加5G建设

为了达到推荐多样性的目标,小红书推荐系统引入了两个关键策略——精细化信号利用(Exploitation)和探索(Exploration)。在精细化信号利用中,系统对用户在多个场景(如搜索、推荐、个人页和作者页等)的各种行为进行精细化利用,归因不同场景不同权重,并根据用户的行为历史进行序列化建模(实时、近一天、近一周、近一个月、近一年)。这种方法提高了模型对用户兴趣的捕获和刻画能力,有助于满足用户的短期兴趣。

在探索策略中,系统使用 DPP 和 MGS 等向量打散机制,解决追打密集导致的实时兴趣内容过量、长期兴趣快速遗忘的问题。同时,系统通过人群召回来解决兴趣探索问题,有助于发现并满足用户的长期兴趣。

为了平衡推荐质量与多样性,小红书提出了滑动频谱分解(Sliding Spectrum Decomposition,SSD)模型。在信息流推荐场景中,SSD 模型通过高效的滑窗计算,将单篇模型的价值排序转化为整个浏览周期的建模。

在多样性的定义中,需要利用 Embedding 来计算内容的相似度。相对于头部内容,中长尾内容的用户交互数据更加稀疏,传统的协同过滤方法在计算相似度时效果不佳。因此,团队设计了一种基于内容的协同过滤方法(CB2CF),使用内容信息预测协同过滤的结果,更有效地衡量中长尾内容的相似性。CB2CF 方法仅使用内容作为输入,依赖模型的泛化能力为新内容提供良好的预测结果,同时依赖全体用户的协同标注获取用户感知的信号,从而提高推荐质量。

CB2CF 的思想源于微软2019年发表在 RecSys 上的工作。小红书在此基础上改进了 loss 的构造方法,取得了更好的结果 [1]

大模型时代,推荐系统的下一站

作为近年来增长最快速的移动互联网平台之一,小红书证明了推荐系统可以兼顾用户价值和平台利益。当用户在平台表达自己的偏好,如对哪种类型的内容感兴趣、希望看到和不希望看到哪些人或事等,推荐系统会精准的感知并不断调优来满足用户需求。这样,用户的满意度提升,社区持续长大,平台的流量价值和商业利益就在其中自然而然地生长起来。

在大模型时代,推荐系统正面临着前所未有的发展机遇。大模型具有强大的泛化能力和知识理解能力,可以为推荐系统带来更精准的推荐结果、更好的用户体验,以及解决实际问题的能力。然而,大模型在推荐系统中的应用也面临着诸多挑战,如计算资源需求、模型可解释性等。

随着大模型的蓬勃发展,小红书的推荐系统将如何演进?

大模型时代推荐系统的机遇和挑战

目前,在推荐系统与大模型结合领域,存在两种技术路线:一种是将大语言模型(LLM)发展或改造成为一个推荐系统,另一种则是将现有推荐系统与 LLM 结合,例如将 LLM 作为特征编码器,或者作为推荐 pipeline 的控制/调度模块。

在第一种路线上,小红书进行了一系列的尝试。现阶段而言,主要挑战在于处理速度过慢。尽管输入的参数有时会带来出人意料的结果,但这种方法与长期积累的推荐系统工具和算法之间存在断裂。小红书技术团队发现,如果完全依赖于 LLM 进行推荐,那么推荐性能将从一个相对高的行业基线跌落。因此,小红书技术团队目前更偏向于后者,也即在推荐系统的传统流程中融入 LLM 的功能,他们认为这是一个极具潜力的研究方向。

总的来说,推荐系统与大模型的结合具有巨大的发展前景,特别是让用户能够接受和系统进行多轮交互这一点,与传统搜推系统场景不同,大多数用户都愿意与 ChatGPT 等 LLM 多聊上几句,让推荐系统有了更多机会去学习和了解用户的意图和需求,而传统场景下用户在最初一两次搜索没有得到想要的结果后便会离开。因此,对于有明确业务场景的公司,可以在大模型时代挖掘出新的机会。

结语

在网络内容爆炸的当下,小红书的推荐系统通过其独特的算法和设计,为普通人提供了一个发现和被发现的平台。这种理念背后的用户导向和社区价值,让每个用户的声音都有可能被放大,成为共鸣的起点。

随着技术的发展,推荐系统需要更多人性化的考虑,例如,如何在确保内容质量和保持算法公正性之间找到平衡,如何避免让不具备长期价值的内容被过度放大。大模型时代,推荐系统的可解释性和透明度如何增强,也是一个重要的挑战。

在小红书的案例中,我们看到了技术如何助力构建更加平等和多元的内容生态,这个过程中的技术抉择和价值考量是推动社区长期健康发展的关键。对于用户而言,思考这些问题,不仅是享受个性化内容带来的便捷,也是理解和参与未来数字社会的重要一步。


返回网站首页

本文评论
北京市版权局:网站传播侵权作品将被约谈_侵害作品信息网络传播权纠纷敲诈申诉
针对近年来层出不穷的网站侵犯版权现象,为了维护权利人的合法权益,促进版权资源信息共享,市版权局于昨天发布了《信息网络传播权保护指导意见》。该意见将于8月1日起正式实施...
日期:07-28
映客:网传视频系恶意炒作 配合调查员工已返回工作岗位(映客视频审核专员)
7月29日消息,近日有消息称,映客因擦边球业务,有相关人员协助警方调查。对此,映客向网易科技发来声明表示否认,称有不法分子利用集团旗下子公司产品平台从事违法活动,公司有员工积...
日期:08-24
抖音杀到了阿里京东家门口_抖音杀到了阿里京东家门口是真的吗
前年以来,抖音迅速在电商、本地生活等赛道攻城略地,持续拓展业务边界。与之对应的是,淘宝、支付宝、拼多多甚至是近期的美团,开始上线更多“抖音化”的业务,从短视频到直播尝试更...
日期:05-21
精准狙击五环外:娱乐大号纷纷试水趣头条号
  开播一个月,《都挺好》热闹了一个月,苏大强从全民恶评到一集洗白,也折腾了一个月。   拥有极强影响力的娱乐领域头部大号萝严肃昨日犀利发文《“你接受苏大强的‘洗白’...
日期:08-06
全球首富超二千亿美元_再创历史新高!全球亿万富豪财富超10万亿美元
(ChinaZ.com) 10月9日 消息:据新华社报道,近日,瑞银集团和普华永道发布报告称,截至 2020 年 7 月底,全球亿万富豪财富约为10. 2 万亿美元,创历史新高。相比 4 月初的 8 万亿美元,...
日期:08-01
288Hz业界最高刷新率 TCL华星助力长虹超羽速电视AWE发布
4 月 27 日,长虹电视联动AWE展会正式发布超羽速电视新品D7 Pro系列和D8 Max系列。作为官宣中“速度最快的电视”,长虹超羽速电视新品采用TCL华星打造的4K高性能显示屏,采用高达...
日期:04-28
英伟达将与软银等日企合作研发生成式AI_英伟达官方合作伙伴
通信世界网消息(CWW)据澎湃新闻报道,12月4日,英伟达CEO黄仁勋在东京与日本首相岸田文雄进行会谈。会谈结束后,黄仁勋在接受采访时表示,英伟达计划将与包括软银在内的日本公司合作...
日期:12-05
韩乃平:国产操作系统为数字中国建设提供关键支撑「韩乃平 中国软件」
习近平总书记强调,“要打好科技仪器设备、操作系统和基础软件国产化攻坚战,鼓励科研机构、高校同企业开展联合攻关,提升国产化替代水平和应用规模,争取早日实现用我国自主的研究...
日期:08-09
重磅.官宣 ∣ 第二届中国移动广告优化师大会来了!(移动广告优化增长大会)
从移动广告的诞生 到营销生态的成型 广告优化师作为其中的关键角色 已逐渐成为行业不可或缺的力量 据不完全调查统计 目前中国广告优化师群体已达数十万 他们每天的日常就...
日期:06-04
即时3D搜索技术OVIR-3D开源 可从文本提示中检索3D对象_搜索3d是什么意思
要点:1. OVIR-3D是一个开放词汇的3D实例检索系统,能够在没有对3D数据进行训练的情况下,从RGB-D视频和语言查询中返回排名的3D实例段。华硕eeepc上网本第一代2. 该系统通过将问...
日期:11-10
施密特称谷歌将为Android厂商提供法律支持(谷歌前ceo施密特)
  谷歌执行董事长埃里克·施密特   新浪科技讯 北京时间11月9日晚间消息,谷歌执行董事长埃里克·施密特(Eric Schmidt)周三在访问台北时表示,谷歌将继续为Android厂商提...
日期:07-24
理想汽车捐赠1000万元 驰援甘肃地震救灾_理想汽车捐款1000万救灾
快科技12月19日消息,理想汽车官方宣布,捐赠1000万元驰援甘肃地震救灾。理想汽车表示,12月18日23时59分,甘肃省临夏州积石山县发生6.2级地震,寒冬灾情,牵动着社会各界的心。理想...
日期:12-20
出海2022:沉浮翻滚中,寻找确定性的“锚”
来源:每日经济新闻   记者/叶晓丹; ;   编辑/董兴生;;   “我不杀伯仁,伯仁却因我而死。”这句古谚语或许是眼下部分跨境电商企业的真实写照。   2021年下半年开始的...
日期:08-16
老马和小扎,要把40亿人带进Web3
美国企业分红上海特斯拉工厂图片欣赏小鹏p7车辆定位   出品|虎嗅科技组   作者|周舟   头图|视觉中国   一个奇怪的国际现象正在互联网行业发生,腾讯(中国最大的社交公司...
日期:08-16
OPPO 618大促进行时!OPPO Watch 3溢彩蓝惊喜上市
2023 年 5 月 24 日,在OPPO Reno10 系列新品发布会上,OPPO Watch3 新配色「溢彩蓝」正式发布,再造全智能手表颜值天花板。与此同时,OPPO618 焕新季狂欢现已开启,下单OPPO Watch3...
日期:05-25
马来西亚将对中国游客免签 飞猪:机票搜索量激增3倍以上_网易科技
11月28日消息,马来西亚宣布将从12月1日开始,对来自中国等国游客实施30天免签证入境措施。消息宣布当日,飞猪平台上钱昂马来西亚的机票搜索热度环比上周增长3倍以上。在刚刚过去...
日期:11-27
小米首款全面屏「小米最后一块真·全面屏,要没了?」
小米最后一块真·全面屏,要没了?大家应该有听说。明年移动设备的无线充电功率限制将从目前的 50W,放宽到 80W。刚听到这个消息的时候,我一个想到的是命运多舛的小米 MIX4。喏,当...
日期:06-13
价值约1600亿 腾讯将所持美团股份发给股东:此前已减持京东_腾讯持股美团多少股份
今天下午,腾讯公司发布了Q3季度财报,同时还宣布了多个重大事项,此前传闻腾讯减持美团的消息得到证实,腾讯宣布向股东分配约9.58亿股美团B类普通股,价值将近1600亿港币。腾讯公告...
日期:11-19
谷歌 俄罗斯「因谷歌未删除虚假信息,俄罗斯法院对其罚款400万卢布」
11月23日,由于谷歌未能在YouTube上删除有关俄乌冲突虚假信息的视频,俄罗斯一家法院对谷歌处以400万卢布的罚款。2021电视盒子推荐:网友评分超高的五大热卖电视盒子苹果15 pro...
日期:11-24
阿里人科技怎么样「阿里文娱数字人厘里未来可能运用到篮球上-蔡崇信」
【】5月10日消息,今日,阿里巴巴董事会执行副主席蔡崇信携阿里文娱数字人厘里亮相第三届BEYOND国际科技创新博览会(简称“BEYOND Expo ”),与行业共同探讨以AIGC技术助力影视文...
日期:09-29