您的位置:首页 > 互联网

谷歌搜索算法内幕被扒,2500页巨细文件实名泄密!搜索排名谎言被揭穿

发布时间:2024-05-29 17:39:57  来源:互联网     背景:

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权转载发布。

【新智元导读】就在刚刚,一份2500页的内部文档泄露,谷歌搜索算法的内幕,让不少人大跌眼镜。

日前,谷歌2500页的内部文档被泄露,揭示了搜索——互联网最强大的仲裁者的运作方式。

爆料人是SparkToro的联合创始人兼CEO,他在自家网站上发表博客文章,宣称一位匿名人士与我分享了数千页泄露的谷歌搜索API文档,SEO中的每个人都应该看到它们!

多年来,Rand Fishkin一直是SEO领域(Search Engine Optimization,搜索引擎优化)的顶级代言人,网站权威性(Domain Rating)这个概念就是他提出的。

既然在这个领域德高望重,Rand Fishkin爆料之前自然要对这位不明身份的匿名人士小心查验。

上周五,在发送了几封电子邮件之后,Rand Fishkin与这位神秘人进行了视频通话,当然,对方并没有露脸。

此次通话让Rand了解了这份泄密文件的更多信息:这是一份超过2500页的API文档,其中包含14014条Attributes,这些属性似乎来自Google的内部Content API Warehouse。

根据文档的提交历史记录,该代码于2024年3月27日上传到GitHub,直到2024年5月7日才被删除。

通话结束后,Rand确认了匿名人的工作经历和他们在营销界共同认识的人,他决定满足匿名人的期望——发表一篇文章来分享这次泄露,并驳斥了谷歌员工多年来一直传播的一些谎言。

Matt Cutts、Gary Ilyes和John Mueller否认谷歌在多年来将基于点击的用户数据用于排名

Rand的文章谈到了沙箱、点击率、停留时间等影响SEO的因素,而这正是谷歌之前极力否认的。

文章一经发布,果然立刻引发了舆论哗然,尤其受到了SEO圈的特别关注。

苹果app store为什么会有广告

另一位SEO专家Mike King也发表文章,揭示谷歌算法的秘密。

Mike King表示,泄露的文件涉及谷歌收集和使用哪些数据、谷歌将哪些网站提升为选举等敏感话题、谷歌如何处理小型网站等主题。

诸多信息表明,谷歌多年来并未完全如实报道,文件中的一些信息似乎与谷歌代表的公开声明相冲突。

面对大家的质疑,谷歌选择沉默,拒绝对此次爆炸性泄漏事件发表评论。

正主没有发声,反倒是此前匿名提供消息的神秘人士露面了。5月28日,神秘人终于决定挺身而出,发布了一段视频,在视频中公布了他的身份。

他叫Erfan Azimi,也是一名SEO从业者,EA Eagle Digital的创始人。

那么,既然Erfan Azimi提供的文档来自Google的内部Content API Warehouse,我们有必要了解一下什么是谷歌API Content Warehouse,以及这份文档究竟泄露了哪些内容?

谷歌搜索黑箱

这次泄密事件似乎来自GitHub,最可信的解释与Erfan Azimi在通话中告诉Rand的一致:

这些文档可能是无意中被短暂公开了,因为文档中的许多链接指向私人GitHub仓库,以及谷歌公司网站上需要特定认证登录的内部页面。

在2024年3月至5月这段可能是偶然的公开时间里,API文档被传播到Hexdocs(索引公开的GitHub仓库),并被其他人发现并传播。

让Rand疑惑的是,他确信其他人也有一份副本,但直到此次爆料发生以前,这份文件并没有被公开讨论。

据前谷歌开发人员透露,几乎每个谷歌团队都有这样的文档,用于解释各种API属性和模块,帮助项目人员熟悉可用的数据元素。

该泄漏信息与GitHub公共仓库和谷歌云API文档中的其他信息相吻合,使用了相同的符号风格、格式,甚至流程/模块/功能名称和引用。

API Content Warehouse听起来像个技术术语,但我们可以把它看作是给谷歌搜索引擎团队成员的一份指南。

它就像图书馆里的图书目录,谷歌用它来告诉员工有哪些书以及如何获取。

但不同的是,图书馆是公开的,而谷歌搜索却是世界上最神秘、防守森严的黑匣子之一。在过去的二十多年中,谷歌搜索部门从未发生过如此大规模或如此详细的泄密事件。

泄露了什么?

1. 对用户点击数据的使用

文档中的一些模块提到了goodClicks、badClicks、lastLongestClicks、印象、压扁、未压扁和独角兽点击等功能。这些都与Navboost和Glue有关,看过谷歌司法部证词的人可能对这两个词并不陌生。

以下是司法部律师Kenneth Dintzer对搜索质量团队搜索副总裁Pandu Nayak的交叉询问的相关摘录:

Q. 那么请提醒我一下,Navboost是否可以追溯到2005年?

A. 在这个范围内,甚至可能更早。

工信部消息,截至9月底,全国累计建设5G基站

Q. 它已经更新过了,它已经不是当年的那个Navboost了?

A. 不是了

Q. 还有一个是glue,对吗?

A. glue只是Navboost的另一个名称,包括页面上的所有其他功能。

Q. 好的。我本来打算稍后再谈,但我们现在就可以谈。就像我们讨论过的那样,Navboost可以生成网页结果,对吗?

A. 是的。

Q. glue还可以处理页面上所有不是网页结果的内容,对吗?

A. 没错。

Q. 它们共同帮助找到最终显示在我们搜索结果页上的内容并对其进行排名?

A. 没错。它们都是这方面的信号,是的。

这份泄露的API文档支持Nayak先生的证词,并与Google的网站质量专利保持一致。

谷歌似乎有办法过滤掉他们不想计入排名系统的点击量,并将他们希望计入排名系统的点击量纳入其中。

他们似乎还能衡量点击时长(pogo-sticking,指搜索者点击结果后,因对找到的答案不满意而迅速点击返回按钮)和印象。

2. 征用Chrome的点击流

谷歌代表多次表示,它不会使用Chrome数据对页面进行排名,但泄密文档在有关网站如何在搜索中显示的部分中,特别提到了Chrome。

泄露文件的匿名消息源称,早在2005年,谷歌就希望获得数十亿互联网用户的完整点击流,而通过Chrome浏览器,他们已经得偿所愿。

API文档显示,谷歌可以使用Chrome浏览器计算与单个页面和整个域相关的几类指标。

这份文档介绍了谷歌如何创建Sitelinks的相关功能,特别有趣。

它展示了一个名为topUrl的调用,即 A list of top urls with highest two_level_score, i.e., chrome_trans_clicks.

据此可以推测出,谷歌很可能使用了 Chrome 浏览器中网页的点击次数,并以此来确定网站上最受欢迎或是最重要的 URL,进而计算出哪些URL应包含在Sitelinks功能中。

在谷歌搜索结果中,它总能显示用户访问量最大的页面,这是它通过跟踪数十亿Chrome用户的点击流得来的。

对于谷歌的这一行为,网友当然表示不满。

3. 为严肃话题创建白名单

我们不难通过优质旅游网站 模块得出这样一个推论——谷歌在旅游领域存在一个白名单,尽管尚不清楚这是否专门用于谷歌的旅游搜索选项,还是更广泛的网络搜索。

此外,文档中多处提到的 isCovidLocalAuthority(新冠本地权威)和 isElectionAuthority(选举权威)进一步表明,谷歌正在对特定域名进行白名单管理,这些域名可能会在用户搜索极具争议的问题时被优先显示。

例如,在2020年美国总统大选之后,某位候选人在没有证据的情况下声称选票被偷,并鼓励其追随者冲击国会山。

苹果旗航店是正品吗

谷歌几乎肯定会成为人们最先搜索这一事件相关信息的地方之一,如果他们的搜索引擎返回的是不准确描述选举证据的宣传网站,这可能会直接导致更多的争论、暴力,甚至是美国民主的终结。

从这个角度上来说,白名单有其现实意义。Rand Fishkin表示我们这些希望自由公正的选举继续下去的人应该非常感谢谷歌的工程师们在这种情况下使用了白名单。

4. 采用人工评估网站质量

长期以来,谷歌一直有一个名为EWOK的质量评级平台,我们现在有证据表明,搜索系统中使用了质量评估者中的某些元素。

Rand Fishkin觉得有趣的是,EWOK质量评估者生成的分数和数据可能会直接参与谷歌的搜索系统,而不仅仅是实验的训练集。

当然,这些可能只是用于测试,但是当浏览泄露的文档时,你就会发现当这是真的,它会在注释和模块详细信息中明确指出。

其中提到的每份文档相关性评级即来自 EWOK 的评估,虽然没有详细的说明,但我们不难想象,人类对网站的评估到底有多重要。

鹿客指静脉智能锁怎么样

文档还提到了人工评级(例如来自 EWOK 的评级),并指出它们通常只填充在评估管道中,这表明它们可能主要是该模块中的训练数据。

但Rand Fishkin认为这仍然是一个非常重要的角色,营销人员不应忽视质量评级者对其网站的良好感知和评级有多么重要。

5. 利用点击数据确定权重

谷歌将链接索引分为三个等级(低、中、高质量),点击数据用于确定网站属于哪个等级。

- 如果网站没有被点击,就会进入低质量索引,链接也会被忽略

- 如果网站来自可验证设备的点击量很高,它就会进入高质量索引,并且链接会传递排名信号

一旦链接因为属于更高层次的索引而成为 “可信 ”链接,它就可以流动PageRank和锚点,或者被垃圾链接系统过滤/删除。

来自低质量链接索引的链接不会损害网站的排名,它们只会被忽略。

谷歌的搜索算法可能是互联网上最重要的系统,它决定了不同网站的生死存亡以及我们在网上所能看到的内容。

可它到底是如何对网站进行排名的,长期以来一直是个谜,记者、研究人员和从事SEO工作的人们都在不断拼凑这个谜题的答案。

在这次泄漏事件中,谷歌依旧保持沉默,似乎会让这个谜题长久存在下去。

但这次谷歌有史以来最严重的泄密,还是撕开了一个裂缝,让人们对搜索的工作原理有了前所未有的了解。

参考资料:

https://sparktoro.com/blog/an-anonymous-source-shared-thousands-of-leaked-google-search-api-documents-with-me-everyone-in-seo-should-see-them/


返回网站首页

本文评论
AI定制虚拟女友软件有哪些 免费ai女友网站在线使用地址入口_有没有什么虚拟女友的软件
DreamGF.AI是一款运用人工智能技术,创建个性化虚拟女友的创新平台。它允许用户根据自己的喜好和需求,定制虚拟女友的外观、性格和其他特征,与其进行深入的互动和交流。DreamGF....
日期:01-13
点外卖美团还是饿了么「实测抖音点外卖“问题不少” 挑战美团饿了么“任重道远”」
  文|新浪财经 张俊  继2021年后,抖音入局外卖的消息再度袭来。  但新浪财经实测发现,目前抖音的外卖到家服务还面临着几个问题,一是商家太少,可选的餐厅十分有限;二是可选...
日期:02-09
人气微单TOP 10!青春专微最受宠 年轻人原来都在用这些相机_主流微单
如今,摄影已经成为人们日常生活中必不可少的一部分,随着天气渐暖,2024年的初春就这么悄无声息的来了,那么大家有想好去哪里春游和拍照了吗?对于当下的年轻人来说,或许相机不再...
日期:03-26
Etisalat by e&首席技术信息官Khalid Murshed:5G加速发展,使能更大商业成功
通信世界网消息(CWW)在10月11日举办的2023全球移动宽带论坛上,Etisalat by e&首席技术信息官Khalid Murshed发表了《5G加速发展,使能更大商业成功》的主题演讲。他表示,5G及5G-A...
日期:10-18
李斌:蔚来ET9订单量远远高于官方预期
快科技12月25日消息,蔚来CEO李斌在接受采访时表示:蔚来ET9订单量远远高于官方预期。李斌表示:作为一款行政旗舰轿车,该车一定不能是传统的,但也不是了另类的,该车一定要是得体、从...
日期:12-25
嫦娥五号带来的月球土壤「我国科学家发现嫦娥五号月壤矿物中存在高含量的水」
遥感探测发现月表普遍存在水(OH/H₂O),然而由于缺乏直接的样品分析证据,月表水的成因和分布一直存在争议。数据图近日,中国科学院地球化学研究所科研团队针对嫦娥五号月壤样品开...
日期:09-17
共创智算新纪元,2024人工智能基础设施峰会暨超云新品发布会成功召开
通信世界网消息(CWW)5月10日,备受瞩目的2024人工智能基础设施峰会暨超云新品发布会在北京成功召开。本次峰会以“释放新质生产力,共创智算新纪元”为主题,吸引了众多国内知名专家...
日期:05-11
经历全球宕机后Xbox Gaming服务正逐渐恢复上线(xbox服务状态)
  部分玩家在 Xbox 游戏主机上访问 Cloud Gaming、订阅、购买等出现了问题。微软已经证实,该平台在为 Xbox 网络用户提供的云功能方面遇到了一些问题。根据 Xbox 支持网...
日期:07-18
京东物流被曝将招聘上万人:多劳多得 激励上不封顶_京东物流招聘是真的吗
2月29日 消息:京东物流近日宣布启动“万人招聘计划”,计划于2024年上半年吸纳约2万名新员工,主要涵盖供应链、运营、管理、销售等关键领域。此举旨在进一步增强京东物流的人才...
日期:02-29
黑粉因扩散张大奕的不实信息被警告,微博发布道歉信!_张大奕最新微博消息
  最近被推向风口浪尖的网红张大奕,大家应该都非常熟悉吧,其实不仅仅因为这样事情让很多人认识了张大奕,而张大奕本身就具有很高的热度,加上有心之人恶意发表不实信息,才...
日期:05-06
新东方互动教学平台「揭秘新东方智慧教育解决方案 2.0」
新东方创始人俞敏洪曾多次强调新东方发展智慧教育的核心原则,即在科教兴国人才强国战略驱动下,始终坚持以创新人才培养为目标,推动优质教育资源均衡发展,服务教育数字化改革,促进...
日期:05-29
14900K+RTX4080S打造的高端海景房主机装机配置方案
终于告别了癸卯年,迎来了甲辰年,所谓新年新气象,那就装一台新机犒赏一下自己吧。其实这台机子早在年前就准备好配件了,然后大年初三开始动工折腾。还记得当时连续大吃大喝了好几...
日期:04-11
阅文新管理层五大举措推“正版联盟” 承担作家所有维权成本_阅文联合创始人
  ​6月5日,阅文集团发布“正版联盟”公告,展现一系列打击盗版成果,并推五大实质举措打盗版。这是阅文新管理层在发布“单本可选新合同”之后的又一重拳。公告中,阅文强...
日期:07-14
三星i6数码相机「三星 One UI 6 更新新增 AI 相机功能 旨在提升摄影体验」
10 月 31 日消息:三星日前发布了 One UI 6 更新,为 Galaxy 系列手机的相机应用带来了多项新功能,无论是专业摄影师还是普通手机用户,都能从中受益。新功能主要集中在新的 三星...
日期:10-31
大连4.6级地震 亲历网友热议:市民称震感强烈晃到头晕 鼠标来回滑动
08月23日晚,辽宁大连先后发生4.6和2.8级地震,不少网友表示震感强烈。据中国地震台网正式测定:今日18时19分在辽宁大连市普兰店区(北纬39.42度,东经122.20度)发生4.6级地震,震源深度...
日期:08-24
咨询量暴增满意度逆势提升 宝洁、长虹特殊时期创造新增量:盯住服务数据
  盯住服务数据,这是侯治军思考服务价值最多的一个春节。   作为长虹·美菱中国区电商服务负责人,侯治军日常工作重点集中在物流、营销等环节。然而从除夕开始,侯治军紧紧...
日期:07-23
Q2总营收增42% 实现阶段性盈利 叮咚买菜梁昌霖:死磕前置仓
联想屏幕有亮点ARC显卡百度carlife智能手机互联 查看最新行情   记者/陈婷; ;   编辑/刘雪梅;;   继低调的一季报之后,8月11日晚间,叮咚买菜交出了一...
日期:08-12
快手-W:授出6.79万份购股权「快手持股人」
  快手-W9月27日公告,根据首次公开发售后购股权计划授出合共6.79万份可认购股份的购股权,惟须待承授人接纳方可作实。iPhone变焦镜头OPPO Find X(骁龙845) ...
日期:09-28
追觅发新品M13 Beta 另推两款机器人_追觅v16发售
凤凰网科技讯 3月28日消息,追觅科技首场洗地机产品发布会在上海召开。本次发布会发布了无线二合一洗地机M13 Beta,还推出了通用人形机器人和仿生四足机器狗Eame One二代。追觅...
日期:03-29
b站商标知名度「B站诉争“哔哩哔哩”食品商标胜诉:属于驰名商标」
  来源:澎湃新闻  记者 范佳来  近日,广受关注的B站诉争“哔哩哔哩”商标一案终于落下帷幕。oppo watch应用市场htc vive怎么玩  判决书显示,北京高级人民法院作出终审...
日期:10-04