您的位置:首页 > 互联网

小红书基于DorisDB实现数据服务平台统一化,简化数据链路

发布时间:2016-08-22 18:47:03  来源:互联网     背景:

  小红书是年轻人的生活记录、分享平台,用户可以通过短视频、图文等形式记录生活点滴,分享生活方式。在2017年后,随着业务类型和用户体量的爆炸式增长,各类数据分析的需求以及应用系统的数据需求快速出现,例如:商业智能分析,数据应用报表,用户行为分析、算法策略数据等。小红书大数据团队逐步引入了多种OLAP分析引擎来更好的满足需求。DorisDB采用了全面向量化的计算技术,是性能非常强悍的新一代MPP数据库。通过引入DorisDB,小红书构建了全新的统一数据服务平台,大大降低了数据链路开发复杂性,提升了高并发极速查询能力。

    一、OLAP引擎在小红书的演进史

  第一阶段,在2017年之前,数据总量还不是特别大,这个阶段使用AWS的Redshift,此时数仓体系还没有完全建立,很多数据需求的实现都是用短平快、烟囱式开发的方式来满足。数据ETL、数仓模型到最后报表端展现,在Redshift中一站式完成。

  但随着业务复杂度不断提升,以及数据量的快速增长,这种模式很快遇到了瓶颈。主要有以下问题:

  ·Redshift无法在不影响线上查询性能的前提下弹性扩展,一旦涉及到扩容,就会涉及到数据重分布,从而影响集群的性能以及可用性。

  ·ETL任务严重影响集群可用性。在Redshift中同时进行ETL任务的时候,会大量抢占资源,从而影响数据分析的效率,导致查询超时甚至因为集群负载过大后整个集群崩溃不可用。

  ·没有良好的存算分离,数据存储容量存在瓶颈,无法满足随业务而快速增长的数据量存储需求。

  第二阶段,随着数据仓库在Hadoop/Hive体系上搭建和完善,ETL任务全部转移至Hadoop集群,这个阶段使用Presto完成OLAP分析。Presto天然和Hive共享元数据信息,且共同使用物理数据存储,即插即用。大量的对数仓表的灵活查询使用Presto完成。

  第三阶段,业务实时性增强,对查询性能的要求不断升高,同时许多数据应用产生。这个阶段引入了ClickHouse,用来建设性能更强悍,响应时间更短的数据分析平台以满足实时性要求。

  第四阶段,小红书大数据团队进行了实时数仓的整体设计和搭建,同时为统一对各业务团队提供数据接口而构建了数据服务平台,外接了多个内部或者To B服务的应用系统。既需要做低延时的复杂查询,同时对并发量也有很高的要求。这个阶段我们又根据场景引入了DorisDB,以满足以上各类需求。

    二、小红书数据分析体系架构

    1、小红书OLAP体系现状

  小红书的整个数据分析体系,由数据采集、数据存储加工/数据共享和应用层组成。

    1)数据采集

  服务器日志或者App日志通过Flume收集埋点日志,数据同时分发到离线存储S3和实时存储kafka;线上业务数据库通过Canal实时采集MySQL binlog等信息。

    2)数据存储加工

  离线数据处理:利用Hive/Spark高可扩展的批处理能力承担所有的离线数仓的ETL和数据模型加工的工作。

  实时数据处理:Flink完成实时侧数据的ETL(包括维度丰富,双流Join,实时汇总);离线表通过调度平台同步到ClickHouse/DorisDB,Flink实现了ClickHouse和DorisDB的sink connector,落地到DorisDB或ClickHouse。

    3)数据共享

  数据共享层的主要提供对外服务的底层数据存储,离线或者实时的数据写入相关的数据库组件中,面向多种服务,不同场景提供查询能力。

  数据共享层主要有TiDB/Hbase/ClickHouse/DorisDB。通过DorisDB和ClickHouse提供的高速OLAP查询能力,在应用侧承接了报表平台,提供即席分析的平台,对开发侧提供数据接口,以及实现多个数据产品(比如流量分析平台,用户标签平台)。

    4)应用层

  应用层主要为面向管理和运营人员的报表,具有并发、延迟、需求更新频繁等要求,面向数据分析师的即席查询,要求支持复杂sql处理、海量数据查询等能力。

    2、各OLAP分析工具选型比较

  #FormatImgID_1#

    1)Clickhouse:

  优点:

  ·很强的单表查询性能,适合基于大宽表的灵活即席查询。

  ·包含丰富的MergeTree Family,支持预聚合。

  ·非常适合大规模日志明细数据写入分析。

  缺点:

  ·不支持真正的删除与更新。

  ·Join方式不是很友好。

  ·并发能力比较低。

  ·MergeTree合并不完全。

    2)DorisDB:

  优点:

  ·单表查询和多表查询性能都很强,可以同时较好支持宽表查询场景和复杂多表查询。

  支持高并发查询。

  ·支持实时数据微批ETL处理。

  ·流式和批量数据写入都能都比较强。

  ·兼容MySQL协议和标准SQL。

  缺点:

  ·周边生态比较不完善。

  ·部分SQL语法不支持。

    3)TiDB/TiFlash:

  优点:

  ·支持更新/删除。

  ·兼顾了OLTP的需求。

  ·支持Flink ExactlyOnce语意,支持幂等。

  缺点:

  ·查询性能弱,无法较好支持OLAP查询场景。

  ·不支持实时预聚合。

  ·TiFlash暂时不支持所有的SQL写法以及函数。

    三、DorisDB在广告数据中心的应用实践

    1、业务场景概述

  广告业务的核心数据有两大块:一个是广告的曝光点击流,即所有广告单元的展点销信息;第二个是广告效果归因数据,比如说在小红书站内的订单转化,相关表单提交,笔记的点赞、收藏、加关注等参与程度。

  基于这些数据,根据不同的业务场景需求,实时汇总出相关业务统计指标,对外提供查询分析服务。

    2、原有解决方案

    1)技术架构

  在引入DorisDB之前,是用大量Flink任务进行写入MySQL/Redis/HDFS/ClickHouse,以达到数据的落地。

  Flink中核心处理逻辑有几类:

  ·前端用户广告展示信息事件流和后端算法推荐流双流关联并去重,完善广告信息。

  ·接入反作弊,清除作弊事件。

  ·按不同业务场景需求汇总结果写入不同的数据库组件中。

    2)技术痛点

  原有架构主要有以下问题:

  ·数据逻辑没有很好做归拢合并,维护工作量大,新需求无法快速响应。

  ·Clickhouse的并发能力不足以及扩容复杂度在可见未来会成为整体广告系统瓶颈。

  ·因为Flink层逻辑散落,由大量小的Flink任务构成,因此导致整个架构无法满足高可用要求,只要任何一个任务出现问题,都会影响线上业务。

    3、基于DorisDB的解决方案

  因此我们希望对原有体系进行优化,核心思路是利用一个OLAP引擎进行这一层的统一,对OLAP引擎的要求是比较高的:

  ·能支撑大吞吐量的数据写入要求。

  ·可以支持多维度组合的灵活查询,TP99在100ms以下。

  ·有实时汇总上卷的能力,提高查询性能,支持qps达到上万的要求。

  ·通过Binlog实时同步MySQL的数据,并及时对数据进行封装。

  ·比较好的支持多表关联。

  经过大量调研,DorisDB比较契合广告数据中心的整体要求。基于DorisDB本身高效的查询能力,支持高QPS的特性,可以为广告的算法策略、广告实时计费、广告平台实时的数据报告提供一体化服务。

  新架构具备以下优点:

  ·结构清晰,Flink专注于数据的清洗,业务逻辑计算从Flink迁到DorisDB内实现,DorisDB就是数据业务逻辑的终点。

  ·可以维护统一的数据口径,一份数据输入,一套广告统计口径输出。

  ·在底层实现DorisDB主备双活,更好的支持高QPS场景。

    1)数据表设计

    数据模型设计

  DorisDB本身提供三种数据模型:明细模型/聚合模型/更新模型。对小红书广告业务来说,三种数据模型各尽其用:

小红书基于DorisDB实现数据服务平台统一化,简化数据链路

  ·广告曝光点击流写入聚合模型,按照业务所需要的维度,如广告主、广告类型、创意,广告单元,搜索词,地域,用户属性等设计聚合的所有维度,根据所需要的指标进行聚合。

  ·广告侧后端有很多的线上MySQL,通过DorisDB更新模型接入MySQL进行实时的表更新。

  ·在Hadoop离线数仓中还定期统计了一些数据报告同步到DorisDB中,这些数据使用了DorisDB的明细模型。

    数据分区/分桶

  DorisDB提供的数据分区功能,可以很好的提升广告场景下查询的性能。例如,广告侧查询常见的一种查询场景,是查询过去某一段时间内的数据,我们可以在DorisDB中根据时间进行分区,过滤掉不必要的分区数据。另外,广告查询会根据广告主进行筛选,我们将广告主ID作为排序键的最前列,就可以快速定位到广告主的数据,DorisDB还支持按照广告主ID进行Hash分桶,减少整个查询的数据量进行快速定位,这对高并发场景也具有非常大的意义,尽量减少了查询语句所覆盖的数据范围,提高了并发能力。

    物化视图

  我们利用DorisDB物化视图能够实时、批量构建,灵活增加删除以及透明化使用的特性,建立了基于广告主粒度、基于用户特征粒度、基于广告单元粒度、基于具体创意粒度的物化视图。基于这些物化视图,可以极大加速查询。

    2)数据导入

  实时的数据导入分为两种:

  ·有ETL处理需求的,会利用Flink进行ETL逻辑转化,使用Flink DorisDB Connector写入DorisDB。

  ·在实时数仓公共层的,配置Routine Load任务,将数据10s一个batch写入DorisDB表中。

  离线数据报告导入DorisDB:

  ·在DorisDB提供的原生的Broker Load基础上在小红书数仓的调度平台上封装了导数模版,通过界面化配置的方式,将离线数仓的表导入到DorisDB中。

    3)数据查询

  在我们的查询场景中,广告主业务查询服务对查询并发度要求很高。DorisDB采用的是MPP查询架构,底层数据按照Range和Hash两级分片,非常适合广告主业务的查询场景。

  内部做的线上查询压测结果,每个FE能到2000左右的QPS,整个集群能提供上万的QPS,TP99的查询在100毫秒以下。

    4)系统运维

  广告数据中心是非常核心的一个线上服务,因此对高可用及灵活扩容能力有非常高的要求。DorisDB支持fe/be多副本,没有单节点问题,当有节点故障的时候也可以保证整个集群的高可用。另外,DorisDB在大数据规模下可以进行在线弹性扩展,在扩容时无需下线,不会影响到在线业务,这个能力也是我们非常需要的。

    总结

  小红书从今年年初开始调研引入DorisDB,当前已经有五个DorisDB集群在稳定运行中,其中有两个开始稳定提供线上服务,三个还在试运行。引入DorisDB后,实现了数据服务统一化,大大简化了实时数据处理链路,同时也能保障较高的查询并发和较低的响应延迟要求,之后将用来提升更多业务场景的数据服务和查询能力。最后,感谢鼎石科技的大力支持,也期望DorisDB作为性能强悍的新一代MPP数据库引领者越来越好!(作者:吴浩亮 小红书大数据团队,数据仓库架构师)

chrome已保存的密码


智能耳机市场规模

10寸2k分辨率平板

三星s20像素

返回网站首页

联想笔记本屏幕无显示

比特国际多链钱包app下载


福布斯中国联合易观分析发布最具创新力企业榜
赛场激情有约,抓饭直播体育赛事,让这个夏天不孤单

返回网站首页

本文评论
多模数据处理破茧成蝶 大数据“卡脖子”成为过去!
  在这场出人意料的新冠疫情之下,中国的大数据技术展现了惊人的威力:   追踪流动人口,极速公布各地疫情报告,覆盖所有人群的健康码大数据服务,电商数据调动医疗资源,AI+大数...
日期:07-14
最美1000张脸,究竟谁才是颜“智”担当
核心提示: 9月19日,一个诺大的魔幻箱子空降上海大悦城,引来大量路人的围观,这个魔幻箱子究竟将......
日期:09-26
京东众筹项目发起人「曾孵化国内破亿众筹项目:京东众筹今日正式暂停运营」
9月,京麦商家中心曾发布公告,表示将在10月暂停运营京东众筹业务。今天,京东众筹业务正式暂停业务,已上线的项目还将继续进行众筹,且众筹成功后能够正常发货。虽然官方表示京东众...
日期:10-15
华盐助力大健康数字化转型
  随着互联网科技发展,数字经济也迎来了爆发式增长,加速融入了人们生产、生活的方方面面。作为全球驱动经济增长的核心动力,数字经济大潮蓬勃汹涌、气势不凡。   在数...
日期:07-17
工人日报:网暴苦难中的“孤勇者”于心何忍
  男子躺在床上,鼻子插着氧气管,嘴巴微微张合,12岁的女儿在床边跳着欢快的舞蹈……据媒体报道,日前,一段“女儿在爸爸病床旁跳舞”的视频引发网友争议,有人认为不妥,有人认为并无...
日期:09-01
海南买苹果13免税可以优惠多少钱「最高优惠289元!海南免税店版iPhone 14 Plus开卖」
大家注意啦!现在海南免税店版iPhone 14 Plus开卖了,最多可便宜289元。根据海南免税店发布的消息,iPhone 14 Plus手机128GB、256GB和512GB三个版本的价格分别是6790元、7665元...
日期:10-09
法拉第未来任命 Becky Roof 担任临时 CFO
  3 月 2 日消息,据外媒报道,美国当地时间周二,电动汽车公司法拉第未来(Faraday Future)宣布,已任命咨询公司 AlixPartners 的董事总经理贝琪・洛夫(Becky Roof)担任临时首席...
日期:03-04
华为手机植入北斗芯片「华为抢先苹果支持卫星通信!全球首颗北斗短报文SoC芯片进入量产」
在华为和苹果的带动下,“卫星通信”成为最近热议的话题之一,业内猜测,华为将携手北斗三号系统实现手机卫星通信技术的大众化应用。日前,国内独立第三方集成电路测试技术服务商利...
日期:09-13
苹果商店被丰田车冲撞造成1死19伤 惨烈事故惊动CEO库克
上周一(11月21日),在美国美国马萨诸塞州欣厄姆市Derby街上的苹果商店发生一起惨案”,一位司机驾驶丰田4Runner越野车冲破玻璃,撞入店内,造成1死19伤。荣耀80系列会不会回归直面屏...
日期:11-29
“必须比时代变化更快”!阿里申请双重主要上市 还有这些对未来的思考
记者/陈婷; ;   编辑/刘雪梅;;   “过去这一年,在风云变幻的国际、国内形势下,我们共同面临着很多的‘时代之问’。我们应对之道的基本原则是‘坚定信心,积极应变,做好自己...
日期:07-31
抖音正式上线双11好物节 跨店每满200元减30元_抖音双十二活动
10月31日 消息:今天,抖音正式上线双11好物节。10月31日至11月11日,消费者打开抖音,在顶部商城栏即可进入“抖音双11好物节”专区。抖音商城推出了跨店每满200元减30元的活动,并...
日期:11-01
微信测试开发者“神器”:小程序可直接编译为iOS/安卓App_微信开发者工具ios
对于用户来说,无论是iOS应用,安卓应用,亦或是微信小程序,在操作上似乎都没有什么差异;但对于开发者来说,这却意味着三套不同的开发标准与流程。近日,微信开始测试名为Donut的开发平...
日期:12-18
iPhone SE4最新曝光:2024发布 用什么屏幕还没定_iPhone4s什么时候出的
中关村在线消息:近日,屏幕供应链人士Ross Young分享了一则有关iPhone 14的曝光,他表示第四代iPhone SE(以下简称iPhone SE4)将于2024年发布,目前苹果还没定下来该机将采用何种屏幕...
日期:11-03
《生活垃圾分类标志》新版标准明日起正式实施_国家标准生活垃圾分类标志规定了多少个垃圾分类标志
  11月30日消息 日前,住房和城乡建设部发布了《生活垃圾分类标志》标准,主要对生活垃圾分类标志的适用范围、类别构成、图形符号进行了调整,将于明日(12月1日)起实施。   ...
日期:03-04
马斯克在推特上推的币「马斯克回应完成推特私有化交易:推特自由了」
10 月 28 日讯:今日,在完成收购推特,并将其私有化后,特斯拉CEO马斯克在推特上发文:“推特自由了。”智能手环销售数据刘涛双十二直播预告乐信财报Q1...
日期:10-31
PICO 4 VR一体机新品发布:售价2499元起 将推VR版《三体》「Pico Neo3 VR一体机」
9月27日消息,PICO在中国市场正式发布新一代VR一体机——PICO 4系列,售价2499元起。这是PICO被字节跳动收购以来首次发布升级换代产品。据悉,PICO 4产品配置达到行业领先水平。...
日期:09-30
三菱中毒泄军工机密  网友称360该出日文版
  日前,三菱重工业集团被网络黑客攻击的事件公诸于众,该集团使用的电脑遭到至少50种以上的病毒感染,导致其正在建造的军舰和潜艇等资料被盗,而日本本土又缺乏优秀的反病毒产...
日期:07-24
荣耀80 Pro曝光:年底发布 2亿像素主摄_荣耀20pro主摄像头多少钱
上午有荣耀80系列手机的最新消息,目前已经确定的是荣耀80系列有三款机型,分别为荣耀80 SE、荣耀80和荣耀80 Pro。对应的核心将是天玑1080、骁龙778G+以及旗舰级的骁龙8+处理器,...
日期:10-27
疫情下的教培从业者:减员、录播、把线下班开到隔壁昆山
记者 邓玲玮   炎炎夏日,教培行业还在经历寒冬。   此前受疫情和就业环境双重影响,教培行业线下业务停滞,有的甚至面临资金链断裂危机。为了活下来,不少教培机构纷纷把业务...
日期:08-08
美团将于8月26日公布2022年第二季度财报(美团2020年第三季度财报)
查看最新行情   讯 8月16日下午消息,美团(香港联交所股份代号03690)今日宣布该公司将于2022年8月26日闭市后公布其截至2022年6月30日的第二季度财务业绩...
日期:08-17