您的位置:首页 > 互联网

58集团 x DorisDB:全面升级数据分析能力,满足多场景业务分析需求

发布时间:2019-03-18 10:29:12  来源:互联网     背景:

  58集团是中国互联网生活服务领域的领导者,旗下有国内最大的生活服务平台,覆盖各类业务场景,例如车业务、房产业务、本地服务、招聘业务、金融业务等等。

  随着业务的高速发展,越来越多的分析需求涌现,例如:安全分析、商业智能分析、数仓报表等。这些场景的数据体量都较大,对数据分析平台提出了很高的要求。为了满足这些分析型业务的需求,DBA团队从2021年初就开始调研各类分析型数据库,其中包括DorisDB、TiFlash、ClickHouse等,评测他们的性能及功能。

  总体评测下来,DorisDB表现全面,在单表/多表查询性能、物化视图及SQL支持等方面能力都契合集团业务需求。目前,我们已经落地了两套DorisDB集群,还有1-2套正在测试阶段,后续会进行进一步推广和落地更多应用。

  一、评测信息

  我们从两个方面来评测以上这些分析型数据库:一个是功能,一个是性能。每种数据库都有各自的特点。

  1.功能方面

  2.性能方面

  2021年初,我们完整对比过3种数据库的性能,包括TiFlash(4.0.10)、ClickHouse(20.3.8.53)、DorisDB(1.11.0)单表及多表join的性能情况。TiDB5.0的TiFlash已经支持MPP,此处为4.0版本,无MPP。

  测试使用业界流行的Star Schema Benchmark星型模型测试集。结论如下:

  ·单表/多表查询,DorisDB总体时间均最短。

  ·单表查询:DorisDB最快次数最多,ClickHouse次之。

  ·多表查询:DorisDB所有执行均最快。

  关于TiDB/TiFlash

  ·TiDB/TiFlash总体时间单表/多表查询均最长。

  ·TiDB执行计划多数走TiKV,导致执行时间长,且数据量越多,执行时间越长。

  ·TiDB强制走TiFlash,单表多数提速多,多表多数变慢,但4.0.10版本的执行计划多数不走。

  关于Clickhouse

  ·ClickHouse多表查询需要更改SQL,使类型一致才可以,且字段名、表名区分大小写。

  ·ClickHouse单机性能强悍,性价比较高。

  ·ClickHouse大单表查询方式效率好,多表关联效率降低明显。

  关于DorisDB

  ·DorisDB单表和多表关联查询速度都非常快。

  【单表查询结果】

  【多表关联查询结果】

  二、业务需求及应用

  1.安全分析相关业务

  每天,内部服务器上的各类操作和运行情况,是内部安全人员比较关心的。但是服务器上每天有大量的信息,如何能快速收集落地、统一实时分析,是这个数据分析场景面临的挑战。具体来说,安全分析业务需要应对以下情况:

  ·写入数据量大,每天大约几亿的数据需要落地;

  ·实时快速的分析支持,例如:最近15分钟,机器信息的情况是怎样的;

  ·需要定期进行数据清理;

  ·数据量不断累积,数据总量规模增长快。

  综合评估后,我们选择了DorisDB来支持安全分析相关业务。在使用初期,我们使用了DorisDB的明细模型(即保留所有历史数据),20天左右,数据行数总量就800亿+了,磁盘空间占用8T左右,由于明细数据量庞大导致查询性能也受到影响。

  后与内部研发人员讨论,业务分析并不需要详细的历史明细,数据按照指定时间粒度进行聚合汇总即可。便将数据模型改成聚合模型,设置日期、小时和15分钟三个时间维度,指标数据按照这个级别的时间维度进行聚合,聚合后每天新增的数据在10亿左右,数据量降低了75%,查询性能也得到大幅提升。且采用kafka+routine load的方式在DorisDB中进行导入聚合,避免了引入冗余的组件,统一了技术栈。

  2.DBA内部业务

  MySQL中间件,我们使用的ProxySQL,ProxySQL支持展示SQL情况。但是操作较为繁琐,每次需要重置,才重新开始统计。如何分析指定时间的SQL情况,是困扰我们的另一问题。

  每个ProxySQL有自己的全日志,我们可以分析全日志来获取需要的信息。第一个架构方案,我们想到了使用ES,ProxySQL全日志–>Filebeat采集–>Kafka–>Logstash–>ES。但是实际使用中,发现虽然可以查看流水,但是分析时就比较麻烦,不如写SQL的方便。

  后来架构又改成了 ProxySQL全日志–>Filebeat采集–>Kafka–>DorisDB,这样就可以进行快速分析了。

  另一个问题,因为线上的ProxySQL的日志量特别大,不能所有集群都开,我们设置了可以选择开启,这样有需要的集群才进行分析。降低存储的压力。

  举例:分析某30分钟某集群的SQL执行情况,按照次数排序,查询很快。

  除了上述两个场景之外,DorisDB还被用在了销售使用的报表系统等场景中,包含实时数据分析等业务场景,共50+张表,占用约100T存储空间,查询并发量100-500+。

  三、系统运维

  1.数据接入

  DorisDB支持的数据导入方式很丰富,例如本地文件、HDFS、Kafka(支持csv、json格式)、外表、批量SQL等。数据接入时有以下需要注意的问题:

  ·HDFS导入需要提供Namenode的信息,有些不方便提供就支持不了。

  ·外表模式,创建外表后,可以使用insert into select的方式,循环导入到DorisDB的本地表,能比较方便的从MySQL、TiDB导入数据。

  ·日常最常用的是Kafka的Json格式的数据,需要开发提供:

  ··表字段、字段类型及模型(明细模型,聚合模型和更新模型)。

  ··Kafka信息:kafka_broker_list,kafka_topic,client.id等。

  ·Kafka的方式,DBA创建表及导入任务就可以导入数据了;日常需要注意的是:最好写个小工具,查看下Kafka的数据信息,然后指明字段,这样来保证成功率。

  ·查看导入任务:SHOW ROUTINE LOADG;关注Statistic,ErrorLogUrls。

  2.集群架构

  目前为单套集群,3个FE,3个BE,Broker按需建立,搭建1套监控(Prometheus+Grafana),推荐使用kafka来接入数据。

  3.运维及自动化

  因为DorisDB标准版无管理组件,需要DBA自己实现:

  ·标准制定,例如:运维标准、开发接入标准等;

  ·自动化部署;

  ·自动化扩缩容;

  ·自动化升级;

  ·拓扑展示、登录;

  ·搭建开源监控;

  ·自己实现报警,例如存活报警、性能报警;

  ·相关运维报表,例如表大小、集群磁盘使用情况、流量情况、SQL情况等。

  目前我们自己已经实现了部分运维规范的制定,例如集群端口、目录、拓扑架构等,并开发了拓扑工具:qdorisdb,可以查看所有集群、指定集群、登录、展示监控节点信息等。

  后期我们会开发相关自动化管理工具,并整合至我们内部的CDB平台,开发相关报表、工单等,方便开发人员使用。

  【查看指定集群拓扑】:

  【查看所有集群】:

  4.服务器

  当前我们使用如下机器进行部署,后期会考虑将FE节点使用虚拟机部署。

  四、发现的问题及注意事项

  ·如果想混合部署,需要提前计划好端口,集群间需要有一定间隔;

  ·DorisDB升级比较快,如果遇到bug可以咨询官方,及时升级避开;

  ·查询报错:2021-05-09 11:38:56-WARN

  com.mysql.jdbc.PacketTooBigException:Packet for query is too large(1095400>1048576).You can change this value on the server by setting the max_allowed_packet’variable;

  ··处理:set global max_allowed_packet=102410248;

  ·账号授权跟MySQL不同,需要注意;

  ·标准版的周边较少,希望能不断丰富,让更多的人用起来;

  ·Json格式数据导入,字段没法复用,推荐官方添加上,例如:求最大最小时间,需要开发写入Kafka两个时间字段,无法复用一个;

  ·导入数据需要一定的调试经验,例如Kafka,可以自己写个工具,查看下Kafka里面的数据,再进行测试;

  五、场景及定位

  DorisDB是优秀的分析型数据库,可以满足多种数据分析场景的需求。但还有不少业务场景需要用其他数据库来服务,目前58DBA提供了多种数据库,方便业务方根据自身的场景进行选择。

58集团 x DorisDB:全面升级数据分析能力,满足多场景业务分析需求

  总结

  目前,我们已经落地了两套DorisDB集群,还有1-2套正在测试阶段,后续会进行进一步推广和落地更多应用。最后,十分感谢DorisDB鼎石科技团队专业的支持服务,希望我们能一起把DorisDB建设得更好。(作者:刘春雷 负责58同城MySQL、TiDB数据库、DorisDB的运维工作,主要从事数据库自动化、平台化的建设)

小米今天抢购

apple watch series 6离开手机

API安全技术与实战

vivo watch2


摩托罗拉razr折叠屏手机什么时候上市

返回网站首页

华为harmonyOS2.0

2021两千左右便携投影仪推荐

小米11 Ultra上市时间

四大模型革新NLP技术应用 揭秘百度文心ERNIE最新开源预训练模型
创维盒子怎么看电视直播?用这个方法,上百频道随意看

返回网站首页

本文评论
华为P60上市时间「华为P60系列发布时间定了 影像大升级」
中关村在线消息:今日微博博主曝光了华为P60系列的相关消息,据悉新机将会采用经典的万象双环设计,并且在影像性能方面进行大幅升级,准备升级大底传感器。据悉华为P60系列的发布时...
日期:10-12
5G手机今日开售,上海首位5G用户在苏宁产生(快看 | 苏宁818首家全数字化门店开业,首批5G手机上市)
  8月5日,国内首款5G手机正式开售!在全国首个5G体验店,上海首位5G手机用户诞生——并且,通过苏宁的“以旧换新”服务,首位5G用户仅仅支付了499元就用上了5G手机。     据...
日期:07-06
入驻2周  京东梓濠旗舰店单日订单破6000单
  7月6日,梓濠品牌口罩对外发布战报,入驻京东2周,梓濠交出了一份亮眼的成绩单,也打响了漂亮的第一枪。   在过去2周,梓濠旗舰店销售订单量逐日上升,势头向好。7月3日,入围京东...
日期:07-14
我国运营商5G投资超4016亿元:5G资费很难大降了_运营商强推5g
.tech-quotation{padding:20px 20px 0px;background:url(//n.sinaimg.cn/tech/content/quote.png) no-repeat 0 0 #f4f4f4;margin-bottom:30px;} .tech-con p{margin-bottom...
日期:08-16
移动互联网时代的创新
(原标题:互联网江湖辈分:谁是弄潮儿?) “手机键盘、触控笔?不存在!”在莫斯......
日期:09-30
荣耀play5t首发价「1099元起!荣耀Play6C 5G今日发布:10.13正式开售」
据消息显示,荣耀今天发布了一款入门机型荣耀Play6C 5G,目前新机已开启预售,将于10月13日正式开售。该机采用6.5英寸+720*1600分辨率+90Hz刷新率的LCD显示屏,并通过了德国莱茵低...
日期:10-22
支付宝开放中秋付款码皮肤数字藏品,旺旺等商家首批尝鲜「支付宝中秋节付款码皮肤」
9月1日 消息:中秋佳节临近,观察到,9月1日起,毛戈平、旺旺、太平鸟、海尔、老庙黄金等商家,纷纷在支付宝推出中秋付款码皮肤数字藏品,并借助付款码皮肤数字藏品的热度,为自己的小程...
日期:09-12
iphone12pro渲染图_iPhone14 ProCAD渲染图曝光
  按照惯例,苹果将会在今年9月份召开秋季新品发布会,正式推出iPhone 14系列手机等多款新品。   其中,iPhone 14系列势必是最受关注的产品之一,而根据近期供应链消息,苹果已...
日期:02-21
苹果 iOS 16 更新,天气 App 新功能盘点「iOS6天气」
IT之家 8 月 31 日消息,苹果在 iOS 16 中对天气应用进行了一些改变,包括新的通知类型,并增加了一些信息,从湿度、温度到能见度全方位为你提供服务。此外,新版天气 App 中的许多新...
日期:09-23
为吃播负债数十万「欠债4600万大叔直播卖烤肠还债  10万播放量收入约8000」
11月17日 消息:杭州延安路上的龙翔里小吃街里,一位白发大叔,一边卖烤香肠,一边做直播,动作娴熟,生意红火。乍一看,大叔的日子应该很惬意,但事实上,他背着4600万元的债务,全靠卖烤肠还...
日期:11-18
消息称苹果 iPhone 14 手机壳与上一代通用「iphone 12 13手机壳通用吗」
IT之家 9 月 1 日消息,苹果将于下周推出 iPhone 14 / Pro 系列新机,在发布会之前,外媒 9To5Mac 获得了更多信息。首先,苹果 iPhone 14 Plus 的 MagSafe 手机壳图片出现在了网上,...
日期:09-27
五大明星直播解锁天猫官方爆款清单,616一起发现生活新爆点!(天猫双十一明星直播)
  千元优惠,24期免息,限时立减......6月16日,618天猫官方爆款清单正式上线,(手机淘宝搜索“官方爆款清单”),为消费者们划出剁手重点!此外,6月16日,晚7点起,李静、林依轮...
日期:07-14
动画扶贫:中国的雪花牛肉 郏县的脱贫神器_郏县扶贫产品
      3月14日,趣头条“脱贫攻坚战暖阳行动“发布了第二支扶贫动画片——《特产卖萌 郏县红牛》,采用活泼有趣的动画形式,以郏县红牛第一人称的视角,讲述了郏县红牛健美身...
日期:09-06
美媒:Pro级产品将成苹果秋季发布会最耀眼明星_苹果新品macbookpro发布会
9月5日消息,苹果即将于美国当地时间9月7日举办2022年秋季新品发布会,预计其将发布旗舰级智能手机、智能手表以及耳机等新品。不过,苹果资深分析师马克·古尔曼(Mark Gurman)认为,...
日期:11-01
百度的市场规模_百度计划明年占有PC及移动互联网市场各79%份额
  百度今天宣布与Symbian协会达成战略合作,在新闻发布会上百度企业发展部总经理汤和松称,百度明年的目标是占有中国PC互联网和移动互联网市场各 79%的搜索流量。   6月8...
日期:07-29
小米11 小米11 pro 小米11 ultra「小米12 Pro秒杀2599 小米12s Ultra旗舰仅4999」
小米13将在下周发布,首发骁龙8 Gen2但是起售价已经涨到了4500元起,而现在小米12依然性能强劲,小米12作为主力机型有着不错的性能和价格,现在小米12促销幅度不亚于今年的双11,小米...
日期:11-29
石家庄错杀案_石家庄5-1杀人案告破 警方首次借贴吧寻得线索
  警方首次借用贴吧等网络协助破案   公安部DNA鉴定锁定嫌犯,3次抓捕终获成功   昨日凌晨,在藁城拦路抢劫女孩,逃跑途中刺死吴文德、刺伤郭峰的犯罪嫌疑人周某落网。办...
日期:07-27
智慧场景助益智慧城市落地 航班管家提供智慧出行服务_智慧出行系统
  基于新基建大背景,智慧场景服务行业范围不断扩大。5G、AI、云计算等技术的不断发展,推动智慧场景服务蓬勃发展。在未来,智慧场景服务将更加普及,更加人性化、智慧化与多样...
日期:07-10
上线8年 京东众筹将于10月10日起业务停运「京东众筹还有吗」
10月9日 消息:日前,京东众筹发布公告称,京东众筹业务将于2022年10月10日起暂停运营。9月30日10点,京东众筹入口下线,已经上线的项目将继续众筹,成功后正常发货。10月10日,众筹业务...
日期:10-13
线上线下加速融合,用户行为重塑行业新格局 | WISEx新效率时代峰会
  效率成为一道门槛,企业想要跨过去不但要跑得快、还要看得远。   3月3日,36氪联合飞书举办了首个行业直播互动峰会“WISE x 新效率时代峰会”,邀请具有代表性的行业代表...
日期:07-14