您的位置:首页 > 移动互联

中国邮政邮科院 X DorisDB:统一OLAP平台,大幅降低运维成本

发布时间:2022-07-29 12:31:35  来源:互联网     背景:

  邮政科学研究规划院有限公司(以下简称“邮科院”),作为中国邮政集团有限公司的科研智库单位,专注于战略规划、企业管理、工程设计、物流装备、智能终端、质量检测、标准化研究等领域,在助力中国邮政战略转型和经营发展中发挥着重要支撑作用。

  邮科院数据组负责全院大数据体系架构的建设,支撑日常BI运营分析、科研数据产品、物流数据、网点画像等业务场景。邮科院数据组通过使用DorisDB,统一了实时和离线的分析场景,替换了ClickHouse、Presto、MySQL等系统,解决了原有多套系统带来的运维和使用复杂性,简化了数据ETL流程,同时大幅提升OLAP、Adhoc等场景的查询效率。本文主要介绍邮科院数据组基于新一代极速全场景MPP数据库DorisDB,在数据服务体系和数据应用场景中的实践和探索。

  “作者:谢翔 邮政科学研究规划院有限公司寄递研究所数据组负责人,专注于数仓建设、数据分析等领域研究。”

    一、业务背景

  随着科研数据积累越来越大,数据规模和体量也急剧膨胀。科研的原始数据通常来源于研报抽取、日志埋点文件、业务数据库、三方接口等。过去通常基于CDH/Hadoop等大数据分布式计算框架和数据集成工具,构建离线的数据仓库,并对数据进行适当的分层、建模、加工和管理,构建各类分析主题。邮科院数据体系中沉淀了诸多研报主题数据,例如:电商流量数据,物流企业财务数据,行业报告相关的数据等。

  上层数据应用对查询的响应延迟和时效性要求高,会将数据通过数据同步工具同步到MySQL、ElasticSearch、Presto、HBase、ClickHouse等数据库系统中,来支撑上层数据应用的查询要求。

  邮科院的大数据总体架构如下图所示,从下到上可以分为数据接入层、数据计算层、数据服务层和数据应用层。

  数据计算层使用科研工作各分析场景下产生的模型/方案/业务的明细数据,进行离线数据计算,对TB级别的明细数据进行调度、聚合、计算,在数仓里沉淀出大量明细表、聚合表和最终的数据报表。

  数据计算层生成的各类数据表,会同步到数据服务层,由数据服务层提供接口给数据应用层使用,满足不同的数据业务需求。

    二、业务痛点

  数据服务层的愿景是开放数仓能力,建立统一的数据服务出口,针对不同的数据业务分析场景(数据规模、QPS、UDF支持、运维成本等),原有架构在底层使用了不同的查询引擎:

  ·大数据量、低QPS:使用Hive、Presto、ClickHouse等基于Hadoop生态的离线批任务计算框架和MPP数据库来解决。

  ·小数据量、高QPS:使用MySQL、ElasticSearch、HBase、MongoDB等关系型/非关系型数据库来解决。

  使用多套查询引擎,我们遇到如下问题和挑战:

  ·离线/实时ETL任务过多,处理逻辑大部分为简单聚合/去重,聚合表数量庞大,导致运营和运维上的成本增加;

三星环绕屏概念手机

  ·针对中等数据量、中等QPS的查询场景,如何能兼顾数据规模的同时,有较友好的查询响应延迟;

  ·大数据量下插入、更新的实时数据场景无法得到支持,例如:网点画像、实时数据导入、邮路路径、研报数据汇总等。

    三、OLAP引擎选型

  针对如上的问题和挑战,我们的目标是寻求尽可能少的OLAP引擎,利用在明细表上现场计算来解决ETL任务、数仓表过多问题,同时需要兼顾在数据规模、查询QPS、响应耗时、查询场景方面的权衡。

  目前市面上OLAP引擎百花齐放,诸如Impala、Druid、ClickHouse、DorisDB。经过一番调研,我们最终选择了DorisDB。DorisDB是基于MPP架构的分析型数据库,自带数据存储,整合了大数据框架的优势,支持主键更新、支持现代化物化视图、支持高并发和高吞吐的即席查询等诸多优点,天然能解决我们上述的问题。

中国邮政邮科院 X DorisDB:统一OLAP平台,大幅降低运维成本

    四、DorisDB应用实践

  DorisDB已经投入生产环境,主要作为离线/实时数据的OLAP数据库使用。离线数据主要存储于HDFS中,通过DataX任务批量同步数据到DorisDB;另一部分实时数据主要存储于Kafka中,使用DorisDB的routine load功能实时将数据从kafka写入到DorisDB。

  在没有引入DorisDB之前,我们使用的底层引擎是MySQL、Presto on HDFS和ClickHouse等系统,对明细表/聚合表进行查询。这几种方式都存在着不少问题:

阿里为何回购雅虎股份

  ·MySQL处理上亿规模的数据,无论使用分库分表、分区表、集群化部署的PolarDB方案,都会存在慢查询、数据库扛不住、运维困难的窘境;

  ·Presto on HDFS的方案更偏向于分析型数据业务,虽然能存储海量的数据,计算能力不错,唯一致命的在于无法满足在线业务的高吞吐QPS,查询比较难做到毫秒级。

  ·ClickHouse对Join支持较弱,通常使用大宽表建模,不够灵活,另外运维也比较复杂。

  ·在引入DorisDB替换MySQL、Presto和ClickHouse后,DorisDB带来的业务效果如下:

  ·支撑了在线报表查询+数据分析业务,服务于对内运营+对外行业分析的数据产品,报表业务查询大部分耗时在毫秒级别,分析型业务查询大部分耗时在秒级别;

小蚁摄像机和360摄像机哪个好

蛋壳公寓案件如何判的

  ·支持10亿规模的明细表查询,月、季、年等维度统计数据现场算聚合统计、精准去重等,查询耗时都能控制在500ms以内;

  ·千万级别的多表的Join和union查询,经过Colocate Join特性优化,查询响应在秒级。

  另外,我们还将DorisDB应用到实时数据分析场景,DorisDB在实时数据分析主要有如下优势:

马云控制阿里的秘诀

  ·实时写入性能:目前DorisDB支持HTTP方式的Stream Load,可以自定义的分钟级别微批写入,以及Routine Load功能,可以将Kafka的数据实时同步到DorisDB中,满足当前实时数据分析业务;

网络动态新闻包括

  ·统一离线和实时分析:实时数据和离线数据更好的在DorisDB中进行融合,灵活支撑应用,数据存储策略通过DorisDB动态分区的功能进行自动管理;

  ·SQL Online Serving:高效的SQL即席查询能力,能够兼容业界标准的SQL规范,支撑业务灵活复杂的访问,提高取数开发的效率。

    五、总结和规划

处理器是核心越多越好吗

  邮科院数据组引入DorisDB生产集群,解决了数据服务层单表亿级别规模、高QPS数据场景下引擎的空白,直接开放明细表准实时查询的能力,给各项目组上层数据业务和BI系统提供了更多的选择和自由度,同时将大大减少数仓中大量ETL任务、聚合表、报表,降低了数仓ETL的运维压力和维护成本,DorisDB综合性价比较原有的MySQL、Presto、ClickHouse等同类产品提升数倍以上。

  未来,邮科院在DorisDB的应用和实践上还有不少规划:

  ·除了unique和duplicate数据模型,未来会将符合的数据场景迁移至aggregation模型,并使用物化视图,进一步降低数仓开发维护成本,降低查询延迟;

  ·DorisDB on ES的功能也值得我们深挖和探索,解决原生ES集群无法支持跨索引Join的能力;

  ·更多数据应用层的场景接入DorisDB,例如网点画像服务、邮路路径分析等,将进一步拓展DorisDB在实时数据写入、批量数据更新场景中的应用;

  ·与科研数据分析平台、数仓平台深度打通,完善数据整体架构,作为数据团队的基础设施去保障稳定性和服务;

  ·考虑使用多云架构,自主可控的数仓架构可以灵活的在多云间切换迁移,降低单一云厂商的依赖,控制成本提高可用性。

  ·......

  最后的最后,感谢DorisDB技术团队给予的热情、靠谱的答疑解惑和技术支持!!!


返回网站首页

本文评论
2021游戏盈利排名_2021年净利润增长30.57%,名臣健康进入游戏主航道
  4月29日,名臣健康披露2021年年报与2022年第一季度报告。在2021年,名臣健康实现营业收入74,414.86万元,较上年同期增长9.34%;实现归属于母公司股东的净利润13,349.39万元,较...
日期:07-14
奇安信零信任首批首家通过“Zero Trust Ready” SDP解决方案测试
  近日,在中国信息通信研究院联合各生态伙伴共同发起“Zero Trust Ready”项目中,奇安信零信任安全解决方案顺利通过了该项目SDP解决方案基准能力测试评估,成为首批首家获得...
日期:07-29
中国平安科技赋能主业,打造价值增长新引擎「平安科技板块」
  近日,中国平安交出2021年上半年业绩答卷。截至2021年6月末,公司科技专利申请较年初增加3508项,累计申请多达34920项,金融科技及数字医疗专利申请数保持全球第一位,人工...
日期:07-28
百度翻译公布十年成绩单:翻译质量提升30个百分点,语言数量增长100倍
  实现跨语言无障碍沟通,是人们长久以来的梦想。自2011年上线首款产品至今,百度翻译已经走过十个年头。12月22日,百度翻译首次公布十年成绩单:金山卫士清理注册表  十年来,从...
日期:07-25
不止于“中国Figma”:摹客发布新品UI设计工具“DT”_figma ui设计
  国内设计行业知名的云平台摹客发布消息:他们于近日上线了新品协作UI设计工具——“摹客DT”(www.mockplus.cn/dt)。  摹客科技是一家专注于产品设计领域服务及创新的公...
日期:07-25
MasterGo上线新功能 让产品设计工作更高效
  众所周知,产品设计是一项繁琐的工作,但对工作的快捷、高效又有着极高的要求。如何解决产品设计工作中的低效矛盾呢?一款不断更新优化的产品设计工具或许是解开该矛盾的钥...
日期:07-14
过了腊八就是年,三星品道家宴系列冰箱为你保留最地道的年味「腊八粥中的年味」
  俗话说:“过了腊八就是年。”腊八节一过,年味就越来越浓了。春节将至,忙碌了一整年的打工人们终于要迎来彻底的休闲和放松。无论时代如何变迁,在咱们中华儿女心中,一席由爸妈...
日期:07-25
思必驰全屋智能方案,AI赋能智慧地产转型
  中国智能家居已进入AIoT赋能期,全面革新智能家居产品形态。2021年12月2日由电子发烧友网精心打造的一场2021第八届中国IoT大会-智能家居线上分论坛,通过电子发烧友网视...
日期:07-25
中国移动功能升级中_用户至上才是王道 从10086 APP调整升级看中国移动的服务理念
  你有计算过,你的手机里下载了多少APP吗?小米10t lite参数  近日,中国移动官方表示,10086APP将于2022年1月30日0时起进行服务升级,整体功能迁移到“中国移动”APP内。消息...
日期:10-20
星环科技多模数据库“”一库多用“支持10种数据模型,上榜Gartner报告
  面对数据量井喷、业务融合多样化等挑战,出于数据库与数据库之间的不兼容,为了避免复杂操作性、有效降低实现成本等目的,一个面向数据层面的一站式服务平台——多模数据库—...
日期:10-10
赛博昆仑入选微软MSRC 2021 Q3最具价值安全精英榜
  10月14日,微软公布了MSRC 2021 Q3最具价值安全精英榜单,致谢全球安全精英在2021第三季度中的突出贡献。  在这份备受关注的榜单中,来自国内新一代安全企业赛博昆仑科技旗...
日期:07-27
ISC2022云峰会举办 惠而特提出工业互联网融合安全正当时
  在数字经济蓬勃发展的当下,网络安全行业发展已经进入“深水区”,不同行业面临着各式各样的安全挑战,亟需具有针对性和可落地的安全解决方案和服务,保障企业、机构的平稳安全...
日期:01-23
当贝NEW D3X最适合女生用的投影仪,入门级旗舰机 极致性能天生好看_不要买当贝投影仪d3x
  在男性为主要消费群体的投影行业中,女性细分市场也是在近两年才得到重视,与男性相比,女性对于投影的要求则有很大的不同。如今想要做一款在性别上更符合女性用户的产品,仅仅...
日期:10-10
5900HX对比11980HK,高端游戏本处理器选哪款?「11800h处理器5900h对比」
  近期如果想升级电脑配置,由于显卡装机成本仍然很高,价格相对稳定的游戏本是比较合算的选择。市调机构IDC有数据表明,2020年全球游戏本市场涨幅达到27%。选游戏本自然离不开...
日期:07-26
锁住食材本味 海信真空休眠二代告诉啥是“理想冰箱”
  近日,海信真空冰箱发布了休眠二代新品,产品一经上市,便以真空+智能的特质迅速形成讨论热潮,成为冰箱行业新焦点。休眠新品在满足用户需求之上,以科技创新突破,将智能融入储鲜...
日期:07-29
平价投影仪哪个品牌好?当贝NEW D3X最适合家用 极致性能一步到位_当贝d3x投影仪怎么样
  随着生活品质的提升,家家有件像投影仪这样的时尚数码单品已经不是稀罕事了,市面上有价格高的顶配投影仪,也有性价比高的平价投影仪。但有的新玩家还有犹豫到底是买一台价格...
日期:10-10
外形独特艺术感十足,卡梭CASO玻璃电水壶引领时尚用水新风潮
  俗话说人可三日无食,但不可一日无水,由此可见被称为生命源泉的水,对我们到底有多重要。随着科技的发展,电水壶也成了家庭生活中不可或缺的一件东西,但传统电水壶长期存在造型...
日期:09-24
98英寸电视太内卷,TCL、小米、海信谁才是性价比之王?_tcl和小米98寸电视
  今年众多科技巨头入局98英寸电视市场,而消费者对98英寸电视的反响也很好,该尺寸的电视销量一路攀升,据奥维云网(AVC)公布数据显示,2021年6-10月98吋及以上超大屏累计销...
日期:07-25
昆仑AI芯片_智源研究院联合昆仑芯科技等共建AI芯片生态实验室
  在近日闭幕的2022北京智源大会上,北京智源人工智能研究院(以下简称“智源研究院”)联合昆仑芯科技等多家国内AI芯片公司,北大、清华、中科院计算所等相关科研团队,共建AI芯...
日期:10-01
美大集成灶下吸式_美大集成灶“变频大吸力,1秒吸油烟”,不惧开放式厨房
  经常做饭的人应该都有一种体会,那就是在厨房做饭爆炒时产生的油烟实在是令人难以接受。然而,传统烟机的排烟效果确实是无法满足我们的需求。在不少“能人异士”的纷纷研发...
日期:10-12