您的位置:首页 > 移动互联

开源搜索引擎国产化替代,Transwarp Scope助力企业打造自主可控搜索平台

发布时间:2022-12-13 12:08:57  来源:互联网     背景:

  开源搜索引擎国产化替代势在必行

  科技自立自强是时代发展的迫切需要和必然选择。二十大报告强调,“集聚力量进行原创性引领科技攻关,坚决打赢关键核心技术攻坚战”。从中兴等一系列高新技企业被制裁,到今年俄乌冲突发生后,多家科技公司宣布暂停在俄罗斯的所有业务,包括芯片、软件、云服务等断供事件,都在警示我们要摆脱被科技制裁风险的唯一出路就是要自主研发,实现真正的自主可控。

  1、开源协议变更带来商业风险

  Elasticsearch是一款开源搜索引擎,凭借着先发优势和早期的积累,被用于多种检索类业务场景,并占据了一定的市场。2021年初, Elastic公司决定将这款开源软件的 Apache License 2.0 变更为双授权许可,即Server Side Public License (SSPL) 和 Elastic License。其核心条款是“如果将程序的功能或修改后的版本作为服务提供给第三方,那么必须免费公开提供服务源代码”。这意味着不法分子可以获得其源代码并研究其漏洞,给企业用户带来巨大的安全风险。

  2、开源软件存在“被制裁”风险

  Apache 软件基金会和GitHub官网都有公开说明,产品和技术受到美国的出口法律和法规限制。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。受美国出口管制的俄罗斯在近期俄乌事件中将这方面风险彻底暴露。

  3、安全工具出口和漏洞分享禁令政策陆续出台

  2021年美国商务部和安全局发布最新控制措施,禁止美国公司向中国和俄罗斯等“有问题”的国家出口和转售网络安全产品。

  今年6月份,美国商务部和安全局又发布了一项针对网络安全领域的出口管制规定,未经审批禁止向中国分享安全漏洞。简单的说,就是美国实体与中国政府相关的组织和个人合作时,如果发现潜在安全漏洞和信息,不能直接公布,要先经过美国商务部审核。这意味着如果继续使用国外软件,那安全问题将掌握在别人手里。

  Elasticsearch数据泄露事件频发,安全能力不足

  1、Elasticsearch数据泄露事件频发

  在过去几年内,Elasticsearch 数据泄露事件频发,甚至一个月被曝6次数据泄露。

  去年,受美国出口管制的巴林,暴露的Elasticsearch集群中近200万条信息被泄露,包含有关人员的敏感信息。

  而作为美国出口管制重点对象的俄罗斯,近几年发生多起Elasticsearch数据泄露事件。

  * 2019年,2000万条个人信息和税务记录在网上曝光,任何拥有网络浏览器的人都可以访问;

  * 2021年底,Elasticsearch服务器再次发生数据泄露,超过8.7亿条记录或147GB个人信息数据在网上曝光;

  * 2022年6月,俄罗斯金融领域也发生了一起骇人的数据泄露事件,130GB的数据集包含俄罗斯人的付款,发票和其他财务敏感信息,甚至包括政府方面的日志数据;

  在国内,今年某漫画阅读平台也遭遇数据泄露,黑客从不安全的Elasticsearch数据库中窃取了2300万用户帐户敏感信息。

  此外,根据Group-IB报告显示,2021年网络上暴露的 Elasticsearch 实例超过10万个,约占2021年暴露数据库总数的30%。

  2、数据保护能力不足

  Elasticsearch 开源版本是不具备数据保护功能的,看似免费,但不安全。用户必须付费获得Gold+许可才能获得相关的安全保护功能,且不同的安全功能对应不同的收费标准。

  3、数据有丢失风险

  为了满足数据入库性能要求,Elasticsearch在数据层采用了简单的主从最终一致性模型。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,从副本的数据有可能不是最新的。以此为基础恢复数据,很有可能导致部分数据丢失。

  星环科技自主研发的国产搜索引擎Transwarp Scope

  Transwarp Scope是星环科技自主研发的企业级分布式搜索引擎,提供PB级海量数据的交互式多维检索分析服务,支持百万级高并发和毫秒级低延时检索业务,覆盖模糊匹配,精确查询,多维检索等各类检索类场景,满足数据检索多样化需求。

  * 海量日志存储与检索 Scope在数据存储做了多层优化,轻松满足海量检索数据的存储,支持大规模数据的入库,而且架构稳定,数据提供一致性和多副本容灾。此外,底层的搜索模块通过分区,索引排序等各类优化手段,满足大体量数据的快速精确检索,实现毫秒级检索和读写互不影响,非常适合电信、安全、能源等领域的检索需求。

  * 一站式检索平台Scope支持结构化/半结构化/非结构化小对象数据的分级存储与毫秒级检索响应,提供完备的分区优化机制和高并发检索能力。一站化服务使得业务无需通过不同数据库产品的组合来实现复杂检索场景,一套产品满足多类需求。高并发非结构化数据灵活检索等业务均可通过Scope满足。

  1、国产自研搜索引擎,自主可控

  Transwarp Scope通过了工信部源代码扫描测试,并于2019年上榜由信息技术应用创新工作委员会编制的国产软硬件技术图谱。

  2、国产软硬件适配

中兴2020 5g

  Scope已完成与主流信创生态厂商的适配互认工作,支持适配长城飞腾、华为泰山、龙芯等服务器架构,同时满足麒麟,UOS等操作系统,满足信创要求和国产化替换需求。

  3、兼容Elasticsearch接口,多生态兼容,实现低成本平滑迁移

  Transwarp Scope兼容常用Elasticsearch的接口,可实现Elasticsearch业务的平滑迁移。星环科技提供多种数据迁移方案,用户可根据实际情况灵活选择。经过大量项目的实践和经验,星环科技建立了成熟标准的Elasticsearch平滑迁移方法论,通过调研评估、方案测试和上线保障“三步”策略,全程保障数据与业务的平滑迁移。

  除了兼容以上Elasticsearch接口,Scope还兼容PostgreSQL协议以及Spark等大数据产品的接入。同时,Scope还提供完备的SQL语法支持,满足传统数据库迁移到Scope的需求,通过星环科技SQL编译器QUARK实现大数据基础平台TDH内部的完整数据流转方案。

  ROI、扩展性、稳定性、安全性、数据读写/恢复/一致性等全面超越开源搜索引擎

开源搜索引擎国产化替代,Transwarp Scope助力企业打造自主可控搜索平台

  1、硬件和运维成本

  Elasticsearch单节点支持的数据量最多到20TB左右,在项目实践中客户通常在每台服务器上部署多个Elasticsearch实例,而如此多的实例将会带来不稳定问题,触发节点失联,运维成本高。反之,如果每台服务器配置较少容量的磁盘,那么用户将付出非常高的硬件成本。而当节点数超过100时,同样会有稳定性问题。

  这两类方案,运维成本和硬件成本变成了鱼和熊掌不可兼得,让用户陷入两难的境地。

  星环科技Transwarp Scope对内存进行创新优化,提高单集群单节点容量上限,单实例可突破至百TB的数据存储,是Elasticsearch的5倍以上,大大降低用户硬件成本。

  在提高单实例存储容量,降低集群规模的同时,Scope通过多进程架构,充分利用集群cpu/内存资源,读写压力分流,满足更高的并发需求,提高集群稳定性的同时降低运维成本。

  2、集群扩展性

  Elasticsearch在集群扩展上存在瓶颈,其采用的P2P架构和排队模型处理一些状态同步和元数据改变等操作时,效率比较低。在项目实践中,当节点(或实例)规模超过100个时,会遇到稳定性问题,特别是多种任务并发的情景下,集群压力大,容易触发节点接连失联的问题。

拼多多真的盈利了吗

  星环科技Transwarp Scope采用多进程架构,充分利用集群cpu/内存资源,读写压力分流,满足更高的并发需求以及提升稳定性,单集群在200以上节点规模下稳定运行,同时保障性能无衰减。

  3、全方位数据安全保障

  Transwarp Scope内置配套的安全授权、用户权限控制等相关安全功能,可以有效保障系统数据和访问上的安全。

英特尔辞职

  在用户权限认证上,基于SASL提供plain与gssapi两种认证方式,对应传统的用户名密码认证方式和基于Kerberos的登录验证方式。其中kerberos可依赖于TDH平台的安全服务Guardian,同时提供用户组概念,便于通过平台实现统一管理与操作。

  在数据权限上,基于角色的访问控制(RBAC) 机制,使用户能够通过将权限分配给角色并将角色分配给用户或组来授权用户,支持Index level Security &Database level Security。

  在数据加密上,Scope支持基于SSL/TLS两类协议进行数据加密,确保数据传输过程的安全。

  4、数据读写性能

  Elasticsearch在数据读写性能方面存在不足,如压缩率不足,数据膨胀率高,读写策略优化不足等都大大降低了数据读写的效率。数据读写性能受限,直接影响查询操作的并发度和数据入仓的效率。

  星环科技Transwarp Scope对读写线程资源的管理更严格、更精细,使读写性能更优,数据批量写入速度相对Elasticsearch提升40%,读写分离的特性大幅提升查询的稳定性。

  5、数据恢复性能

  Elasticsearch缺乏“增量数据”的概念,当单点发生故障进行数据恢复时,采用全量数据拷贝方式恢复数据,工作量大,往往需要小时级的时间才能恢复服务,严重影响服务的正常进行。星环科技Transwarp Scope具有很强的容灾和数据恢复能力。Scope基于Raft协议保证数据的一致性,同时提供多副本支持,重启恢复时间在TB级数据量下控制在分钟级,不到Elasticsearch的1/10,大幅降低了服务不可用时间。

  此外,Scope支持跨数据中心的多活部署,使得重要业务在多数据中心交互和流转,还支持主备集群的实时数据同步,满足主备集群的failover和switchover。

  6、数据一致性

  Elasticsearch主本和副本之间同步采用P2P架构和排队模型实现主从最终一致性。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,很有可能导致部分数据丢失。

  Transwarp Scope基于自主研发的分布式数据库管理系统TDDMS,采用shared-nothing架构,通过多副本机制实现数据服务高可用,使用raft协议保证副本之间的数据一致性,保障数据不丢失。此外,TDDMS支持弹性扩缩容、自动故障恢复、权限控制、多租户与冷热数据分层存储等功能。

  7、售后服务

  Elasticsearch是开源产品,用户需自己探索和解决问题,无法获取有效的服务保障。用户需要购买企业版才能获得相应的服务,且在国内没有原厂技术研发人员,很难保障SLA。Transwarp Scope的产品提供方星环科技是国内厂商,具有非常强大的研发、技术支持与服务能力,提供强大的原厂服务保障能力,保障用户售后无忧。

  星环科技Transwarp Scope助力某政府单位平滑替换Elasticsearch

  1、客户挑战

  某政府单位原先使用开源Elasticsearch,随着内部系统数据量的高速增长,总数据量超几十PB,单张表达百亿条级别,在不断扩容下节点数达Elasticsearch上限,稳定性经常出现问题,同时当集群出现问题时,Elasticsearch重启需要小时级别,集群恢复速度慢。在性能问题方面,读写资源无法隔离,拖累查询性能,系统设计为读写两套集群。

  2、解决方案

  基于星环科技大数据基础平台TDH构建大规模数据综合搜索平台,Slipstream做实时数据引擎,清洗分析并入库到Hyperbase与Scope的综合搜索库中,提供基于几十PB数据量的快速查询和搜索能力,集群规模达200个节点。

  3、项目成果

  融合人、地、物、事、组织与视频/图片等因素,通过星环TDH构建一站式搜索平台,实现了PB级数据统一存储、检索满足海量数据毫秒级响应,高并发、快速统计、字段精确与模糊查询等复杂组合场景,指定条件查询1s内返回并支持上千并发,并通过单节点存储容量比开源高5倍的优势,降低了客户硬件投资成本。


返回网站首页

本文评论
当贝X3寿命多长,ALPD激光光源寿命每天8小时运行可用10年
  最近推荐国内投影仪品牌比较多,发现很多网友评论询问,当贝X3激光投影仪寿命是多久?当贝X3光源寿命多长等问题,下面一起来解答下相关问题,分享给各位网友,看看当贝X3能用多少...
日期:07-14
燧原科技招聘_燧原科技携新品云燧智算机重磅亮相世界人工智能大会
  2022年9月7日,中国上海——9月1日-3日,2022世界人工智能大会(WAIC)在上海隆重举行,这是燧原科技连续第三年参加这一行业盛会。本次大会上,燧原科技不仅带来了第二代云燧训练...
日期:09-08
罗永浩“选好了”,称MasterGo为创业必备好工具
  “不赚钱,交个朋友”,在创业圈中,罗永浩始终是一位极致的理想主义者,为了打造真正受用户欢迎的优质产品,老罗不惜以最严苛的要求为所有创业项目倾注心血。而这一次,老罗又将目...
日期:04-18
科技与美学交融,三星Neo QLED 8K电视开启家庭影音新风尚「三星Neo QLED 8K电视」
  电视于家而言到底有着怎样的价值与意义?小时候家中第一台黑白电视的到来,让我第一次体验到了影像的奇妙,再到彩色电视、液晶电视等等,这些年换了不少电视,现在我遇到了它—...
日期:07-27
直击CES 2022:TCL发布全新品牌口号 收获多项品牌大奖「TCL CES」
  TCL成为CES 2022占地面积最大的中国厂商搜狗浏览器开发者工具  国际消费类电子产品展览会(CES 2022)于北京时间1月6日正式拉开帷幕。由于疫情原因,众多企业放弃现场参...
日期:07-30
iQOO和京东签署战略合作,携手进行全渠道布局、服务创新突破_京东商城与供应商的合作模式
  2021年12月14日,东莞——京东与iQOO在东莞签署战略合作协议。双方将围绕产品定制、供应、推广、营销渠道、售后服务等方面进行多维立体式合作,力争在渠道合作方面,2022年内...
日期:07-25
积极探索医疗健康服务新方式,平安好医生稳居行业领先地位「现代健康服务成为」
  互联网医疗是医疗行业当中的分支,在中国的巨大人口基数下,医疗行业的前景毋庸置疑。根据预测,到2025年,中国医疗和健康总支出将达到15万亿元,年均复合增长率约为10%。而互联...
日期:07-26
亚信科技入选Forrester Now Tech中国云平台和托管服务主流供应商矩阵_亚信科技愿景
  近日,国际著名ICT研究与咨询机构Forrester发布了《Now Tech:中国云平台和托管服务主流供应商矩阵》,亚信科技凭借完备的IT平台产品体系——PaaS、DevOps及云管平台CloudOS...
日期:07-14
躺在卧室看大屏,是一种什么体验?极米NEW Z6X购买历程_极米newz6x白天效果
  小编家客厅的电视是2015年买的,虽然只有50寸,但我依然舍不得换掉,只因颜色太好了(纯主观因素)。  但毕竟好多年了,每次大促我都会看一圈有没有更好电视可选,只等现在这台罢...
日期:07-27
深度思考|信服云超融合探索金融领域信创落地之道_云信供应链金融
  日前,由沙丘社区举办的沙丘大会·信创专场顺利召开,此次大会旨在探讨信创转型的更多可能。深信服解决方案专家白伟出席本次大会,并发表“深信服信创云在金融行业落地的探索...
日期:12-20
瑞数信息AI团队勇夺“第三届中国人工智能大赛”网络安全A级冠军
  近日,在由国家互联网信息办公室、工业和信息化部、公安部、国家⼴播电视总局、厦门市人民政府联合主办的 “第三届中国人工智能大赛”上,来自瑞数信息的AI战队勇夺大赛网...
日期:07-30
打造母婴健康洗护联盟!海信洗衣机携手君乐宝奶粉呵护宝宝健康
  4月20日,由海信洗衣机与君乐宝奶粉联合打造的脱口秀——“超级奶爸说”在海信京东自营旗舰店直播间亮相,幽默吐槽的背后,是奶爸们初次带娃的紧张与忙乱。而此次海信洗衣机...
日期:08-22
安徽省制造业百强-永佳集团选择蓝凌OA
  近期,安徽省制造业百强企业——黄山永佳集团选择蓝凌OA,共建数字化办公平台,赋能管理更高效。iqoo 天玑820  黄山永佳集团股份有限公司成立于1994年,是一家专业从事实业投...
日期:10-18
在激烈的市场竞争下,博盈特焊经营业绩高速增长堪称业内典范_博盈特焊ipo
  博盈特焊不断提升企业能力,积极拓取新业务,企业综合实力得到了显著提升,品牌能力也得到了行业和社会的美誉,在激烈的市场竞争下,博盈特焊经营业绩高速增长,堪称业内典范。  ...
日期:10-18
社区季度运营报告来了,看看他们眼里的龙蜥社区
特斯拉roadster spacex魅族手机新款华为无边框手机mate8(microsoft)微软surface原装蓝牙鼠标苹果手机美国销量占比 ...
日期:07-26
采购供应链的2个关键,1要培养,2要敏锐评估_供应链环境下集中采购的优势
  采购作为企业与外部的重要纽带角色之一,经常要与供应商打交道。充分了解供应商,与供应商建立稳定良好的合作关系是采购的必修课。  对于采购供应,企业关注及时、高质、成...
日期:11-18
Ticwatch gth_TicWatch GTH 2 升级上市,更多功能更好玩
  2022年8月25日,人工智能独角兽公司出门问问发布了全新升级的健康智能手表—TicWatch GTH 2。  TicWatch GTH 2在延续TicWatch GT系列高性价比智能手表基础上,深挖当代...
日期:08-26
数智驱动,全栈赋能!亚信科技发布“云网”系列产品及技术丛书
  12月26日,“数智驱动 全栈赋能”亚信科技2022系列产品发布之“云网产品专场发布会”线上举办,亚信科技执行董事、首席执行官高念书致辞,亚信科技首席技术官兼高级副总裁、...
日期:12-27
MacBook很出色但还不够,ThinkPad用品质与服务定义“真商务”「办公买mac还是thinkpad」
近日,ThinkPad官方微博发布了一条视频,引发了不少用户的关注。这条视频以当下常见的混合办公场景为例,展示了ThinkPad搭载的AI降噪麦克风在远程沟通时的优势;而视频前半部分主角...
日期:10-10
突破传统形态,三星Lifestyle模糊了电视与艺术品的边界
  电视诞生至今已经百年有余,从黑白到彩色,从电子管、晶体管到如今的各种新型显示技术,电视的视觉感受越来越清晰、色彩表现也越来越真实。相比于在画质上的变化,电视在形态上...
日期:07-27