(报告出品方/作者:广发证券,刘雪峰)
数据存储、处理和分析的需求正向海量、异构、多源的方向发展。1980年代至2000年代,由于数据采集方式有限,计算机处理的数据类型以结构化数据为主,组织和存储都具有规律性,且数据处理量较小,可以用集中式的关系型数据库来管理。2000年之后,随着互联网技术的快速发展,采集的数据量呈现出爆发式增长;此外,随着各类传感器采集数量的不断增加,图像、视频、文档等非结构化数据大量增加。对于海量、异构和多源的数据处理任务,基于单台硬件设备的集中式数据库难以满足,而基于计算集群的分式和云原生的数据平台产品很好的满足了这一需求,是未来的发展趋势。接下来,我们从需求变化导致软件架构升级的角度,探讨数据库软件及大数据平台产品未来的发展趋势。
大数据平台是集合了数据库在内的、围绕数据全生命周期需求的平台软件产品。大数据平台是集数据接入、处理、存储、查询检索、分析挖掘等为一体的产品。相较于数据库产品,其新增了批/流计算引擎、资源调配器、中间件以及应用接口等更多组件,其模块组件更加接近于系统底层、功能更加综合。大数据平台不仅可以搭载多个数据库,还为更多类型的数据库开发提供了通用的软件环境,降低了新品开发的边际成本。以星环科技的大数据基础平台TDH的升级迭代历程为例,其在完成了底层关键组件自研开发的基础上,从早期的宽表数据库和图数据库,快速拓展开发了时序数据库、关系型数据库、文档数据库等多个类型的数据库。其在TDH的基础上,各类数据库新品和分析工具的开发边际成本逐渐降低,业务边界可拓展性更强。
数据处理的类型由结构化数据向多源异构数据转变,非关系型数据库快速兴起。2000年之前,处理的数据类型以结构化为主,基本遵循标准的数据格式与长度规范,其主要以二维表结构的关系型数据库进行存储和管理。21世纪初,随着互联网技术的发展,包括办公文档、XML、HTML、图片和音频、视频信息等非结构化数据的处理需求快速增加,关系型数据库在非结构化数据的处理分析和读写性能的局限性逐渐凸显。非关系型数据库针对不同场景需求,采用不同的数据存储模型,更好的满足了多种类型数据的处理需求。两种数据库在数据完整性、扩展性、读写可用性、产品成熟性和架构灵活性等方面各有侧重,其适用的场景也有所不同,具体来看:
1.关系型数据库:关系型数据库是建立在二维表的集合。每个表有唯一的名字,表的每一行代表了一组值之间的联系,表的每一列是对实体属性的描述,要求存储值的类型相同。一方面,关系型数据库在数据读取、写入等基础操作性能稳定,另一方面,其可以存储和处理的数据类型较为单一。2.非关系型(NoSQL)数据库:非关系型数据库没有严格的数据规范,可根据需要灵活存储方式。目前主流的非关系型存储模型包括键值对存储、宽列式存储、文档型存储和图形存储等。由于非关系型数据库不要求数据的强一致性,其可覆盖的应用场景更加广泛。
数据处理量向海量数据转变,分布式和云原生的数据平台产品是未来发展趋势。2000年后,随着数据采集手段的增多,数据处理量快速增长。在数据处理量由TB级别提升至PB(约1000TB)级别时,采用一个中央处理系统的集中式架构的数据库产品存在存储空间不足、高并发响应速度慢以及等问题。而基于计算集群的分布式数据库,具有单机硬件性能要求低、扩容便捷等优势。云原生的数据库在计算集群的基础上,实现了计算资源和存储资源的精细化管理,进一步提升资源利用率。基于并行协作、资源共享的理念构建的分布式和云原生架构的数据库,在海量数据处理的整体性能上较集中式架构数据库都有较大提升。
(一)集中式数据库对海量数据的存储空间有限,扩展性不够
(3)依赖于特定的硬件:集中式数据库构建在高端硬件基础上(例如IBM大型机和EMC磁盘阵列),对硬件专用性要求很高,导致部署成本较高。(4)存储容量有限:一般集中式架构的硬件存储容量在GB级别,容量的提升只能依靠提升设备自身的性能,其存在TB级别的存储量上限,难以应对超过TB级别,达到PB级别海量数据的存储。(5)可扩展性较弱:在少数模式下(例如RAC、PureScare),计算节点可扩展,但多个计算节点之间数据共享性能较差,并且可扩展的计算节点数量有限。
总体而言,集中式数据库适合处理数据量和访问量都比较平稳、比较有限的场景,比较难应对数据量和访问量快速增长的场景。在访问的并发量超过单点设备所能提供的存储容量上限或者计算能力上限时,剧烈的资源争抢会导致整体性能显著下降。此外,集中式数据库无法满足多源数据融合处理的需求。在集中式数据库处理数据类型较为单一的情况下,其应用场景被限定在某一点状数据问题的解决上。未来,随着企业客户业务复杂度的不断提升,多源数据融合处理和分析已成为主要需求。集中式架构下的数据库产品难以满足这一需求。
(1)在交易型场景中,企业客户需要针对业务变化信息对数据库进行实时的增、删、改等编辑操作,对数据处理的准确性和实时性有较高的要求。例如,银行的交易型数据库需要具备针对上万条存款、贷款、转账等业务数据进行同时、准确、快速处理的能力。交易型场景对于数据处理的需求呈现出小批量、高并发和快速反馈的特点。(2)在分析型场景中,企业客户需要针对业务进展和运营情况进行长期趋势的分析,用于风险预警和辅助决策。分析型场景对于数据处理的需求呈现出大批量、多数据源以及多维分析的特点。
集中式数据库在数据读取、写入等基础操作性能稳定。针对于以上两个场景的业务需求,集中式数据库主要围绕以下四个性能进行优化和升级:1.原子性:为避免数据库中的操作执行出现纠纷,单个事务不可切割。例如,在转账操作中,要么全部执行,要么失败后恢复到前一状态。2.一致性:在事务开始之前和结束后,数据库的完整性约束没有被破坏。这要求写入数据库的数据需符合预设规则,包括信息的精确度、串联性以及可自发性完成的工作。3.隔离性:隔离性可以防止多个事务并发执行时由于交叉执行而导致数据的不一致的问题。4.持久性:为防止意外事故(例如断电)导致数据丢失,数据库保证事务对其所作的修改被永久保存。
总体而言,集中式数据库技术发展历史较长,以Oracle和IBM厂商为代表的产品性能较为稳定。我们认为集中式数据库性能成熟稳定的特点在小数据量,频繁读取的应用场景中具有相对优势。
在传统关系型数据库领域,Oracle市占率较高,国产数据库厂商持续追赶。根据IDC的数据,2021年在本地部署模式下中国关系型数据库市场,Oracle占市场份额为22%,市占率排名第一。Oracle由于起步早,市场份额较大,在使用习惯、功能模块及数据库语言方面已经对下游客户有较强粘性。因此,在国产替代过程中,较大比例的客户需从Oracle等海外厂商的产品迁移到国产数据库。基于对数据迁移安全、稳定、低成本的要求,国产数据库对Oracle等海外数据库各项功能的兼容性是下游客户重要考量点。以达梦数据为代表的国产厂商的产品在兼具自主可控和数据平滑迁移的能力基础上,实现了部分场景对Oracle等海外厂商的国产替代。2019-2021年,达梦数据营收分别为3.0亿元、4.5亿元和7.4亿元,CAGR为56.5%,其中党政领域客户贡献营收占比分别为62.0%、67.9%和63.3%。
(二)分布式数据平台较好的满足了海量、多源、异构的数据处理需求
1.技术架构。分布式大数据平台是将在物理上分散的多个数据库连接组成一个逻辑上统一的系统平台。其基本结构包括一个控制节点和多个数据与计算节点,控制节点负责整体资源的调度、分配,数据与计算节点负责具体数据的存储、处理和分析。基于并行协作、资源共享的理念构建的分布式架构,在数据计算和存储的整体性能上较集中式架构都有较大提升。具体来看,分布式大数据平台具有以下特点:(1)单机硬件性能要求较低,扩容成本较低:在分布式架构中,软件平台可搭载于普通的PC服务器上,摆脱了对小型机、高端存储等高价格硬件设备的依赖。由于搭载数据平台软件的单台服务器的成本较低,在计算集群中节点扩容的成本较低。
(2)海量数据处理能力,扩容过程便捷:分布式架构采用多台服务器,存储和计算资源天然比集中式架构的单台服务器要多。此外,在数据快速增加接近存储资源和计算资源上限的情况下,用户将新服务器加入到数据库集群中,业务数据可自动迁移到新机器上,系统自动的将流量切到新服务器上,扩容过程快速便捷。(3)多源数据融合处理和分析能力:不同节点的数据平台上可存储和计算不同类型的数据,各节点数据处理和分析的结果汇总和集成在控制节点后可实现多种类型数据的融合分析,较好的满足了业务复杂度高带来的多源数据的处理需求。(4)维护难度较大,成本较高:分布式架构采用的计算集群的模式需部署多台服务器,大大增加了运行和维护的复杂度,从而增加了运营维护成本。
随着数据量和应用负载的快速增加,分布式大数据平台已成为数据处理和分析的主流产品。
分布式大数据平台相较于数据库产品在功能组件上有所增多。分布式大数据平台是一个集数据接入、处理、存储、查询检索、分析挖掘等为一体的平台。而数据库是按照数据结构来组织、存储和管理数据的仓库。相较于数据库产品,大数据平台新增了批/流计算引擎、资源调配器、中间件以及应用接口等更多组件。以Hadoop分布式计算平台为例,其中最常用的三大组件分别为:(1)分布式存储系统HDFS(HadoopDistributedFileSystem):其是架在本地机器硬盘上的分布式文件系统,在物理上采用分块存储(block)的方式存储文件,针对海量数据提供高可靠性、高扩展性和高吞吐率的数据存储服务。
(2)分布式计算框架MapReduce:该计算框架将海量数据分拆为单个节点可以处理的规模,分段统计后,再将统计结果合并到最终的结果中,完成大规模的数据处理。其具有易于编程、高容错性和高扩展性等优点。(3)分布式资源管理框架YARN(YetAnotherResourceManagement):在系统接收到具体数据处理的请求后,控制节点通过YARN的资源管理器将计算、内存、带宽等资源分配给各计算与数据节点;YARN在各子节点中实时监控任务执行和资源使用情况,并根据使用效率随时调配全局资源。
(2)按节点数量的使用时长,订阅制收费模式:以Cloudera公司为例,公司的核心产品大数据平台CDH,其根据部署节点的数量按月/按年收费。在这种模式下,即便客户没有采购服务器的需求,客户只要在使用数据库就需要支付费用。因此,订阅制的收费模式下,客户粘性更高,营收的可持续性更强,客户价值被挖掘的空间更大。
在分布式大数据平台上公有云的环境下,按使用量订阅制收费的商业模式正在兴起。以MongoDB为例,MongoDBEnterpriseAdvanced分布式数据平台主要以本地化部署的方式根据部署节点的数量按月/按年收费,其在2016年开发了MongoDBAtlas产品,已搭载于亚马逊AWS、微软Azure和谷歌云上提供“Database-as-a-service”公有云服务。具体服务包括搜索服务、弹性存储、数据可视化以及开发工具SDK等。收费方式根据客户对计算和存储资源的使用量来进行收费。相较于按时长的订阅制模式,按照实际使用量的订阅制收费模式,在更加精准的满足业务需求的同时给客户带来更好的成本节省,性价比更高。2017-2021年,MongoDBAtlas-related业务营收CAGR为158.6%,远高于公司整体营收CAGR51.5%。MongoDBAtlas-related业务由2017年占营收比重6.6%快速提升至2021年占营收比重56.3%。
3.下游需求。数据量快速增长,海量数据的计算和存储对软件产品提出更高要求。海量数据的处理涉及事务高并发、多模型融合以及多方数据安全协作等技术难题,对数据平台软件从性能上提出了更高要求。在数据处理量由TB级别提升至PB(约1000TB)级别时,采用一个中央处理系统的集中式架构的数据库产品存在存储空间不足、高并发响应速度慢以及等问题。与之相比,基于计算集群的分布式架构,在数据计算和存储的整体性能上都有较大提升,更好的满足了海量数据的处理需求。
多数据模型的融合分析处理是数据平台产品未来发展的方向。随着数据采集手段的不断丰富以及业务复杂度的增加,不同类型的数据存在被处理和分析的需求。关系型数据库在处理结构化数据时具备的一致性、隔离性等原则难以应用在日志、音频、图片、文档等半结构化和非结构化的处理过程中。常见的非结构化数据包括:(1)键值数据:数据库通过键-值(Key-Value)的方式来组织数据存储,其中键是唯一的标识符。用户只需输入单个键,系统即可返回其对应的唯一值,通过这种方式大大提升了数据的读写速度。该类型数据可应用于Web应用程序和绘画、内存中的数据缓存以及购物车等场景。
分布式数据库较好的满足多源、异构的数据处理需求。在异构的分布式数据库中,不同的节点可采用不同的数据模型、数据管理工具、操作系统和硬件。各子节点通过应用程序接口、全局模式和联邦计算等方式实现不同数据类型的信息共享及融合分析。
4.生态变化。Hadoop是Apache软件基金会下的开源分布式计算平台项目,实现在计算集群的环境中对海量数据进行分布式计算。2003年由谷歌发起至2006年正式引入Apache基金会成为独立的软件开发至今,其已经经历了近二十年的发展历程。Hadoop的生态已发展成熟,国内外众多大数据平台产品都是基于Hadoop的开源代码开发的,包括Cloudera公司的CDH、阿里云EMR、华为FusionInsight、新华三DataEngine等产品。其开发人员也将自研的代码向Hadoop项目共享。目前,Hadoop的代码提交次数超万次,代码数量超过百万行。Hadoop已成长为海内外知名度较高的大数据开源项目。
相较于集中式数据库,我国在分布式数据库领域与海外厂商的性能、生态方面的差距较小。从技术演进角度而言,我国分布式架构技术与海外公司发展历史相当。基于Hadoop等开源生态,国产分布式数据库快速开发和迭代,且在金融、公共部门、能源等行业商业化落地过程中持续打磨产品性能。我们认为,未来,在重点行业对数据处理和共享环节提出安全可靠,自主可控等高要求的背景下,国产分布式数据库产品有望迎来发展机遇,实现市场份额的快速扩大。
国产厂商纷纷推出分布式大数据平台产品,提升大数据处理的综合能力。除了分布式数据库以外,国产厂商还开发了包括计算引擎、分析工具等组件在内的分布式大数据平台。相较于自研的数据库产品,大数据平台产品的定位更为综合。国产厂商围绕数据接入、处理、存储、查询检索、分析挖掘等数据全生命周期提供更加综合的功能。各厂商的大数据平台主要是在Hadoop为主的开源技术的基础上,进行了不同程度的自研开发。我们认为,采用开源技术比例较高的大数据平台产品,其功能同质化较强,产品竞争力较弱;未来自研技术是保持产品竞争力的核心因素。
(三)云原生数据平台实现了数据计算和存储资源的弹性管理
1.技术架构。云原生架构通过计算和存储分离,大大提升了资源利用效率。基于Hadoop开源技术的分布式架构在硬件层面的计算和存储资源是耦合,在集群扩容时,同一个节点中的计算和存储资源是同比例增加的。然而企业在计算和存储资源上的扩展需求往往并不同步:计算资源通常仅需在负载高峰期进行扩展,而存储资源的扩展一般是长期、线性的过程。企业无法按需独立扩展计算和存储资源,必然带来资源的浪费。而云原生的数据平台可以做到计算资源和存储资源在硬件层面分离,支持计算、存储节点单独扩容,实现资源更加精细化的管理。具体来看:
(3)应用轻量化,减少应用负载。云原生架构将非业务功能从SDK中分离出来放入独立进程,并利用容器共享资源的特性将其下沉至基础设施。非业务资源的解耦分离使得应用负载大幅减负,使得应用资源更加集中于业务逻辑本身。
3.下游需求。在分布式数据库基本满足海量、多源、异构数据处理的基础上,用户对数据库的可获得性、易用性和安全性提出了更高要求。随着云计算的普遍应用,基于公有云部署的数据库为客户节省了硬件采购、安装部署及调试运维等操作,大大降低了用户使用数据处理工具的门槛。通过存算分离、应用接口函数化及轻量化等架构和功能的改造,云原生的数据库减少非业务上的资源消耗,使得用户可以更加集中于业务本身。此外,由于数据不能实现跨云传输,下游客户往往集中选择某一家云厂商存储数据。以Snowflake为代表的第三方数据库公司在搭载了AWS、谷歌云和微软Azure等多个云平台的情况下,实现了多云的数据共享,满足了全球性跨国公司不同地域的业务运营和监管的要求。
(四)技术和商业模式创新驱动大数据行业新旧更迭
随着数据处理需求由单一数据类型、有限量的数据向海量、异构、多源的数据变化,技术架构由集中式向分布式升级,再向云原生演进。在这一过程中,引领技术革新和商业模式创新的公司快速成长,而固守陈旧技术和商业模式的公司成长动力不足。
此外,其推出的根据计算和存储资源使用量来收费的商业模式给云计算厂商和用户都带来了较好的成本节省,有效提升了资源的使用率。技术和商业模式两方面的创新驱动了Snowflake公司的高增长。Snowflake的营收由2018年的9667万美元快速成长到2021年的12.2亿美元;2018-2021年,Snowflake的营收CAGR为132.8%。在其引领下,在美国的第三方数据库公司上云已是大势所趋。
(一)美国公有云SaaS服务较为普及,第三方数据库公司借云兴起
充分利用云厂商的IaaS资源,第三方数据库厂商推出的SaaS服务实现了合作双赢。Snowflake公司于2015年推出的数据仓库产品搭载于亚马逊AWS上,开创了数据库商业化落地的新模式。从亚马逊的角度,用户在使用Snowflake数据仓库产品时,也使用了AWS的存储资源,可以导流较多的客户,拓宽了客户覆盖面。Snowflake的客户数量由2018的948个增长到2021年的5944个,CAGR为84.4%。从Snowflake的角度,公司不仅可以通过AWS快速推广云原生的数据仓库产品实现快速成长,还节省了数据平台中存储组件的开发成本。Snowflake的营收由2018年的9667万美元增长到2021年的12.2亿美元,CAGR为132.5%。通过这样的方式,第三方数据库公司和云计算厂商形成了双赢的合作模式。在美国,数据库产品上云已是大势所趋。
海外云厂商对独立第三方公司持有较为开放的态度。海外的云计算厂商专注于IaaS层算力资源利用的提升和优化,在其基础上的SaaS服务,采取部分自研,部分开放接口给第三方应用软件公司共同开发。引入多方合作伙伴,集思广益,共同开发的生态构建的理念在海外云计算厂商中较为普及。2022年,亚马逊AWS给合作伙伴开放的Marketplace平台提供了65个品类,超过1.2万个软件,订阅用户超过200万个,活跃用户达到了32.5万。这些软件来自全球超过2000个软件供应商、260多家数据供应商以及900多家咨询合作伙伴。数据库作为重要的基础类软件,各云计算公司积极引入包括SnowflakeDataCloud、ClouderaCDP以及MongoDBAtalas等第三方数据库产品。
亚马逊AWS、谷歌云和微软Azure已成为数据库厂商上云的主要平台。第三方数据库公司通过Marketplace给云计算厂商导流客户,提高营收规模的效果较为明显,在这种情况下,开放了Marketplace的海外的云计算厂商已占据云数据库较高的市场份额。阿里云由于其有一定比例的海外云服务业务,开放了Marketplace给第三方数据库公司入驻,但入驻的数据库公司数量和规模较小。中美上云环境的不同,中国云计算厂商给第三方厂商开放的云市场合作力度有限。国内的云计算厂商提供的公有云服务主要面向国内市场。国内公有云市场存在大型企业采用SaaS服务的意愿不高,上云的中小企业持续付费能力有限以及客户定制化需求较多等问题。我们认为,由于中美公有云上云环境的不同,中国的第三方数据库厂商入驻公有云平台后能够给云厂商导流的客户数量有限、规模较小。
(二)中国数据库市场公有云上云率较低,短期内仍以本地部署为主
2.选择上云的中小企业持续付费能力有限:根据海比研究院的数据,2021年,我国SaaS服务的客单价分布中,年付费5-10万的中型企业占比达27%,5万以下小微企业占比达32%。选择SaaS服务的企业客户以制造业、互联网和软件行业的中小企业为主,其持续付费的能力和意愿有限。3.客户定制化需求较多:从云厂商的角度,SaaS模式的优势在于其是基于标准化产品提供的在线服务来节省维护和交付的成本。但国内的下游客户的个性化需求较为普遍。SaaS厂商常因辅助客户落地而被迫提升成本,亦或是在不能满足客户个性化需求时,导致客户流失。基于以上因素,我们认为在国内的市场环境,数据库和数据平台通过公有云部署提供SaaS服务仍需要市场培育、产品打磨以及产业链的协作整合。短期内,私有云或本地化部署仍然是国内数据库和数据平台产品部署的主要方式。
互联网、公共部门、金融三大领域对大数据处理和分析的需求较高。从分行业需求来看,互联网应用中产生的多源、海量数据的处理需求占比较大。此外,在公共部门、金融等领域数字化转型升级过程中,围绕数据存储、计算和运维的需求快速增长,用户对数据平台等软件产品采购预算增加的趋势逐渐明确。另一方面,公共部门、金融等行业基于对数据安全考虑,对于IT基础设施公有云部署的接受度较低。我们认为,短期内,公共部门、金融、工业、医疗等国内企业客户对数据库和数据平台产品的部署方式仍以私有云或本地化的方式为主。
云计算公司采用部分自研,部分托管开源数据库的方式提供数据库服务。MySQL、PostgreSQL、HBase等开源数据库的源代码对外开放,给云计算厂商提供了丰富的开发资源。云计算公司在自研数据库产品的过程中较多参考了开源数据库的代码和组件。例如,华为参考了MySQL、Cassandra以及Influx的源代码,修改开源软件中的部分模块后推出自研的GaussDB,大大减少了开发成本和周期。此外,云计算公司通过将开源数据库托管于云平台上的方式,拓展产品品类和客户覆盖面。我们认为,开源数据库虽然给云计算公司节省了开发成本、拓宽客户覆盖面,但在易用性、配套能力以及版本更新方面存在一定缺陷。云计算厂商基于开源数据库开发和托管的数据库产品,难以满足公共部门、金融机构以及国企等客户对于数据安全可靠、快速响应以及个性化定制的需求。
数据库开源协议存在收紧的趋势。近年来,由于云数据库托管服务扩张,企业客户逐渐流向了云厂商的数据库平台,导致开源社区活跃度下降,对开源生态造成了较大影响。在这种背景下,较多的开源数据库收紧了开源协议,限制其开源代码的商业化。部分开源数据库修改为更严格的许可协议限制商业化,部分企业对其提供的免费版本的开源数据库进行收费。例如,自2021年1月起,Cloudera推出的CDH6.3.3版本开始即只有收费版本,没有免费版本。我们认为,数据库开源协议收紧对于普遍采用开源数据库研发或托管产品的云计算厂商或造成一定影响。云计算厂商的数据库产品在迭代升级、运营维护以及兼容适配方面或存在成本上升的可能。
在中国市场,云计算厂商持续开发迭代自研的数据库,与第三方数据库公司竞争大于合作。国内公有云市场存在大型企业采用SaaS服务的意愿不高,上云的中小企业持续付费能力有限等问题。这导致了第三方数据库厂商入驻公有云平台后能够给云厂商导流的客户数量有限、规模较小。云厂商与第三方数据库公司合作的意愿不高。另一方面,云计算公司持续研发投入,其云原生、湖仓一体等前沿技术持续进步。凭借其在云计算基础设施、应用生态、用户渠道等方面的优势,云计算公司的数据库产品在各场景中快速落地,线下市场的营收规模快速增长。我们认为,目前在国内以私有云和本地化部署方式主导的数据库市场,云计算公司与第三方数据库公司相互竞争大于合作互补。
第三方数据库厂商技术原创性更强,产品布局更广阔。以互联网和服务器厂商为代表的大型科技公司,其大数据平台主要基于开源的底层技术,通过不同程度的优化,在软件应用层面增加了部分自研模块。与之相比,以星环科技为代表的第三方数据库公司在开源技术的基础上,对数据存储层、计算引擎层、编译器层、资源管理层等核心功能进行了重构,基本实现底层技术的自主研发。截止2021年11月,星环科技核心产品大数据基础平台TDH代码自主率为74%;截止2022年5月,分布式分析型数据库产品ArgoDB的代码自主化率为91%。我们认为,星环科技的大数据产品自研占比较高,更加满足在部分场景自主可控、安全可靠的要求。此外,星环科技的技术原创性更强,自研的组件和产品更加丰富,下游应用场景覆盖面更广。
大型科技公司占市场份额较大,星环科技持续追赶。在国内大数据平台软件市场,与华为云、阿里云等公司相比,星环科技整体经营规模较小。大型科技公司资本优势明显,产品布局较为全面,可以组合多种数字化软硬件产品向客户进行销售。其中,云厂商可以公有云服务业务为核心,协同其客户资源网络,带动大数据等业务的开拓。传统ICT厂商通过为金融、政府等大型客户提供信息化数字化的整体解决方案,积累了一定的客户资源。星环科技虽然规模较小,但发展速度较快,2018-2021年,星环科技营收CAGR为43.1%。
根据IDC的数据,在中国大数据平台软件的市场份额排名中,2020年星环科技排名第4;2021年上半年星环科技排名第7。2021年上半年,星环科技排名下滑的主要原因是其在第四季度确认的收入占比较高,而云计算厂商的数据平台产品收入有一定比例是通过公有云SaaS模式实现的,营收在全年的分布较为平均。2019-2021年,星环科技第四季度营收占全年营收比例分别为41.4%、60.7%和58.5%。
(三)中国大数据产业商业化落地未来发展趋势展望
国内第三方数据库公司已入驻云平台。2022年6月,分布式数据库公司PingCAP与阿里云达成合作,其云数据库TiDB正式上线阿里云心选商城。TiDB基于分布式架构,具备高并发处理、融合分析及兼容MySQL开源协议的特性,已应用于全球超过2000家企业。云数据库TiDB是PingCAP与阿里云双方联合,进行深度集成和性能优化推出的产品,实现了集群快速部署、便捷扩容,为用户提供便捷、弹性的数据存储和计算服务。我们认为,随着国内第三方数据库公司产品影响力的持续扩大,其下游客户规模快速增长,其上云后给云计算厂商带来的客户导流效果有望增强。海外云计算厂商与第三方数据库公司结合优势资源,实现合作共赢的模式有望在国内展开。
部分第三方数据库公司已具备上公有云的技术条件。从技术角度,国内第三方数据库公司已在云原生架构领域具备一定的技术积累。星环科技开发的TDC产品是基于容器技术的数据云平台,其可通过纳管IaaS主流平台为上层PaaS及用户提供数据湖、数据仓库、搜索引擎、实时计算、数据科学平台、交易数据库等服务,满足客户对数据平台的多租户、弹性可扩展和使用灵活性的要求。我们认为,部分第三方数据库公司已具备上公有云的技术条件,未来,若其与云计算公司在商业化落地方面形成资源互补、达成合作共识,则第三方数据库上云的商业化进程有望快速落地。
(一)技术原创性强,产品自主可控,与国产生态适配性强
公司专注于大数据领域,技术原创性强,产品矩阵完整。公司成立于2013年,其核心研发团队曾任职于英特尔,在英特尔基于ApacheHadoop1.x技术研发开源的Hadoop发行版产品,是行业中较早探索、研发大数据技术的团队。在具有一定技术积累的基础上,公司通过自研大数据技术逐步取代开源技术,经过多年的发展,软件产品自主率行业领先。截止2021年11月,其核心产品大数据基础平台TDH代码自主率为74%。此外,相较于数据库产品,公司开发的大数据平台产品的定位更为综合。面向数据接入、处理、存储、查询检索、分析挖掘等全生命周期,公司已形成大数据与云基础平台、分布式关系型数据库、数据开发与智能分析工具的软件产品矩阵,产品在金融、能源、电信、交通等行业广泛应用。
公司大数据产品在开源技术的基础上进行了较大比例的自研开发,技术壁垒较高。公司在开源技术的基础上,进行了较大比例的自研开发工作,其大数据产品在高并发事务处理、多模型融合分析以及多方数据安全协作等方面具有较高的技术壁垒。公司对开源技术的核心组件实现了自研替换,包括YARN资源调度组件、Storm流处理组件以及HDFS分布式存储管理系统。公司自研的大数据平台产品采用分布式、云原生等技术,不仅在逐渐替代传统的关系型数据库产品,而且在部分应用场景中实现了对Cloudera和Oracle等海外公司数据库产品的国产替代。
公司的大数据和数据库产品与国产软硬件基础平台产品有较强的适配性。公司完成了和多个国产硬件平台的适配,支持在一个集群内允许多个不同的硬件架构(如X86架构和国产鲲鹏、飞腾、龙芯等架构)混合部署,能够更好的让用户实现逐步的国产化替代进程。分布式分析型数据库ArgoDB已经完成和飞腾、鲲鹏等国产硬件及麒麟、UOS等国产操作系统的深度适配。分布式交易型数据库KunDB支持X86与各种国产芯片架构,以及CentOS、RedHat、UOS、麒麟等国内外主流的操作系统,能够运行在异构CPU架构以及多种操作系统混合部署的集群环境中。我们认为,公司在国产软硬件生态的适配性具有相对优势,预计将受益于金融、电信等行业信息系统的国产替代进程。
公司的大数据产品较好满足公共部门数字化转型的需求。随着公共部门数字化转型的深化,政务数据体系存在统筹管理机制不健全、供需对接不顺畅、共享应用不充分、标准规范不统一、安全保障不完善等问题。2022年9月,国务院印发了《全国一体化政务大数据体系建设指南》,提出了加强数据汇聚融合、共享开放和开发利用的要求。我们认为,公司的大数据平台产品具备的多源异构数据融合分析能力较好的满足了政务数据融合联通的需求,未来有望受益于政务大数据体系建设。公司在政务数据平台领域已具有一定项目经验。例如,公司给上海市大数据资源平台提供的数据云平台TDC产品支撑全市数据的归集,为各类数据治理工作提供多样化存储和计算能力,保障对外服务的时效性、可靠性,提升上层数据应用的安全性。
公司营收快速增长,金融和公共部门行业客户贡献营收较大。公司营收由2018年的1.1亿元增长至2021年的3.3亿元,CAGR为43.1%。在金融、公共部门和能源等行业数字化转型的需求旺盛的背景下,公司推出的大数据基础平台TDH、数据云平台TDC等产品较好的满足了海量、异构、多源数据处理和分析的需求,相应产品在各行业快速渗透,带动营收快速增长。2022年前三季度,公司营收1.7亿元,同比增加24.8%。分行业来看,2021年,金融和公共部门客户贡献营收分别为1.4亿元和9232万元,占营收比重分别为42.6%和27.9%。
(三)营收现阶段以大数据平台各组件为主,数据库营收快速增长
公司大数据平台代码自主化率较高,技术原创性更强,自研组件品类丰富。公司在开源技术的基础上,对数据存储层、计算引擎层、编译器层、资源管理层等核心功能进行了重构,基本实现底层技术的自主研发。根据工信部电子五所出具的《代码扫描测试报告》,截止2021年11月,其核心产品大数据基础平台TDH代码自主率为74%;截止2022年5月,数据云平台TDC代码自主率为73%。我们认为,相较于国内外厂商,公司的大数据产品自研占比较高,更加满足在部分场景自主可控、安全可靠的要求。此外,公司的技术原创性更强,自研的组件和产品更加丰富,下游应用场景覆盖面更广。
TDH、ArgoDB和Sophon等产品已实现部分场景的国产替代。TDH和ArgoDB产品不仅凭借分布式架构的优势对传统数据库Oracle、IBMDB2以及Teradata等传统数据库实现了较好的替代,还以较高的性价比和安全性实现了EalsticSearch、CDP等海外分布式架构数据产品的替代。此外,公司开发的智能分析工具Sophon自2014年至今持续迭代,其内置的分布式统计算法、机器学习算法可实现在大数据集上高校的复杂统计和预测性分析,对于海外智能统计分析工具SAS有较好的替换效果。目前,公司的大数据基础平台TDH、分布式分析型数据库ArgoDB以及智能分析工具Sophon已在金融、能源、制造、交通等多个行业实现了关键信息系统的国产替代。
公司分布式数据库产品代码自主化率较高,在国产替代方面更具优势。根据工信部电子五所出具的《代码扫描测试报告》,截止2022年2月,交易型数据库KunDB代码自主率为74.3%;截止2022年5月,分析型数据库ArgoDB代码自主率为90.6%。我们认为,公司的数据库产品自研占比较高,更加满足在部分场景自主可控、安全可靠的要求,在对海外产品进行国产替代过程中具有相对优势。2021年3月,中央国家机关政府采购中心发布关于中央国家机关2021年数据库软件协议供货采购项目成交公告,公司ArgoDB和KunDB已入围数据库管理系统供应商名单。
(四)从海外对标公司看行业商业模式和估值的变化
2.Cloudera:公司成立于2008年,早期的产品以分布式大数据平台CDH为主,根据节点数量以订阅制按年/月收费。2018年,公司与Hortonworks公司合并,但由于二者商业模式上的差异,导致各部门业务线并未实现较好的融合。2019年,公司推出基于公有云的CDP产品,按照使用量收费。2021年10月,公司以53亿美元被收购后,从纳斯达克退市。公司的估值不仅受业务模式的影响,还受到兼并收购的负面影响。2019-2021年,公司PS分别为3.8倍、4.1倍、4.9倍。
3.MongoDB:公司成立于2007年,传统业务以文档数据库MongoDBEnterpriseAdvanced为主,收费模式以按照部署的节点数目按月收费。2016年,公司推出MongoDBAtlas公有云数据库产品,按照使用量进行收费。Atlas订阅制实现的营收由2018年的6024万美元(占营收比重22.6%),快速增长到2021年的4.9亿美元(占营收比重56.3%),CAGR为101.7%。随着公司云数据库业务快速增长,公司估值水平有较大提升。2020-2022年,公司PS分别为19.3倍、37.5倍、39.5倍。2022年11月份,估值水平的下降与美国加息等市场宏观因素有关。
5.Snowflake:公司成立于2012年,在行业内较早推出基于多云环境下的云端数据仓库产品。2014年,其在AWS上推出数据存储与分析服务;2018年、2019年陆续在微软Azure和谷歌云提供数据仓库服务DataCloud。2022年初,公司PS为95.6倍。与分布式数据库公司相比,公司自诞生之初就基于公有云按照使用量收费,技术架构和商业模式较同行更为先进。2022年11月份,估值水平的下降与美国加息等市场宏观因素有关。
星环科技积极应对行业变化,技术持续迭代,产品线持续拓展,持续业务转型。大数据行业技术迭代快,产品品类多。星环科技在发展过程中,坚持研发由底层向应用功能延伸,产品由基础平台向数据库拓展的策略。我们认为,公司在技术和产品基础较为稳固的情况下,业务向外拓展的动力较强,空间较大。未来随着业务转型的持续深化,其发展前景看好。公司业务转型情况具体如下:
2.技术架构由分布式向云原生升级:公司开发的TDC产品是基于容器技术的数据云平台,其基于Kubenetes重构了存储和计算调度模块,可帮助系统减少大量资源消耗。目前,TDC产品可以以PaaS云服务的方式为客户提供数据湖、数据仓库、搜索引擎、实时计算、数据科学平台、交易数据库等服务。3.商业模式方面已具备上公有云的技术基础:公司开发的TDC云管平台可通过纳管IaaS主流平台为上层PaaS及用户提供虚拟机、虚拟网络和对象存储等服务,满足客户对数据平台的多租户、弹性可扩展和使用灵活性的要求。我们认为,公司已具备上公有云的技术条件,未来,若其与云计算公司在商业化落地方面形成资源互补、达成合作共识,则其上云的商业化进程有望快速落地。