万字长文解读最新最全的大数据技术体系图谱！亿信华辰|数据分析应用对象主要有_宠物酒店

基于大数据引擎，通过可视化组件、托拉拽式实现数据汇聚与集成开发

指标定义、指标建模、指标固化、指标分析，一体化完成指标的落地与应用

组件化、零sql实现各类复杂报表和丰富多样的图表分析

面向业务人员，简单拖拽即可生成可视化图表

内置150+特效组件，快速打造酷炫灵动的可视化大屏，支持在线编码，拓展视觉体验至极致

搭载自然语言分析引擎，引入AI大模型技术，通过简单的对话问答实现快速数据分析

移动采集、审批、分析一站式解决移动办公诉求

一站式数据分析平台

了解ABI

全程“零”编码，高效实现主数据模型、主数据维护、主数据分发、主数据质量的全过程管理，为企业主数据管理落地提供有效支撑，实现各业务系统间的主数据共享，保障企业主数据的唯一性、准确性、一致性。

内置多类主数据模版，可视化实现多视角模型定义，满足复杂规则的编码自动控制

多种数据接入方式，支持不同场景的审批管控，数据版本可回溯，满足主数据的全生命周期管理

拖拽式任务设计，内置丰富组件，支持主动式、被动式分发模式

全过程质量管控，支持内置及自定义规则，提供图表式质检报告

主数据管理平台

在线模型设计，深度融合数据标准，规范数据定义

自动化元数据感知，全链路血缘提取，理清数据资源

智能化标准推荐，一键式数据落标，树立数据权威

“零”编码规则搭建，全流程质量整改，高速数据质检

规范资产目录，自助式数据共享，释放资产价值

超30+主流数据库、国产库、大数据库、文件、消息队列等接口之间极速交换结构化、非结构化数据

构建分级分类体系，动态数据脱敏，保障数据安全

全盘监控数据，决策数据周期，释放数据资源

智能数据治理平台

了解睿治

覆盖数据建模、采集、处理、集成、共享、交换、安全脱敏于一体，一站式解决数据开发所有的问题。

结合标准体系的可视化建模工具，支持模型的正、逆向构建

拖拽式任务编排，内置丰富组件，支撑亿级数据的快速处理与迁移

具备高并发、高吞吐量、低延迟的一体化任务编排能力，可视化设计、分布式运行

提供图形化的任务监控和日志跟踪，面向运维、管理人员的完善监控体系

数据工厂系统

纯web设计器，零编码完成基本表、变长表、中国式复杂报表、套打表、问卷调查表等制作；支持年报、月报、日报，以及自定义报表期等多种数据采集报送频率

提供在线填报和离线填报两种应用模式，也支持跨数据源取数；填报数据自动缓存在WEB浏览器中，即使宕机也不会丢失

内置灵活轻便的工作流引擎，实现了用户业务过程的自动化；支持层层审批、上级审批、越级审批、自定义审批等多种审批方式

对于下级填报单位上报的数据，上级汇总单位可将其进行汇总；支持层层汇总、直接下级汇总、选择单位汇总、按条件汇总、按代码组汇总、按关键字汇总、自定义汇总等

提供数据锁定机制，防止报表数据被意外修改；支持数据留痕，辅助用户过程追溯；未及时上报的用户自动催报；所见即所得的打印输出等

提供多种类型的数据接口，可以导入EXCEL、DBF、二进制、文本等格式的数据，可以将报表数据批量输出为HTML、EXCEL、XML、TXT等格式

数据采集汇总平台

统一指标定义，实现“一变多变、一数多现”的数据管理效果，为企业提供强有力的数字化保障和驱动效应。

采用可视化、导向式方式构建指标业务域，形成指标地图，全局指标一览在目

流程化自助式的定义、开发、维护各类指标，零建模，业务人员即刻上手

助力企业更好地查询、使用指标，提供共享、交换、订阅、分析、API接口等应用服务

指标管理平台

零代码+AI，有“问”必答的数字助理，利用AI大模型和数字人技术，通过语音&文字输入问题，自动识别业务指令，深度理解用户意图的问题，洞察数据，人机交互，重新定义BI新体验。

面向业务的对话式问数，即问即答，更懂你的诉求

理解数据，洞察数据，更懂数据内容，把数据见解讲给你听

动态地分析数据特点，提供最合适的图表类型展示，让数据展现更简单

完全是颠覆做表的方式，一句话看板创建，启发式内容制作

智能化生成包含深入分析和建议的报告，复杂数据简单化，释放数据潜力

数据跃然屏上的AI大屏汇报，让数据讲述故事

海量知识，一触即达，提供更智能的知识检索服务，快速找到“对”的人

不止于工具，更是随时待命的得力助手。一声指令，为您提供即时的数据分析和决策支持

智能数据问答平台

从采、存、管、用四大方面构建数据治理体系，实现数字化经营

主数据全生命周期管理，保障主数据一致性、权威性、共享性，提高企业运营效率

以元数据管理摸清家底，以资产编目盘点数据资产，提供数据服务

集数据采集补录、数据ETL建模、数据实时存储、数据分析展现等应用场景于一体

集数据集成、数据治理、资产规划开发、资产运营等场景应用于一体

集元数据采集和规整、数据标准建立与评估、数据质量管控等场景应用于一体

面向业务和技术提供指标管理指标分析等服务的指标统一管理平台

涵盖数据存储、数据集成、数据交换、数据共享等方面，为企业用户提供云原生仓湖一体解决方案

提供数据全生命周期过程的数据服务手段，实现数据应用到数据运营

案例中心

学习中心

认证中心

培训活动

亿信社区

伙伴招募

供应商招募

了解亿信

亿信动态

亿信ABI

数据治理

产品解决方案

金融

租赁

医疗卫生

能源

制造

生态环境

政府

其他

IDC蝉联数据治理解决方案市场第一

数据技术体系可以归纳总结为数据分析应用技术、数据管理技术、基础技术、数据安全流通技术四大方向，每个方向大数据技术的产生都有其独特的背景。

面对分布式架构带来的海量分布式系统间信息协同的问题，出现了以Zoomkeeper为代表的分布式协调系统；为了将分布式集群中的硬件资源以一定的策略分配给不同的计算引擎和计算任务，出现了Yarn等集群管理及调度引擎；面对海量计算任务带来的管理复杂度大幅提升问题，出现了面向数据任务的灵活调度工作流平台。

面向海量网页内容及日志等非结构化数据，出现了基于ApacheHadoop和Spark生态体系的分布式批处理计算框架；面向对于时效性数据进行实时计算反馈的需求，出现了ApacheStorm、Flink等分布式流处理计算框架。

面对大型社交网络、知识图谱的应用要求出现了以对象+关系存储和处理为核心的分布式图计算引擎和图数据库，如GraphX、neo4j等；面对海量网页、视频等非结构化的文件存储需求，出现了mongoDB等分布式文档数据库；面向海量设备、系统和数据运行产生的海量日志进行高效分析的需求，出现了influxdb等时序数据库；面对海量的大数据高效开放查询的要求，出现了以Redis为代表的K-V数据库。

面向大规模数据集的高效、可靠及低成本的存取问题，出现了HDFS、OpenIO等分布式文件存储和对象存储解决方案。

技术总是随着需求的变化而不断发展提升，在较为基本和急迫的数据存储、计算需求已经在一定程度满足后，如何将数据转化为价值成为了下一个主要需求。

在数据价值释放初现曙光的同时，数据安全问题也愈加凸显，数据泄露、数据丢失、数据滥用等安全事件层出不穷，对国家、企业和个人用户造成了恶劣影响，如何应对大数据时代下严峻的数据安全威胁，在安全合规的前提下共享及使用数据成为了备受瞩目的问题、访问控制、身份识别、数据加密、数据脱敏等传统数据保护手段正积极向更加适应大数据场景的方向不断发展，同时，侧重于实现安全数据流通的隐私计算技术也成为了热点发展方向。

1、流计算

产品举例：

STORM：一个开源的分布式实时计算框架，可以以简单、可靠的方式进行大数据流的处理

SparkStreaming：接收实时输入的数据流，并将数据拆分为一系列批次，然后进行微批处理，SparkStreaming能够将数据流进行极小粒度的拆分，使得其能够得到接近于流处理的效果，但其本质上还是批处理

Flink：一种针对流数据+批数据的计算框架，其把批数据看作流数据的一种特例，延迟性较低(毫秒级)，且能够保证消息传输不丢失不重复

2、批量计算

批量计算是指对静态数据的批量处理，即当开始计算之前数据已经准备到位，主要用于数据挖掘和验证业务模型，包括MapReduce、spark、hive等等。

HadoopMapReduce：一种编程模型，用于大规模数据集（大于1TB）的并行运算,概念"Map（映射）"和"Reduce（归约）"是它们的主要思想，极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上

spark：拥有HadoopMapReduce所具有的优点，但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的场景

3、图计算

以图作为数据模型来表达问题并予以解决的过程，包括GraphLab、GraphX、Giraph及Gelly等等。

GraphX：一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求

Giraph：Facebook搞的图计算引擎，基于hadoop，编程模型接近于Pregel，主要卖点是支持大图

4、分布式协调系统

分布式协调技术主要用来解决分布式环境当中多个进程之间的同步控制，让他们有序的去访问某种临界资源，防止造成"脏数据"的后果，主要包括Zoomkeeper、eureka、consul等等。

Zoomkeeper：一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等

eureka：Eureka是Netflix开发的服务发现框架，本身是一个基于REST的服务，主要用于定位运行在AWS域中的中间层服务，以达到负载均衡和中间层服务故障转移的目的

consul：google开源的一个使用go语言开发的服务发现、配置管理中心服务。内置了服务注册与发现框架、分布一致性协议实现、健康检查、Key/Value存储、多数据中心方案，不再需要依赖其他工具

5、集群管理及调度

主要负责将集群中的硬件资源以一定的策略分配给不同的计算任务，主要包括Ambori、MESOS、YARN等等。

Ambori：一种基于Web的工具，支持ApacheHadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop和Hcatalog等等

MESOS：可以将整个数据中心的资源（包括CPU、内存、存储、网络等）进行抽象和调度，让应用共享集群资源，并无需关心资源的分布情况

YARN：一种新的Hadoop资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处

6、工作流管理

工作流含义很广，这里指能对各种数据任务进行灵活编排和调度的工具，包括Airflow、nifi、Oozie等等，很多企业大数据工作流管理都跟自身的数据开发管理平台紧耦合。

nifi：Apache支持下基于可视化流程设计的数据分发平台，是大数据的搬运、提取、推送、转换、聚合、分发的开源软件工具，能够与Hadoop生态系统的大数据存储和各种文件、REST服务、SOAP服务、消息服务等联合使用，构成一体化的数据流服务

Oozie：起源于雅虎，主要用于管理与组织Hadoop工作流。Oozie的工作流必须是一个有向无环图，实际上Oozie就相当于Hadoop的一个客户端，当用户需要执行多个关联的MR任务时，只需要将MR执行顺序写入workflow.xml，然后使用Oozie提交本次任务，Oozie会托管此任务流

7、图数据库

NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。最常见例子就是社会网络中人与人之间的关系。关系型数据库用于存储“关系型”数据的效果并不好，其查询复杂、缓慢、超出预期，而图形数据库的独特设计恰恰弥补了这个缺陷，主要包括ArangoDB、neo4j、OrientDB等等。

ArangoDB：一个原生多模型数据库，兼有key/value键/值对、graph图和document文档数据模型，提供了涵盖三种数据模型的统一的数据库查询语言，并允许在单个查询中混合使用三种模型

neo4j：一个高性能的NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中，Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性

OrientDB：一个开源的多模型NoSQL数据库，支持原生图形、文档全文、响应性、地理空间和面向对象等概念。它使用Java编写，速度非常快：在普通硬件上，每秒可存储220,000条记录。对于文档数据库，它还支持ACID事务处理

8、文档数据库

文档数据库被用来管理文档，在传统的数据库中，信息被分割成离散的数据段，而在文档数据库中，文档是处理信息的基本单位，包括mongoDB、CouchDB、MarkLogic等等。

mongoDB：一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案，它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大

CouchDB：一个开源的面向文档的数据库管理系统，可以通过RESTfulJavaScriptObjectNotation(JSON)API访问。术语“Couch”是“ClusterOfUnreliableCommodityHardware”的首字母缩写，它反映了CouchDB的目标具有高度可伸缩性，提供了高可用性和高可靠性，即使运行在容易出现故障的硬件上也是如此

MarkLogic：一种NoSQL数据库，能同时储存结构化和非结构化数据解决方案,包括JSON、XML、RDF、坐标、二进制数据（PDF、图片、视频）等等，而不仅仅是结构化的数据存储

9、时序数据库

influxdb：一个由InfluxData开发的开源时序型数据库。它由Go写成，着力于高性能地查询与存储时序型数据

10、分析型数据库

VERTICA：一款基于列存储的MPP（massivelyparallelprocessing）架构的数据库

Clickhouse：一款MPP架构的列式存储数据库，其从OLAP场景需求出发，定制开发了一套全新的高效列式存储引擎，并且实现了数据有序存储、主键索引、稀疏索引、数据Sharding、数据Partitioning、TTL、主备复制等丰富功能。以上功能共同为ClickHouse极速的分析性能奠定了基础

11、KV数据库

是一种以键值对存储数据的一种数据库，类似java中的map。可以将整个数据库理解为一个大的map，每个键都会对应一个唯一的值。key-value分布式存储系统查询速度快、存放数据量大、支持高并发，非常适合通过主键进行查询，但不能进行复杂的条件查询，主要包括redis、TAIR及memcached等等。

redis：一个开源的使用ANSIC语言编写、遵守BSD协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，并提供多种语言的API

TAIR：是阿里云数据库Redis企业版，是基于阿里集团内部使用的Tair产品研发的云上托管键值对缓存服务。Tair作为一个高可用、高性能的分布式NoSQL数据库，专注于多数据结构的缓存与高速存储场景，完全兼容Redis协议

memcached：是一个自由开源的、高性能、分布式内存对象缓存系统。

12、文件存储

文件存储的数据是以一个个文件的形式来管理，操作对象是文件和文件夹，存储协议是NFS、SAMBA（SMB）、POSIX等，它跟传统的文件系统如Ext4是一个类型的，但区别在于分布式文件存储提供了并行化的能力，主要包括HDFS、ceph、GlusterFS等等。

HDFS：指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统（DistributedFileSystem），是一个高度容错性的系统，适合部署在廉价的机器上，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用

ceph：是一个统一的分布式存储系统，设计初衷是提供较好的性能、可靠性和可扩展性

GlusterFS：一个可扩展的网络文件系统，相比其他分布式文件系统，GlusterFS具有高扩展性、高可用性、高性能、可横向扩展等特点，并且其没有元数据服务器的设计，让整个服务没有单点故障的隐患

13、对象存储

也称为基于对象的存储，是一种数据存储，其中每个数据单元存储为称为对象的离散单元。对象可以是离散单元，类似于pdf，音频，图像或视频文件。这些对象实际上可以是任何类型的数据和任何大小的数据。对象存储中的所有对象都存储在单个平面地址空间中，而没有文件夹层次结构。一个对象通常包含三个部分：对象的数据、对象的元数据以及一个全局唯一的标识符（即对象的ID），采用分布式架构，容量和处理能力弹性扩展，存储协议是S3、Swift等，主要包括OpenIO、MINIO及Cloudreve等等。

OpenIO：一个开源的对象存储解决方案，用于大规模面向性能要求的低延迟的存储架构，特别为体积小量大的存储对象，发布容易，添加存储设备无需对数据进行重新分配

MINIO：GlusterFS创始人之一AnandBabuPeriasamy发布新的开源项目。Minio兼容Amason的S3分布式对象存储项目，采用Golang实现，客户端支Java,Python,Javacript,Golang语言。Minio可以做为云存储的解决方案用来保存海量的图片，视频，文档。由于采用Golang实现，服务端可以工作在Windows,Linux,OSX和FreeBSD上

Cloudreve：一款国人开发的开源免费的网盘系统，借助Cloudreve你能够快速搭建起公私兼备的网盘。Cloudreve支持使用七牛云存储、阿里云OSS、又拍云、AmazonS3等对象存储作为存储后端，也支持本地服务器、远程服务器和OneDrive等作为存储后端，另外也支持aria2离线下载

2、数据集成

DataX：DataX是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能

Kettle：一款国外开源的ETL工具，纯Java编写，绿色无需安装，数据抽取高效稳定(数据迁移工具)

3、数据建模

数据建模指的是对现实世界各类数据的抽象，包括建立数据库实体以及各实体之间的关系等等，主要包括的产品为erwin、PowerDesigner等等。

erwin：业界领先的数据建模解决方案，提供一个简单的，可视化界面来管理复杂的数据环境

PowerDesigner：Sybase的企业建模和设计解决方案，采用模型驱动方法，将业务与IT结合起来，可帮助部署有效的企业体系架构，并为研发生命周期管理提供强大的分析与设计技术

1、BI工具

tableau：人人可用的数据可视化分析工具

PowerBI：微软用于分析数据和共享见解的一套可视化业务分析工具

spagobi：开源商业智能套件

QuickBI：阿里轻量级自助BI工具服务平台

2、数据可视化开发工具

更为灵活的可视化编程开发工具，包括ECHARTS、D3.js、Plotly、Chart.js、GoogleCharts、EmberCharts、Chartist.js、Antv等等。

ECHARTS：最初由百度团队开源，基于JavaScript的数据可视化图表库，提供直观，生动，可交互，可个性化定制的数据可视化图表

D3.js：用于数据可视化的开源的JavaScript函数库，被认为是很好的JavaScript可视化框架之一

Plotly：一个知名的、功能强大的数据可视化框架，可以构建交互式图形和创建丰富多样的图表和地图

Antv：蚂蚁金服全新一代数据可视化解决方案，致力于提供一套简单方便、专业可靠、无限可能的数据可视化最佳实践

3、数据挖掘平台

提供机器学习训练和发布的平台，数据挖掘可视化成为一种趋势，包括Angel、KNIME、RapidMiner、IBMSPSSModeler、OracleDataMining、SASDataMining、ApacheMahout、SparkMLlib、Python/R、PAI等等。

Angel：腾讯、香港科技大学等联合研发的使用Java和Scala语言开发，面向机器学习的高性能分布式计算框架

KNIME：一个用户友好、可理解、全面的开源数据集成、处理、分析和探索平台，它有一个图形用户界面，帮助用户方便地连接节点进行数据处理

RapidMiner：一款不需要编程就可以进行数据分析和数据挖掘的软件，简单易学，人机界面也十分友好

IBMSPSSModeler：以图形化的界面、简单的拖拽方式来快速构建数据挖掘分析模型著称,，它允许您在不编程的情况下生成各种数据挖掘算法

OracleDataMining：是OracleSQLDeveloper的一个扩展，数据分析师通过它能够查看数据、构建和评估多个机器学习/数据挖掘模型以及加速模型部署

SASDataMining：提供了一个易于使用的GUI，其描述性和预测性建模提供了更好的理解数据的见解，还包括可升级处理、自动化、强化算法、建模、数据可视化和勘探等先进工具

ApacheMahout：ApacheSoftwareFoundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序

Python/R：大家都懂的

4、深度学习引擎

提供深度学习训练和发布的平台，包括TensorFlow、PP飞浆、caffe2、Theano、keras、MXNet等等。

TensorFlow：一个使用数据流图（dataflowgraphs）进行数值计算的开源软件库，可以看成是一个嵌入Python的编程语言，你写的TensorFlow代码会被Python编译成一张图，然后由TensorFlow执行引擎运行

Theano：Theano是一个比较低层的库，它支持自动的函数梯度计算，带有Python接口并集成了Numpy，这使得它从一开始就成为了通用深度学习领域最常使用的库之一，由于它不支持多GPU和水平扩展，已然开始被遗忘

PyTorch：一个开源的Python机器学习库,本质上是Numpy的替代者，而且支持GPU、带有高级功能，可以用来搭建和训练深度神经网络

caffe2：PyTorch有优秀的前端,Caffe2有优秀的后端,整合起来以后可以进一步最大化开发者的效率

keras：一个由Python编写的开源人工神经网络库，是一个非常高层的库，可以作为Tensorflow、Microsoft-CNTK和Theano的高阶应用程序接口，进行深度学习模型的设计、调试、评估、应用和可视化，Keras强调极简主义——你只需几行代码就能构建一个神经网络

Deeplearning4j：为Java和Java虚拟机编写的开源深度学习库，是广泛支持各种深度学习算法的运算框架

PP飞浆：百度一个集深度学习核心框架、工具组件和服务平台为一体的技术先进、功能完备的开源深度学习平台

MXNet：亚马逊的一款设计为效率和灵活性的深度学习框架。它允许你混合符号编程和命令式编程，从而最大限度提高效率和生产力

cntk：微软出品的一个开源的深度学习工具包，可以运行在CPU上，也可以运行在GPU上。CNTK的所有API均基于C++设计，因此在速度和可用性上很好

5、图分析

图分析使用基于图的方法来分析连接的数据，可以查询图数据，使用基本统计信息，可视化地探索图、展示图，或者将图信息预处理后合并到机器学习任务中，图分析引擎包括Gephi、NodeXL等等。

Gephi：是开源免费跨平台基于JVM的复杂网络分析软件,其主要用于各种网络和复杂系统，因它简单、易学、出图美观而备受青睐

NodeXL：是一个功能强大且易于使用的交互式网络可视化和分析工具，它以MSExcel（Excel2007或者Excel2010）模板的形式，利用MSExcel作为数据展示和分析平台

Palantir：是一种人和机器的高效结合的平台，它是一个数据分析平台，通过图(graphs)、地图(maps)、统计(statistics)、集合(settheory)论分析结构或非结构化数据

1、隐私计算

指在保证数据提供方不泄露敏感数据的前提下，对数据进行分析计算并能验证计算结果的信息技术。广义上是指面向隐私保护的计算系统与技术，涵盖数据的产生、存储、计算、应用、销毁等信息流程全过程，想要达成的效果是使数据在各个环节中“可用不可见”，包括PrivateJoin&Compute、crypten、FedAI及FEDLEARNER等等。

crypten：Facebook开源的多方安全计算(MPC)的框架，其底层依赖于深度学习框架PyTorch

FedAI：联邦学习生态是一个促进AI多方建模的技术社区，使用联邦学习技术能够满足用户隐私保护、数据安全、数据保密和政府法规的要求

FEDLEARNER：字节跳动开源的联邦机器学习平台

2、数据脱敏

指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏在，主要包括DATPROF、IRI、ShardingSphere等等。

DATPROFPRIVACY：提供了一种掩盖和生成用于测试数据库的数据的智能方法，它以一种非常简单且经过验证的方式为子集数据库提供了获得专利的算法

IRI：IRI是一家成立于1978年的美国ISV，以CoSort快速数据转换，FieldShield数据屏蔽和RowGen测试数据产品而闻名。IRI还将这些捆绑在一起，并将数据发现，集成，迁移，治理和分析整合到一个称为Voracity的大数据管理平台中

ShardingSphere：ApacheShardingSphere是一套开源的分布式数据库中间件解决方案组成的生态圈，数据脱敏模块属于ShardingSphere分布式治理这一核心功能下的子功能模块。它通过对用户输入的SQL进行解析，并依据用户提供的脱敏配置对SQL进行改写，从而实现对原文数据进行加密，并将原文数据(可选)及密文数据同时存储到底层数据库。在用户查询数据时，它又从数据库中取出密文数据，并对其解密，最终将解密后的原始数据返回给用户

3、身份认证

指通过一定的手段，完成对用户身份的确认，身份验证的方法有很多，基本上可分为：基于共享密钥的身份验证、基于生物学特征的身份验证和基于公开密钥加密算法的身份验证，主要包括CAS、KEYCLOAK、Kerberos等等。

KEYCLOAK：一个为浏览器和RESTfulWeb服务提供SSO的集成

通过《白皮书》的指引，我们对于整个大数据技术体系会有一个基本了解，当然还会有缺失，比如数据分析应用技术大类中缺少了OLAP、基础技术中缺少了HTAP这种混合数据库等等，但已经比较全面了。

虽然我们没法也没必要去理解和掌握每一项大数据技术，但知道有这个技术的存在，大致知道其价值，从而在需要的时候想到它，无论是对于数据管理者或者是技术架构师，都是很重要的。

THE END

万字长文解读最新最全的大数据技术体系图谱！亿信华辰

深入探讨如何有效分析数据以驱动决策

什么是大数据分析及应用研究方向帆软数字化转型知识库

数据分析在哪些行业中应用最为广泛？

万字长文解读最新最全的大数据技术体系图谱！亿信华辰

大数据在审计中的应用汇总十篇

北京联合大学大数据管理与应用专业

数据分析——Pandas的用法（Series,DataFrame）只会玩辅助

能耗监测与评估技术.docx

就业市场调研报告（精选11篇）

学电竞到底有什么用？电竞行业有发展吗？

成都市教育科学研究院

大学生调查报告精选(模板10篇)

调查报告模板（精选14篇）

大学生英语学习总结范文

技术服务–谷禾健康