1 产品介绍

有数大数据基础平台NDH是网易数帆推出的企业级大数据基础平台。该产品基于最新开源技术打造,内置多种存储计算引擎,并对包括Hadoop、Spark、Impala等在内的多个核心组件做了功能及性能增强,新增EasyEagle组件实现智能运维和任务治理,支持企业级安全管控。 结合网易数帆内部在大数据领域多年的沉淀积累,有数大数据基础平台NDH不仅支持对核心代码的完全掌控,并且适配信创软硬件生态,可以更自主化、便捷化、智能化地提升企业数据运维效率,在加强数据安全保障的同时,筑牢企业智慧型“数字底座”。

2 系统架构

有数大数据基础平台NDH的逻辑架构图如下所示: 1.2.png

NDH对开源组件进行封装和增强,包含NDHManager(Easyops)和众多组件,分别提供功能如下:

  • • NDHManager:作为一站式的大数据运维管控平台,集成大数据中台组件、基础组件、实时计算等系列产品,提供统一部署、监控报警、服务管理等能力,让大数据生态应用起来更加快捷、方便。
  • • HDFS:分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。
  • • Alluxio:世界上第一个面向基于云的数据分析和人工智能的开源的数据编排技术。
  • • HDFSMeta Service:HDFS元数据分析服务。准实时解析HDFS元数据并基于此提供在线查询服务,业务可以查询指定路径的元数据信息、目录结构信息。
  • • HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式KV存储系统。
  • • EasyEagle:监控Yarn队列、任务资源利用率,提供任务全链路诊断功能提高问题诊断效率。
  • • Yarn:分布式资源管理系统,可以为各类应用程序进行资源管理和调度。
  • • Hive:基于 Hadoop 的一个数据仓库工具,可将结构化数据映射为一张数据库表,并提供 HQL(Hive SQL) 查询功能。底层数据存储在 HDFS 上。Hive 本质是将 SQL 语句转换为 MapReduce 任务运行。
  • • Kyuubi:网易(杭研)自研的基于Spark ThriftServer服务,提供SparkSQL/OLAP计算服务。该服务已贡献给Apache基金会,项目地址https://kyuubi.apache.org/。
  • • Spark:基于内存进行计算的分布式计算框架。提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。
  • • Flink:一个批处理和流处理结合的统一计算框架,提供数据分发以及并行化计算的流数据处理引擎。
  • • Impala:Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。
  • • Kudu:分布式列式存储系统,主要用于大规模扫描查询,高吞吐量更新、写入场景。
  • • Elasticsearch:一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎, 基于RESTful web接口。
  • • Ranger:提供一个集中式安全管理框架,并解决授权和审计。它可以对Hadoop生态的组件如HDFS、YARN、HIVE等进行细粒度的数据访问控制。

3 软件清单

组件名称 NDH 2.1.1
NDHManager 1.9.3
Kerberos 1.15.1-50.el7.x86_64
Zookeeper 3.5.6-1.0.0
Kafka 2.11-2.0.1-1.0.0
HDFS 3.3.0-1.3.1
Alluxio 2.7.3
HDFSMeta Service 1.4.6
HBase 2.2.6
Yarn 3.3.0-1.3.1
Hive 2.3.8-1.1.4-hadoop-3.3.0
Kyuubi 1.4.1-incubating-bin
Spark 3.1.2.18-bin-netease
Impala 3.4.0-7.1.1-hive-2.1.1
Elasticsearch 6.8.23
Ranger 2.1

4 企业级增强特性

4.1 新增组件

Kyuubi

1.4.1.png

EasyEagle

1.4.2.png

HDFS MetaService

1.4.3.png

4.2 开源组件功能增强

Impala

1.4.4.png

Spark

1.4.5.png

HDFS

1.4.6.png

Hive

1.4.7.png