产品简介

有数大数据开发及管理平台,是基于开源的Hadoop版本,以及相关自研组件和开源改造的组件,以及网易内部大量业务团队在大数据开发方面积累的经验,形成的一个大数据开发平台。并且在后续内部团队和外部客户的持续使用中,逐步完善。

功能方面: 到目前为止,平台已形成了有十余个子产品的产品矩阵,并针对大数据的开发场景总结出了典型的6大使用阶段:需求输入、数据准备、模型设计、模型开发、质量控制、需求交付,在各个阶段会有相应的子产品完成大数据开发的工作内容。

安全方面: 平台通过认证(Authentication)、授权(Authorization)、审计(Audit)三个方面来保证数据安全。 认证:采用Kerberos完成用户身份认证; 授权:采用角色授权,支持数据、队列、目录、功能权限;基于Ranger实现对hive、hdfs的控制 审计:从资源访问、平台操作、用户访问、项目管理等4个方面跟踪用户行为。

1 产品架构

2.png

2 产品矩阵

产品名称 产品介绍
指标系统 指标系统依托离线开发中心,是指标的统一入口,通过定义原子、派生和复合指标,明确指标业务口径和技术口径,解决指标定义不一致、口径不一致和数据来源不一致的问题,实现规范定义,助力数据模型规范设计。
数据传输 数据传输主要用于多种异构数据源之间的数据交换,可实现各部门业务数据在应用层面的互联互通和信息共享。数据传输采用分布式的架构,可以从容应对大数据量的数据传输需求。
数据测试中心 数据测试中心提供hive表的形态探查和数据比对功能。形态探查可帮助用户发现数据潜在问题,比如主键唯一性、字段空值等。数据比对可帮助用户进行两个表之前字段级别的比较。
模型设计中心 主要提供组织数据、刻画数据、规范约束、效果衡量等能力,用于实现数仓的规范化建模,同时指引数仓建设的方向。该产品支持主题域、表分层、字典集、设计规则、维度、度量等模块的管理,支持数仓建设数据大屏展示。
自助分析 是数据开发人员进行数据自助探查数据的场所,可方便快捷的执行自定义的SQL语句,操作如Hive、Doris、MySQL、Oracle、ClickHouse等数据源的表。也能够实现语句分享、代码共享等。
离线开发 离线开发中心是易数数据生产力平台的基础产品,提供大规模数据存储与计算能力。可选择搭载其它易数产品,完成数据集成、数据研发、数据治理、数据服务等功能,灵活满足客户的各类场景。
数据质量中心 数据质量中心通过事前定义监控规则、事中监控数据的生成过程以及事后评估和问题追溯,围绕完整性、一致性、准确性、有效性和及时性五个方面衡量数据质量,依托离线开发中心的数据质量配置,提升企业数据价值。
数据服务 数据服务提供快速将数据表生成数据 API 的能力,通过应用授权,供外部应用系统调用 API 获取数据,且对 API 进行统一管理和发布,支持一键创建数据抽取任务。
数据地图 数据地图提供数据检索能力,致力于提供易数生态内丰富数据源的检索服务。通过该平台,用户可以以较小成本找到所需数据,无论是 Hive 表或字段、指标,或其它多种数据源。在未来,也会支持 API、有数报告的搜索。
数据资产中心 数仓界的360,可以定量评估数据资产的成本,价值,质量。帮助企业优化存储成本,节约计算资源。精细化的数据生命周期管理,帮助企业更好的管理数据的生产到销毁的整个生命周期。
安全中心 统一的功能权限管理,控制中台子产品的使用权限。对于hive表提供库,表,列级别的权限控制。提供动态脱敏能力,对返回的结果进行脱敏处理。

如下图1.1所示为易数大数据开发及管理平台的产品矩阵图。

1.png

图1.1 产品矩阵

3 产品协同

大数据开发的环节众多,而平台的十余个子产品,则分别用于完成大数据开发的各个环节的工作。易数大数据平台,总结出了典型的6大使用阶段:需求输入、数据准备、模型设计、模型开发、质量控制、需求交付。 |阶段|描述| |—|—| |需求输入|梳理指标需求,并在指标系统完成指标维护| |数据准备|使用数据传输、数据测试中心接入和测试数据| |模型设计|在模型设计中心完成数仓、数据模型的设计| |模型开发|通过自助分析、离线开发完成数据探查、开发| |质量控制|结合数据质量中心实现对产出数据的质量控制| |需求交付|通过数据服务API完成最终数据需求的输出|

产品简介 - 图3