1. 概述

承接数据连接,数据准备(轻量ETL)可以将数据源表中的数据进行清洗、聚合、关联等操作,并将加工后的数据输出,建立数据模型。
流程图 (6).jpg

2. 名词解释

画布:节点、数据流所处的操作空间,您可以通过连接在这个空间进行编辑操作。
连接:两个节点之间的线段,代表输入关系,连线左侧节点是右侧节点的输入。
节点:节点是用来标注数据的某一个处理过程 ,通过节点编排数据流实现数据处理。
视图:计算机数据库中的视图,是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。
发布:意味着将流程从开发模式提交到线上模式,对数据可以进行后续建模处理。

3. 新建数据准备

以创作者身份进入本产品,依次点击「数据源>数据准备>“+”>新建数据准备>选择数据连接」,如下图所示:
数据准备1 (1).jpg

4. 工作区

数据准备的工作区分为三个区域,如下图所示: 入门指南 - 图3

  • 左侧为数据连接,您可以在此添加数据连接;
  • 右上为画布,您可以通过连接和节点在这个空间进行编辑操作;
  • 右下为节点视图,点击具体的节点即可展示,用户可以在此进行节点内操作或通过视图查看数据。

4.1 画布操作

  • 从左侧拖入表生成输入节点
    入门指南 - 图4

  • 从节点新建节点
    入门指南 - 图5

  • 拖拽生成关联节点
    入门指南 - 图6 入门指南 - 图7

  • 拖拽建立连接
    入门指南 - 图8

4.2 视图

在数据准备中,一共提供了三种节点内视图,分别为字段视图、统计视图和数据视图。

  • 字段视图:仅展示字段,不展示数据。除输入、输出节点外,支持新增计算字段,支持右击字段唤起清洗:重命名、转换数据类型、值替换、数据筛选、复制字段与隐藏。
    非输出-字段视图.png
  • 统计视图:通过柱状图详细地展示了每个字段的统计信息:数值、行数与 占比。用户可以通过排序更直观地观察数据的形状。
    统计视图.png 在输入和输出节点,用户只能查看各个字段的统计信息。
    查看统计.png 除输入和输出节点,用户可以新建计算字段,单击单个值进行值替换,在更多中进行值筛选和值替换。
    值替换.png
  • 数据视图:以二维方式展示详细的数据信息。
    数据视图.png