1. 概述

本文为您介绍数据关联、合并、清洗、聚合、扩展、行转列、列转行等数据处理操作。

2. 前提

您已完成数据输入的配置,请参见数据输入

3. 关联

将两张表关联为一张宽表,并进行需要的数据处理,关联的数据在列上扩展。

(1)建立两表间的关联关系有两种方式:

  • 将要关联的表直接拖入已有的表中,选择关联的图标,建立两张表的关联关系。
    数据处理 - 图1

  • 点击已有的表,弹出“+”按钮,点击按钮,选择“关联”,将要关联的表拖入关联节点,建立两张表的关联关系。
    数据处理 - 图2

(2)建立关联关系后,选择两表要关联的字段。
数据处理 - 图3

  • 关联关系包括 等于、不等于、小于、小于等于、大于、大于等于,可添加多个关联字段。
  • 关联类型包括 内部(内关联)、左侧(左关联)、右侧(右关联)、完全外部(外关联)。

      - 内关联:生成的表将包含与两个表均匹配的值。
      - 左关联:生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项。当左侧表中的值在右侧表中没有对应匹配项时,将在数据视图中看到null值。
      - 右关联:生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项。当右侧表中的值在左侧表中没有对应匹配项时,将在数据视图中看到null
      - 外关联:生成的表将包含两个表中的所有值。当任一表中的值在另一个表中没有匹配项时,将在数据视图中看到null值。
  • 两个关联的表中如果有相同的字段,将自动对字段进行重命名。

(3)您在设置关联关系与关联类型之后,可在右侧查看字段试图和数据视图。

4. 合并

将两张表合并为一张表,合并的数据在行上扩展。

(1)建立两表间的合并关系有两种方式:

  • 将要合并的表直接拖入已有的表中,选择合并的图标,建立两张表的合并关系。
    数据处理 - 图4

  • 点击已有的表,弹出“+”按钮,点击按钮,选择“合并”,将要合并的表拖入合并节点,建立两张表的合并关系。
    数据处理 - 图5 数据处理 - 图6

(2)建立合并关系后,可以选择合并主表,主表的结构将作为合并的依据,与主表一致的字段将自动合并。
数据处理 - 图7

  • 字段视图中,展示主表的字段。同样点击字段的下拉按钮,可以对字段进行设置,包括:重命名、转换数据类型、数据筛选、复制字段、隐藏以及新建计算字段。
  • 数据视图中,可以展示两张表合并后的列和数据。主表中的字段和数据将全部展示,次表中相同的字段对应的数据将在行上进行扩展,不同的字段与数据不会展示。

5. 清洗

去掉数据表中不需要的列和行,并新增需要的列和行。点击已有的表,弹出“+”按钮,点击按钮,选择“清洗”。
数据处理 - 图8

  • 重命名:点击字段的下拉按钮,选择“重命名”,可以对字段进行重新命名。
  • 隐藏:点击字段的下拉按钮,选择“隐藏”,字段与数据将不会显示在数据视图中。
    download (3).png

  • 转换数据类型:点击字段的下拉按钮,选择“转换数据类型”,可以将字段类型转换为整数、小数、字符串、日期、日期时间。

  • 数据筛选:点击字段的下拉按钮,选择“数据筛选”,手动输入要添加的项,可以选择包含所选项以及排除所选项,点击“确定”后,满足条件的结果将会展示在数据视图中。
  • 复制字段:点击字段的下拉按钮,选择“复制字段”,新复制的字段与数据将会展示在数据视图中。

6. 聚合

根据选定的维度,在指定的度量上做数据汇总或平均。点击已有的表,弹出“+”按钮,点击按钮,选择“聚合”。
数据处理 - 图10

  • 分组:拖入字段,数据视图中将根据字段进行分组展示。
    数据处理 - 图11

  • 聚合:拖入字段,可以选择聚合方式。
    数据处理 - 图12

    • 拖入维度字段时,可供选择的聚合方式包括计数和去重计数;
    • 拖入度量字段时,可供选择的聚合方式包括求和、平均值、中位数、计数、去重计数、最小值、最大值、百分位;
    • 您也可以选择自定义聚合。

7. 采样

根据选定的维度进行分组,通过采样获取每组特定行数的数据,可指定相应的度量进行升序/降序排列(默认升序)。

数据处理 - 图13

  • 分组:拖入字段,数据视图中将根据字段进行分组展示。
    数据处理 - 图14

  • 排序:拖入字段,可以选择排序方式。
    数据处理 - 图15

  • 采样:选择采样规模大小,例中设置为8,展示每个分组中按排序方式前8行数据。
    数据处理 - 图16

8. 扩展

通过分隔符将类似于标签的数据解析成多行,以便后续进行数据分析。

(1)点击已有的表,弹出“+”按钮,点击按钮,选择“扩展”。
数据处理 - 图17

  • 扩展字段:拖入需要进行扩展的字段
    数据处理 - 图18

  • 选择分隔符,可选择快捷分隔符或输入自定义分隔符

(2)示例,若有原始数据如下:
前.png

选择扩展字段为标签,扩展符为“,”,扩展后效果如下:
后.png

9. 行转列

将表中具有相同值的多行数据转换成一个值的多列数据。点击已有的表,弹出“+”按钮,点击按钮,选择“行转列”。
数据处理 - 图21

  • 转置字段:拖入需要转置的字段。
    行转列.png

  • 聚合:拖入字段,可以选择聚合方式。

    • 拖入维度字段时,可供选择的聚合方式包括计数和去重计数;
    • 拖入度量字段时,可供选择的聚合方式包括求和、平均值、中位数、计数、去重计数、最小值、最大值、百分位;
    • 您也可以选择自定义聚合。
  • 行转列效果图示意:
    行转列.png

10. 列转行

将表中同一个值对应的多个列,转换为多行数据。点击已有的表,弹出“+”按钮,点击按钮,选择“列转行”。
数据处理 - 图24

  • 转置值1:拖入需要转置的字段。
    数据处理 - 图25

  • 列转行效果图示意:
    截屏2022-05-27 16.56.32.png

11. 后续步骤

数据处理完成后,您可以将处理后的数据导出。请参见输出数据。