普通用户入门

普通用户入门

本文将从一个很小的案例来说明如何在本平台上完成一个“离线开发”任务的开发，来帮助普通用户快速上手。

这里，假设当前用户已经由项目负责人添加到一个项目中，并授予相关的功能权限、数据权限、队列权限。

1）功能权限，表示当前用户可以访问哪些页面的访问或部分功能的操作权限。 2）数据权限，表示当前用户可以在哪些hive库建表、读写哪些表等。 3）队列权限，表示操作hive库表时，可使用哪些队列的CPU和内存在完成代码运算。

当前案例描述： 1）创建hive表t1，并通过上传文件方式，完成该表的数据录入 2）创建hive表t2，再通过线上调度任务，完成t1表到t2表数据的定时写入

涉及产品： 1）自助分析 2）离线开发 3）数据地图 4）任务运维中心上述产品，都可在页面左上角导航入口，点击的侧边弹框中查看（因不同客户购买的产品有差异，具体以购买的为准）。

步骤演示（共12步）：

1）在“自助分析”创建第一个hive表

对于新用户，进入“自助分析”时，需要先“新建Query”。Query用于用户来编辑SQL代码，并运行SQL。

完成Query创建后，在Query中写入建表语句。本案例的代码如下，表示在poc_ods库，创建一个表ods_employee_info_upload，textfile格式，用“,”分隔。

注意： 当前用户需要需要根据自己所在项目，把代码中的“pos_ods”替换为自己有建表权限的库。此外，表名有可能已经存在，因此可在表名后增加一些字母或数字等。

CREATE TABLE poc_ods.ods_employee_info_upload(
  `employee_id` string comment '员工工号',
  `employee_name` string comment '员工名称')
COMMENT '员工信息表'
row format delimited fields terminated by ',' stored as textfile

完成SQL之后，点击如下图中的红框的“运行”，完成表的新建。该表用于后续通过文件上传方式将数据导入进去。

2）用户本地构造一个csv格式的文件

如下图，按照上一步骤中表的表结构，在csv文件中，构造2条记录：

3）在“数据管理-个人文件”上传csv文件

如下图，为将本地的csv文件，上传到hdfs集群上个人的文件目录下：

4）在“自助分析”将csv文件移动到第一个hive表的目录下

在“自助分析”的Query下，在Query中写入将hdfs文件移动到hive表的目录下的代码。本案例的代码如下，其中的“’/user/bdms_xuhua01/1.csv’ ”，表示上一步中上传的csv文件的路径。

注意： 当前用户实际在操作中，可在“数据管理-个人文件”中查看自己的路径。

load data inpath '/user/bdms_xuhua01/1.csv' 
overwrite into table poc_ods.ods_employee_info_upload;

如下图，为用户自行查看自己的文件地址：

5）在“数据地图”预览数据

如下图，为在数据地图搜索“ods_employee_info_upload”表：

如下图，为在数据地图表详情中预览数据，显示数据已经导入：

6）在“离线开发”创建第二个hive表

在前面几步中，已经完成第一个hive表的创建和数据导入。从这一步开始，会再创建第二个hive表，并通过线上调度任务，定时从第一个hive表导入到第二个hive表。

如下图，为“离线开发”的“新建离线表”入口：

在“新建离线表”中，在“demo”库下，新建“dim_employee_info”表，表结构如下图：

注意： 当前用户在操作时，需要选择自己有权限的库。此外，表名有可能已经存在，可能执行“新建”时会失败，因此可在表名后增加一些字母或数字等。

6）在“离线开发”创建多节点任务

在离线开发页面，左侧为任务列表，当前用户可在“默认文件夹”下上右键-“新建任务”，在弹框中创建自己的第一个任务。任务的命名，建议和上一步创建的第二个hive表同名。

如下图，为“默认文件夹”右键。

如下图，为创建一个任务名称为“dim_employee_info”的多节点任务：

7）在多节点任务中拖入一个“SQL”节点

完成任务创建后，会进入到任务的开发模式的画布中，默认仅包含一个和任务同名的“虚拟节点”。

在右侧节点列表中，点击“SQL”节点，并拖入中间画布区域，并重命名节点。命名建议按照“dml_”开头，并追加上多节点任务的名称。

如下图，为在任务中增加了一个名称为“dml_dim_employee_info”的“SQL”节点。

接着，将鼠标移动到“SQL”节点，会出现连接点，点击后移动到“虚拟节点”，也会出现连接点，松开鼠标，完成节点上下游依赖关系构建。

8）在“SQL”节点内写入加工SQL

完成“SQL”节点新建后，可双击“SQL”节点，在弹框中，编写hive sql，完成从本案例第一个hive表到第二个hive表的数据加工逻辑。

示例代码如下，当前用户请根据实际自己创建的两个表，做相应修改。

其中的’${azkaban.flow.1.days.ago}’表示azkaban的参数，表示昨天，格式如：“2021-06-01”。此例子表示，将每天加工的数据，写入到昨天的日期分区下，完成数据归档。

INSERT OVERWRITE TABLE demo.dim_employee_info
PARTITION (ds='${azkaban.flow.1.days.ago}')
select
  employee_id,
  employee_name
from
  poc_ods.ods_employee_info_upload;