Hive数据源登记

该数据源登记的页面如下图:

Hive数据源登记 - 图1

Hive各版本配置的内容稍有不同,下面分开介绍。

EasyData hive 2.1 - hadoop 2.9.2版本Hive数据源登记过程中,需要填写如下信息:

  • 数据源名称:Hive数据源的名称
  • 数据源标识:仅允许包含英文小写、数字、下划线,只允许英文小写开头,最大长度为64个字符。平台内唯一,保存数据源后数据标识不可修改
  • 归属项目:由于元数据中心是项目组级别,因此此处支持选择项目组下的项目,默认为当前项目名称
  • 归属逻辑数据源:批量登记的数据源选择归属逻辑数据源时,请勿选择已添加一个生产数据源和一个测试数据源的逻辑数据源。否则可能会导致引用该逻辑数据源的线上任务执行失败。
  • 负责人:默认为当前创建人员
  • 管理员:同负责人,有该数据源的管理权限,包括编辑、设置“源系统账号映射”。可在安全中心为自己或其他人设置该数据源的使用权限
  • 版本:此处选择EasyData hive 2.1 - hadoop 2.9.2
  • 连接方式:基于HiveMetaStore连接数据
  • 数据源连接:根据jdbc:hive2://host:port/database 格式进行填写
  • 认证方式:支持用户密码认证Simple认证Kerberos认证三种认证方式
    • 选择用户密码认证则需要填写用户名密码
      • 用户名:填写访问数据源的用户名
      • 密码:填写用户名所对应的密码
    • 选择Simple认证则只需要填写用户名
      • 用户名:选填,填写访问数据源的用户名
    • 选择Kerberos认证则需要上传keytabkrb5.conf文件以及填写Principal
      • keytab:上传.keytab文件
      • krb5.conf:上传.conf文件
      • Principal:填写Kerberos主体
  • 扩展参数:Hive扩展参数配置,比如namenode的principal、配置高可用参数等,根据实际情况进行配置,示例如下:

    {"fs.defaultFS":"hdfs://bdms-test","hadoop.security.authentication":"kerberos","hadoop.security.authorization":true,"dfs.nameservices":"bdms-test","dfs.namenode.rpc-address.bdms-test.nn1":"hzadg-bdms-3.server.163.org:8020","dfs.namenode.rpc-address.bdms-test.nn2":"hzadg-bdms-4.server.163.org:8020","dfs.namenode.rpc-address.bdms-test.nn3":"hzadg-bdms-5.server.163.org:8020","dfs.namenode.rpc-address.bdms-test.nn4":"hzadg-bdms-6.server.163.org:8020","dfs.ha.namenodes.bdms-test":"nn1,nn2,nn3,nn4","dfs.namenode.kerberos.principal":"nn/_HOST@BDMS.163.COM","dfs.client.failover.proxy.provider.bdms-test":"org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider"}
  • metastoreUris:根据thrift://ip1:port1,thrift://ip2:port2 格式进行填写

  • defaultFS:根据hdfs://ip:port 格式进行填写
  • metastoreDB连接:根据jdbc:mysql://ServerIP:Port/Database 格式进行填写
  • DB连接用户名:存储Hive metastore的数据库用户名,当前默认该数据库类型为MySQL,此处为连接MySQL的用户名
  • DB连接密码:连接MySQL的用户名所对应的密码
  • 自定义属性:支持添加数据源的其它配置

神策Hadoop2.6.0 - CDH5.12.1星环TDH5.2.2版本Hive数据源登记过程中,需要填写如下信息:

  • 数据源名称:Hive数据源的名称
  • 数据源标识:仅允许包含英文小写、数字、下划线,只允许英文小写开头,最大长度为64个字符。平台内唯一,保存数据源后数据标识不可修改
  • 归属项目:由于元数据中心是项目组级别,因此此处支持选择项目组下的项目,默认为当前项目名称
  • 负责人:默认为当前创建人员
  • 管理员:同负责人,有该数据源的管理权限,包括编辑、设置“源系统账号映射”。可在安全中心为自己或其他人设置该数据源的使用权限
  • 版本:此处选择Sensors Data-Hadoop2.6.0 - CDH5.12.1TDH5.2.2
  • 连接方式:基于HiveServer2连接数据
  • 数据源连接:根据jdbc:hive2://host:port/database 格式进行填写
  • defaultFS:根据hdfs://ip:port 格式进行填写
  • 认证方式:支持用户密码认证Simple认证Kerberos认证三种认证方式
    • 选择用户密码认证则需要填写用户名密码
      • 用户名:填写访问数据源的用户名
      • 密码:填写用户名所对应的密码
    • 选择Simple认证则只需要填写用户名
      • 用户名:选填,填写访问数据源的用户名
    • 选择Kerberos认证则需要上传keytabkrb5.conf文件以及填写Principal
      • keytab:上传.keytab文件
      • krb5.conf:上传.conf文件
      • Principal:填写Kerberos主体
  • 自定义属性:支持添加数据源的其它配置

Sensors Data-Impala 3.2.18.6版本Hive数据源登记过程中,需要填写如下信息:

  • 数据源名称:Hive数据源的名称
  • 数据源标识:仅允许包含英文小写、数字、下划线,只允许英文小写开头,最大长度为64个字符。平台内唯一,保存数据源后数据标识不可修改
  • 归属项目:由于元数据中心是项目组级别,因此此处支持选择项目组下的项目,默认为当前项目名称
  • 负责人:默认为当前创建人员
  • 管理员:同负责人,有该数据源的管理权限,包括编辑、设置“源系统账号映射”。可在安全中心为自己或其他人设置该数据源的使用权限
  • 版本:此处选择Sensors Data-Impala 3.2.18.6
  • 连接方式:基于Impala JBDC连接数据
  • 数据源连接:根据jdbc:hive2://host:port/database 格式进行填写
  • 认证方式:当前Sensors Data-Impala 3.2.18.6只支持Simple认证,填写访问数据源的用户名即可
  • 自定义属性:支持添加数据源的其它配置

1.1.0-CDH5.14.0版本Hive数据源登记过程中,需要填写如下信息:

  • 数据源名称:Hive数据源的名称
  • 数据源标识:仅允许包含英文小写、数字、下划线,只允许英文小写开头,最大长度为64个字符。平台内唯一,保存数据源后数据标识不可修改
  • 归属项目:由于元数据中心是项目组级别,因此此处支持选择项目组下的项目,默认为当前项目名称
  • 负责人:默认为当前创建人员
  • 管理员:同负责人,有该数据源的管理权限,包括编辑、设置“源系统账号映射”。可在安全中心为自己或其他人设置该数据源的使用权限
  • 版本:此处选择1.1.0-CDH5.14.0
  • 连接方式:基于HiveServer2连接数据
  • 数据源连接:根据jdbc:hive2://host:port/database 格式进行填写
  • 传输协议:支持HDFS协议WebHDFS协议
  • defaultFS:根据hdfs://ip:port 格式进行填写
  • 扩展参数:Hive扩展参数配置,例如高可用配置参数,高可用配置参数格式可参考模板,模版可在产品页面上查看
  • 认证方式:支持用户密码认证Simple认证Kerberos认证三种认证方式
    • 选择用户密码认证则需要填写用户名密码
      • 用户名:填写访问数据源的用户名
      • 密码:填写用户名所对应的密码
    • 选择Simple认证则只需要填写用户名
      • 用户名:选填,填写访问数据源的用户名
    • 选择Kerberos认证则需要上传keytabkrb5.conf文件以及填写Principal
      • keytab:上传.keytab文件
      • krb5.conf:上传.conf文件
      • Principal:填写Kerberos主体
  • 用户名:存储Hive metastore的数据库用户名,当前默认该数据库类型为MySQL,此处为连接MySQL的用户名
  • 密码:连接MySQL的用户名所对应的密码
  • 自定义属性:支持添加数据源的其它配置
唯一性校验规则:
1)若版本为EasyData hive 2.1 - hadoop 2.9.2,则以metastoreDB连接作为唯一性校验;
2)若为其余版本,则以metastoreDB连接作为唯一性校验。