FAQ-Impala 与spark 默认字符集不同导致处理结果不一致

问题描述/异常栈

Impala 与spark 默认字符集不同导致处理结果不一致

## Spark 执行
select length("网易"), length("netease");   
2    7

## Impala 默认执行
select length("网易"), length("netease");   
6    7

## Impala 指定 utf8字符集执行
set utf8_mode=true;
select length("网易"), length("netease");   
2    7
解决方案
Impala 执行指定 utf8 字符集
set utf8_mode=true;
问题原因
Spark 仅支持 utf8 字符集,而 Impala 默认未使用 utf8 字符集

作者:李凌威