适用模块/版本

指标平台

具体说明

背景:客户反馈指标平台,点击指标,加载数据很慢,客户自己排查了下impala相关查询,发现impala侧查询耗时很短,反馈给网易侧排查。指标平台版本:2.3.1,因客户需要配置doris数据源作为加速数据源,因此先升级后再继续排查

Ticket-35965: 【中交信捷】指标平台,点击指标平台,页面数据加载很慢 https://overmind-project.netease.com/v2/my_workbench/ticketdetail/Ticket-35965

指标数据源:

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图1

自助分析查询结果比对:

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图2

开发侧排查大致流程:

1、经过日志排查,用户 15:06:22 发起数据查询请求后,后端ms级接收请求(15:06:22)并调用DC,DC ms级接收请求(15:06:22)并调用DA,但是等到DA返回结果中间过了一大段时间;推测主要请求卡点可能在DA

2、排查DA日志

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图3

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图4

DA查询Impala,在开始数据查询之前间隔了40s,并且时延无波动基本稳定在40s;只有/test获取元数据信息有延时现象,/query查询sql是正常的

猜测可能与超时时间有关,才能做到如此固定的时延,环境配置中某些逻辑可能设置了固定的超时时间;

3、分析DA代码

根据日志打印的时间线,推测最有可能的耗时逻辑

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图5

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图6

此处逻辑为impala数据源kerberos认证逻辑;同时kerberos认证逻辑有缓存逻辑,每次/query查询SQL数据之前必会有一次/test获取元数据信息,可以解释为什么SQL查询没有延时;

4、kerberos认证排查

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图7

DA容器里输入kinit命令,会一直没有输出阻塞;

等到报错,中间正好40秒,可以确定是kerberos认证出的问题;

开启DEBUG模式,执行kinit命令,排查DEBUG日志

INFO-指标页面各数据加载很慢,但impala查询执行时间很短 - 图8

发现卡在host解析这一步

5、DA容器内hosts检查

正确的是 nn46.cttic.cn;

容器配的hosts是 dn46.cttic.cn;

问题最后原因定位为:DA容器环境中hosts域名配置错误

使用示例

https://study.sf.163.com/documents/read/service_support/date20250213145623.md 参考这个文档将错误的主机名改成正确配置