INFO-指标页面各数据加载很慢,但impala查询执行时间很短
适用模块/版本
指标平台
具体说明
背景:客户反馈指标平台,点击指标,加载数据很慢,客户自己排查了下impala相关查询,发现impala侧查询耗时很短,反馈给网易侧排查。指标平台版本:2.3.1,因客户需要配置doris数据源作为加速数据源,因此先升级后再继续排查
Ticket-35965: 【中交信捷】指标平台,点击指标平台,页面数据加载很慢 https://overmind-project.netease.com/v2/my_workbench/ticketdetail/Ticket-35965
指标数据源:
自助分析查询结果比对:
开发侧排查大致流程:
1、经过日志排查,用户 15:06:22 发起数据查询请求后,后端ms级接收请求(15:06:22)并调用DC,DC ms级接收请求(15:06:22)并调用DA,但是等到DA返回结果中间过了一大段时间;推测主要请求卡点可能在DA
2、排查DA日志
DA查询Impala,在开始数据查询之前间隔了40s,并且时延无波动基本稳定在40s;只有/test获取元数据信息有延时现象,/query查询sql是正常的
猜测可能与超时时间有关,才能做到如此固定的时延,环境配置中某些逻辑可能设置了固定的超时时间;
3、分析DA代码
根据日志打印的时间线,推测最有可能的耗时逻辑
此处逻辑为impala数据源kerberos认证逻辑;同时kerberos认证逻辑有缓存逻辑,每次/query查询SQL数据之前必会有一次/test获取元数据信息,可以解释为什么SQL查询没有延时;
4、kerberos认证排查
DA容器里输入kinit命令,会一直没有输出阻塞;
等到报错,中间正好40秒,可以确定是kerberos认证出的问题;
开启DEBUG模式,执行kinit命令,排查DEBUG日志
发现卡在host解析这一步
5、DA容器内hosts检查
正确的是 nn46.cttic.cn;
容器配的hosts是 dn46.cttic.cn;
问题最后原因定位为:DA容器环境中hosts域名配置错误
使用示例
https://study.sf.163.com/documents/read/service_support/date20250213145623.md 参考这个文档将错误的主机名改成正确配置
以上内容对您是否有帮助?