INFO-并发数实现 与上游负载压力

数据传输
数据传输
查看位置
SPARK UI 界面 driver-err日志

INFO-并发数实现与上游负载压力 - 图1 Split Number => 总的任务量(任务区间)当前传输任务的总任务数

Partion num => 当前并发 (同一时刻可以启动的最大线程数)

Partion num 每完成一个线程后 回拉起一个新的线程继续完成 Split Number 直到完全结束 比如10000/400 (直到任务结束 剩余总任务量小于partition number 完成剩余的线程前 都会有这么多的进程执行)

使用示例
场景一、设置多并发不生效
Partion num 大于 Split Number

建议给切分字段设置索引/建议使用数值型字段切分

需要注意:Split Number与数据量 和 切分键的均衡程度有关

场景二、并发数开的大,上游负载压力过高
这个得看源端的 日志 和数据库的DBA沟通

例: 任务: 100个并发 如果其他任务也是从这个源拉取并且同一时间开的很大的并发, 切分区间也够的话 大概率是会造成压力的

如果要求写入速率可以建议均衡下任务 和上游DBA要个并发压力的评估下

不完全要求写入速率 就建议把并发调小 可以适当给下资源(driver、exec)


作者:华柄印