欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

hivejoin时主表空值过多产生数据倾斜问题

时间:2023-04-16

在各个表做关联的时候,如果主表过大且某个值过多再去join其他表很容易产生数据倾斜问题

我们的思路就是要将数据均匀的分配到每个任务上

这里我们以空值为例,使用rand(1)即可均匀分配数据

select * from(select *,case when department in ('-999','') then rand(1) else department end as department2 from profile_v2.detail_member_user_info_base) aLEFT JOIN profile_v2.member_user_info_red_ticket b ON a.department2 = b.store_id;

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。