总结一下工作中常用的hive去重方法:
记录去重:对于相同的记录,可以使用distinct或者group by去重复记录
部分去重:对某些字段的值去重,随机抓一条记录。
使用排名函数row_number
使用max或者min等聚合函数也可以实现去重效果。
实际工作中,应该以业务需求为准选择合适的去重方法。
总结一下工作中常用的hive去重方法:
记录去重:对于相同的记录,可以使用distinct或者group by去重复记录
部分去重:对某些字段的值去重,随机抓一条记录。
使用排名函数row_number
使用max或者min等聚合函数也可以实现去重效果。
实际工作中,应该以业务需求为准选择合适的去重方法。
Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:
部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。