欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

sparksql/dataframe二次排序,多字段排序问题

时间:2023-04-27

问题:spark sql / dataframe 日常操作中经常需要全局二次排序或者说针对多个字段排序然后输出到一个文件中,直接使用 order by 达不到想要的结果,只是分区内有序。

解决:在sql中使用

distribute by A_字段 sort by A_字段,B_字段

如果是dataframe,就先将dataframe注册为临时表,再使用sql

df.createOrReplaceTempView("temp_tb")spark.sql("select * from temp_tb distribute by A_字段 sort by A_字段, B_字段") .repartition( 1) .write.mode("overwrite") .option("header", "true") .option("mapreduce.fileoutputcommitter.marksuccessfuljobs","false") .csv(outputLocation)

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。