Hive-分组之后取前n个
1. 统计国家每个省份出现次数最高的5个城市的名称
直观思维来考虑:
把 数据组织成:
国家 省份 出现次数(倒序) 城市
row_number() 根据partition by 生成次序 ,rank_code, 然后用rank_code 做限制
2. sql 程序为:
select country_name, province_name, city_name, cnt_num, row_number() over (partition by country_name, province order by cnt_num desc) rank_code from table where rank_code <= 5
3. 参考文章链接: hive分组排序 取top N