数据来源:https://www.heywhale.com/mw/project/6201173f7a7c9a0017c3236a/dataset
一、明确问题春节档排片地域分布 二、数据清洗
通过excel的筛选功能发现:有些场次是空值,将空值筛选出来如下:
再看看这些电影的其它城市的场次数据:
对于缺失的数值到底是多少是不知道的,再看其它城市的情况,场次数值也比较小,因此这里对于缺失的电影做删除处理。
采用群组分析方法,将数据按城市水平分组,并对比。
研究思路
数据导入Navicat—通过where语句删除不研究的电影—通过GROUP BY进行数据—将同组一个星期的所有场次加和输出—Excel绘制堆积条形图
编程实现
SELECt 城市,电影,SUM(场次) AS 场次FROM 春节档地域分布WHERe 电影 NOT IN ('CLevel','CityLevel','702084|带你去见我妈','708119|独家头条','697410|魔法精灵')GROUP BY 城市,电影
下面是部分结果:
将数据导出,进行后续excel的绘图分析。
Excel绘制堆积条形图
利用数据透视表,将每个电影在每类城市的场次一一展现如下:
根据上表绘制堆积条形图如下:
结论
第一,无论是哪类城市,长津湖之水门桥被安排的场次都是最多的。第二、第三分别是这个杀手不太冷静、奇迹.笨小孩。
第二,场次与城市类别无线性关系。一般电影场次集中于二、三、四线城市,这可能与一线城市的居民大多数时间都在工作上和五线城市的居民消费水平不高有关。