import pandas as pd
# 数据读取df=pd.read_csv('data/pandas/beijing_tianqi/beijing_tianqi_2018.csv')df.head()
# 数据处理df["bWendu"]=df["bWendu"].str.replace("℃","").astype('int32')df["yWendu"]=df["yWendu"].str.replace("℃","").astype('int32')df.head()
常用汇总函数# 提取所有数字列的统计结果df.describe()
# 查看单个列df['bWendu'].mean() #平均df['bWendu'].max() #最大df['bWendu'].min() #最小
重复项判断,按值计数# 唯一去重df['fengxiang'].unique()
# 按值统计df['fengxiang'].value_counts()
# 判断是否有重复项df['bWendu'].duplicated().any()df['ymd'].duplicated().any()
# 去重df['bWendu'].drop_duplicates()
# 显示重复项df[df['bWendu'].duplicated() == True]
相关系数和协方差# 协方差df.cov()
# 相关系数df.corr()