astype()是最常见也是最通用的数据类型转换方法
import pandas as pddf = pd.Dataframe([['liver','E',89,21,24,64], ['Arry','C',36,37,37,57], ['Ack','A',57,60,18,84], ['Eorge','C',93,96,71,78], ['Oah','D',65,49,61,86] ], columns = ['name','team','Q1','Q2','Q3','Q4'])res = df.dtypesdf.Q1.astype('int32').dtypes # dtype('int32')df.astype({'Q1':'int32','Q2':'int32'}).dtypes
结果展示
df
res
扩展
# 以下是一些使用示例:df.index.astype('int64') # 索引类型转换df.astype('int32') # 所有数据转换为int32df.astype({'col1':'int32'}) # 指定字段转指定类型s.astype('int64')s.astype('int64',copy = False) # 不与原数据关联df['name'].astype('object')data['Q4'].astype('float')s.astype('datatime64[ns]') # 转为时间类型data['状态'].astype('bool')
数据类型
df.dtypes会返回每个字段的数据类型及Dataframe整体的类型
如果是Series,需要用s.dtype
import pandas as pddf = pd.Dataframe([['liver','E',89,21,24,64], ['Arry','C',36,37,37,57], ['Ack','A',57,60,18,84], ['Eorge','C',93,96,71,78], ['Oah','D',65,49,61,86] ], columns = ['name','team','Q1','Q2','Q3','Q4'])df.dtypess = pd.Series(['One','Two','Three'])s.dtype
结果展示
df
s
当数据的格式不具备转换为目标类型的条件时,需要先对数据进行处理
例如“89.3%”是一个字符串,要转换为数字,要先去掉百分号:
# 将"89.3%"这样的文本转为浮点数data.rate.apply(lambda x:x.replace('%','')).astype('float')/100
加载数据时可以指定数据各列的类型:
import pandas as pd# 对所有字段指定统一类型df = pd.Dataframe(data, dtype = 'float32')# 对每个字段分别指定df = pd.read_excel(data, dtype = {'team':'string','Q1':'int32'})