我有数据框在火花。它的一些数字列包含 nan
,所以当我读取数据并检查数据框架的模式时,这些列将具有 string
类型。
如何将它们更改为 int 类型。我将 nan
值替换为0,并再次检查模式,但是它也显示了这些列的字符串类型:
data_df = sqlContext.read.format("csv").load('data.csv',header=True, inferSchema="true")
data_df.printSchema()
data_df = data_df.fillna(0)
data_df.printSchema()
这里的列 Plays
和 drafts
包含整数值,但由于这些列中存在 nan
,因此它们被视为字符串类型。