我有数据框在火花。它的一些数字列包含 nan,所以当我读取数据并检查数据框架的模式时,这些列将具有 string类型。
如何将它们更改为 int 类型。我将 nan值替换为0,并再次检查模式,但是它也显示了这些列的字符串类型:
data_df = sqlContext.read.format("csv").load('data.csv',header=True, inferSchema="true")
data_df.printSchema()
data_df = data_df.fillna(0)
data_df.printSchema()
这里的列 Plays和 drafts包含整数值,但由于这些列中存在 nan,因此它们被视为字符串类型。