如何在火花数据帧中将字符串类型的列转换为 int 格式?

我有数据框在火花。它的一些数字列包含 nan,所以当我读取数据并检查数据框架的模式时,这些列将具有 string类型。

如何将它们更改为 int 类型。我将 nan值替换为0,并再次检查模式,但是它也显示了这些列的字符串类型:

data_df = sqlContext.read.format("csv").load('data.csv',header=True, inferSchema="true")
data_df.printSchema()
data_df = data_df.fillna(0)
data_df.printSchema()

我的数据是这样的: enter image description here

这里的列 Playsdrafts包含整数值,但由于这些列中存在 nan,因此它们被视为字符串类型。

259018 次浏览
from pyspark.sql.types import IntegerType
data_df = data_df.withColumn("Plays", data_df["Plays"].cast(IntegerType()))
data_df = data_df.withColumn("drafts", data_df["drafts"].cast(IntegerType()))

可以为每个列运行循环,但这是将字符串列转换为整数的最简单方法。

在用 0代替 NaN之后,您可以使用 cast(作为 int) ,

data_df = df.withColumn("Plays", df.call_time.cast('float'))

另一种方法是,如果有多个字段需要修改,则使用 structField。

例如:

from pyspark.sql.types import StructField,IntegerType, StructType,StringType
newDF=[StructField('CLICK_FLG',IntegerType(),True),
StructField('OPEN_FLG',IntegerType(),True),
StructField('I1_GNDR_CODE',StringType(),True),
StructField('TRW_INCOME_CD_V4',StringType(),True),
StructField('ASIAN_CD',IntegerType(),True),
StructField('I1_INDIV_HHLD_STATUS_CODE',IntegerType(),True)
]
finalStruct=StructType(fields=newDF)
df=spark.read.csv('ctor.csv',schema=finalStruct)

产出:

之前

root
|-- CLICK_FLG: string (nullable = true)
|-- OPEN_FLG: string (nullable = true)
|-- I1_GNDR_CODE: string (nullable = true)
|-- TRW_INCOME_CD_V4: string (nullable = true)
|-- ASIAN_CD: integer (nullable = true)
|-- I1_INDIV_HHLD_STATUS_CODE: string (nullable = true)

之后:

root
|-- CLICK_FLG: integer (nullable = true)
|-- OPEN_FLG: integer (nullable = true)
|-- I1_GNDR_CODE: string (nullable = true)
|-- TRW_INCOME_CD_V4: string (nullable = true)
|-- ASIAN_CD: integer (nullable = true)
|-- I1_INDIV_HHLD_STATUS_CODE: integer (nullable = true)

这个过程稍微有点长,但优点是可以完成所有必需的字段。

需要注意的是,如果只有必需的字段被分配数据类型,那么结果数据框将只包含那些被更改的字段。