最佳答案
我有一个 Spark DataFrame (使用 PySpark 1.5.1) ,希望添加一个新列。
我尝试过以下方法,但没有成功:
type(randomed_hours) # => list
# Create in Python and transform to RDD
new_col = pd.DataFrame(randomed_hours, columns=['new_col'])
spark_new_col = sqlContext.createDataFrame(new_col)
my_df_spark.withColumn("hours", spark_new_col["new_col"])
使用这个也有错误:
my_df_spark.withColumn("hours", sc.parallelize(randomed_hours))
那么,如何使用 PySpark 向现有 DataFrame 添加一个新列(基于 Python 向量)呢?