最佳答案
我试图过滤一个 PySpark 数据框架,它将 None
作为一个行值:
df.select('dt_mvmt').distinct().collect()
[Row(dt_mvmt=u'2016-03-27'),
Row(dt_mvmt=u'2016-03-28'),
Row(dt_mvmt=u'2016-03-29'),
Row(dt_mvmt=None),
Row(dt_mvmt=u'2016-03-30'),
Row(dt_mvmt=u'2016-03-31')]
我可以用字符串值正确过滤:
df[df.dt_mvmt == '2016-03-31']
# some results here
但这种做法失败了:
df[df.dt_mvmt == None].count()
0
df[df.dt_mvmt != None].count()
0
但是每个类别都有明确的价值观,这是怎么回事?