让 Pandas.read_csv 将空值读取为空字符串而不是 nan

小开

最佳答案

我在这里添加了一个选项:

Https://github.com/pydata/pandas/issues/1450

与此同时，result.fillna('')应该做你想做的

编辑: 在开发版本(最终版本为0.8.0)中，如果指定 na_values的空列表，则结果中的空字符串将保持为空字符串

小开

看完其他的回答和评论后，我仍然感到困惑。但是现在的答案似乎更简单，所以，给你。

自从 Panda 0.9版(从2012年开始)以来，你可以通过简单地设置 keep_default_na=False来使用空单元格读取你的 csv 文件，这些空单元格被解释为空字符串:

pd.read_csv('test.csv', keep_default_na=False)

这个问题在

Read _ csv · 第1657期中更一致的 na _ value 处理

这是在2012年8月19日为熊猫0.9版本

错误: 更加一致的 na _ values # 1657 · anda-dev/anda@d9abf68

小开

我们在《熊猫 read_csv()》中有一个简单的论点:

用途:

df = pd.read_csv('test.csv', na_filter= False)

小开

pandas默认定义为缺失值，而 read_csv()可以在这里找到。

import pandas
default_missing = pandas._libs.parsers.STR_NA_VALUES
print(default_missing)

输出

{'', '<NA>', 'nan', '1.#QNAN', 'NA', 'null', 'n/a', '-nan', '1.#IND', '#N/A N/A', 'N/A', 'NULL', 'NaN', '-1.#IND', '-1.#QNAN', '#NA', '#N/A', '-NaN'}

有了这个，你就可以选择退出。

import pandas
default_missing = pandas._libs.parsers.STR_NA_VALUES
default_missing = default_missing.remove('')
default_missing = default_missing.remove('na')


with open('test.csv', 'r') as csv_file:
pandas.read_csv(csv_file, na_values=default_missing)

小开

如果只想为一列保留空字符串，那么将 str定义为列转换器(dtypes不起作用) :

pd.read_csv('test.csv', converters={'column_name': str})