防止大熊猫将“ NA”解释为字符串中的 NaN

小开

最佳答案

可以使用参数 keep_default_na和 na_values手动设置所有 NA 值医生:

import pandas as pd
from io import StringIO


data = """
PDB CHAIN SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END SP_BEG SP_END
5d8b N P60490 1 146 1 146 1 146
5d8b NA P80377 _ 126 1 126 1 126
5d8b O P60491 1 118 1 118 1 118
"""


df = pd.read_csv(StringIO(data), sep=' ', keep_default_na=False, na_values=['_'])


In [130]: df
Out[130]:
PDB CHAIN SP_PRIMARY  RES_BEG  RES_END  PDB_BEG  PDB_END  SP_BEG  SP_END
0  5d8b     N     P60490        1      146        1      146       1     146
1  5d8b    NA     P80377      NaN      126        1      126       1     126
2  5d8b     O     P60491        1      118        1      118       1     118


In [144]: df.CHAIN.apply(type)
Out[144]:
0    <class 'str'>
1    <class 'str'>
2    <class 'str'>
Name: CHAIN, dtype: object

剪辑

纳-价值观中的所有默认 NA值(从 pandas1.0.0开始) :

缺省 NaN 识别值为[’-1。# IND’,’1。# QNAN’,’1。# IND’,’-1。# QNAN’,’# N/A N/A’,’# N/A’,’N/A’,’n/a’,’NA’,’# NA’，‘ NULL’，‘ NULL’，‘ NaN’,’-NaN’，‘ NaN’,’-NaN’,”]。

小开

对我来说，解决方案来自使用参数 na_filter = False

df = pd.read_csv(file_, header=0, dtype=object, na_filter = False)

小开

设置 keep_default_na参数可以解决这个问题。

下面是一个使用熊猫读取 CSV 文件时保持 NA为字符串值的例子。

data.csv:

country_name,country_code
Mexico,MX
Namibia,NA

返回文章页面

import pandas as pd
data = pd.read_csv("data.csv", keep_default_na=False)
print(data.describe())
print(data)

产出:

       country_name country_code
count             2            2
unique            2            2
top         Namibia           MX
freq              1            1


country_name country_code
0       Mexico           MX
1      Namibia           NA

参考文献:

熊猫文档读取 CSV 文件

小开

这种方法对我很有效:

import pandas as pd
df = pd.read_csv('Test.csv')
co1 col2  col3  col4


a   b    c  d   e
NaN NaN NaN NaN NaN
2   3   4   5   NaN

我复制了这个值并创建了一个列表，这个列表默认被解释为 NaN，然后注释出 NA，我希望这个列表被解释为不是 NaN。这种方法仍然将其他值视为 NaN，但 NA 除外。

 na_values = ["",
"#N/A",
"#N/A N/A",
"#NA",
"-1.#IND",
"-1.#QNAN",
"-NaN",
"-nan",
"1.#IND",
"1.#QNAN",
"<NA>",
"N/A",
#              "NA",
"NULL",
"NaN",
"n/a",
"nan",
"null"]


df1 = pd.read_csv('Test.csv',na_values=na_values,keep_default_na=False )


co1  col2  col3  col4
a     b     c     d     e
NaN  NA   NaN    NA   NaN
2     3     4     5   NaN

小开

在使用熊猫读取文件时，可以在该行中使用参数 na_filter = False或 keep_default_na=False

import pandas as pd


df = pd.read_csv('sample.tsv',sep='\t',encoding='utf-8',na_filter = False)


for df_tuples in df.itertuples(index=True):
print(df_tuples)

小开

以安东 · 普罗托波夫的回答为基础，一种简洁的方法来最小限度地修改默认值(即删除不想解析为 NaN 的值，然后添加那些需要解析的值) :

from pandas._libs.parsers import STR_NA_VALUES


accepted_na_values = STR_NA_VALUES - {'NA'} | {'_'}
path = 'myexcel.xlsx'
df = pd.read_excel(path, keep_default_na=False, na_values=accepted_na_values)

防止大熊猫将“ NA”解释为字符串中的 NaN

Additional Information