我想读入一个非常大的 csv (不能在 Excel 中打开并轻松编辑) ,但是在第100,000行左右,有一行多了一列,导致程序崩溃。这一行出错了,因此我需要一种方法来忽略这是一个额外的列这一事实。大约有50列,因此硬编码标题和使用名称或 usecols 并不可取。我也可能会遇到这个问题在其他 CSV 的,并希望一个通用的解决方案。不幸的是,我在 read _ csv 中找不到任何东西。代码就是这么简单:
def loadCSV(filePath):
dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000)
datakeys = dataframe.keys();
return dataframe, datakeys