Python Pandas: 如何读取 CSV 文件的前 n 行?

我有一个非常大的数据集,不能读取整个数据集。所以,我想只读其中的一部分来训练,但是我不知道如何去做。有任何想法都可以。

225173 次浏览

如果只想读取第一个999,999(非标头)行:

read_csv(..., nrows=999999)

如果您只想读取1,000,000行... 1,999,999

read_csv(..., skiprows=1000000, nrows=999999)

Nrows : int,default 要读取的文件行数 读取大型文件的片段 *

Skiprows : 列表类型或整数 要跳过的行号(0-indexed)或文件开始处要跳过的行数(int)

对于大文件,您可能还需要使用 chunksize:

Chunksize : int,default Nothing 返回用于迭代的 TextFileReader 对象

Read _ csv 文档

如果你不想使用熊猫,你可以使用 csv 库和交互中断限制行读取。

例如,我需要读取存储在 CSV列表中的文件列表,以获取唯一的头部。

for csvs in result:
csvs = './'+csvs
with open(csvs,encoding='ANSI', newline='') as csv_file:
csv_reader = csv.reader(csv_file, delimiter=',')
count=0
for row in csv_reader:
if count:
break;