我有一个非常大的数据集,不能读取整个数据集。所以,我想只读其中的一部分来训练,但是我不知道如何去做。有任何想法都可以。
如果只想读取第一个999,999(非标头)行:
read_csv(..., nrows=999999)
如果您只想读取1,000,000行... 1,999,999
read_csv(..., skiprows=1000000, nrows=999999)
Nrows : int,default 要读取的文件行数 读取大型文件的片段 *
Skiprows : 列表类型或整数 要跳过的行号(0-indexed)或文件开始处要跳过的行数(int)
对于大文件,您可能还需要使用 chunksize:
Chunksize : int,default Nothing 返回用于迭代的 TextFileReader 对象
Read _ csv 文档
如果你不想使用熊猫,你可以使用 csv 库和交互中断限制行读取。
例如,我需要读取存储在 CSV列表中的文件列表,以获取唯一的头部。
for csvs in result: csvs = './'+csvs with open(csvs,encoding='ANSI', newline='') as csv_file: csv_reader = csv.reader(csv_file, delimiter=',') count=0 for row in csv_reader: if count: break;