羽毛和拼花地板有什么区别？

小开

我还将包括在实木地板和羽毛之间的比较不同的压缩方法，以检查进出口速度和它使用了多少存储空间。

对于那些想要一个更好的 csv 替代品的普通用户，我主张有两种选择:

带有“ gzip”压缩的 parquet (用于存储) : 导出速度稍微快一点。Csv (如果需要压缩 csv，那么拼花地板会快得多)。导入速度大约是 csv 的2倍。压缩比原始文件大小大约减少了22% ，这与压缩后的 csv 文件大致相同。
带“ zstd”压缩的羽毛(I/O 速度) : 与 csv 相比，羽毛导出速度快20倍，导入速度快6倍。存储大约是32% 的原始文件大小，这是10% 比拼花“ gzip”和 csv 压缩，但仍然不错。

对于所有类别(I/O 速度和存储)的普通 csv 文件来说，两者都是更好的选择。

我分析了以下格式:

CSV
使用“ zip”压缩的 csv
使用“ zstd”压缩的羽毛
使用“ lz4”压缩羽毛
拼花地板采用“快速”压缩
使用“ gzip”压缩拼花地板
拼花地板用的是“ gzip”布洛特利

import zipfile
import pandas as pd
folder_path = (r"...\\intraday")
zip_path = zipfile.ZipFile(folder_path + "\\AAPL.zip")
test_data = pd.read_csv(zip_path.open('AAPL.csv'))




# EXPORT, STORAGE AND IMPORT TESTS
# ------------------------------------------
# - FORMAT .csv


# export
%%timeit
test_data.to_csv(folder_path + "\\AAPL.csv", index=False)
# 12.8 s ± 399 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# storage
# AAPL.csv exported using python.
# 169.034 KB


# import
%%timeit
test_data = pd.read_csv(folder_path + "\\AAPL.csv")
# 1.56 s ± 14.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# ------------------------------------------
# - FORMAT zipped .csv


# export
%%timeit
test_data.to_csv(folder_path + "\\AAPL.csv")
# 12.8 s ± 399 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
# OBSERVATION: this does not include the time I spent manually zipping the .csv


# storage
# AAPL.csv zipped with .zip "normal" compression using 7-zip software.
# 36.782 KB


# import
zip_path = zipfile.ZipFile(folder_path + "\AAPL.zip")
%%timeit
test_data = pd.read_csv(zip_path.open('AAPL.csv'))
# 2.31 s ± 43.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# ------------------------------------------
# - FORMAT .feather using "zstd" compression.


# export
%%timeit
test_data.to_feather(folder_path + "\\AAPL.feather", compression='zstd')
# 460 ms ± 13.3 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# storage
# AAPL.feather exported with python using zstd
# 54.924 KB


# import
%%timeit
test_data = pd.read_feather(folder_path + "\\AAPL.feather")
# 310 ms ± 11.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# ------------------------------------------
# - FORMAT .feather using "lz4" compression.
# Only works installing with pip, not with conda. Bad sign.


# export
%%timeit
test_data.to_feather(folder_path + "\\AAPL.feather", compression='lz4')
# 392 ms ± 14.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# storage
# AAPL.feather exported with python using "lz4"
# 79.668 KB


# import
%%timeit
test_data = pd.read_feather(folder_path + "\\AAPL.feather")
# 255 ms ± 4.79 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# ------------------------------------------
# - FORMAT .parquet using compression "snappy"


# export
%%timeit
test_data.to_parquet(folder_path + "\\AAPL.parquet", compression='snappy')
# 2.82 s ± 47.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# storage
# AAPL.parquet exported with python using "snappy"
# 62.383 KB


# import
%%timeit
test_data = pd.read_parquet(folder_path + "\\AAPL.parquet")
# 701 ms ± 19.8 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# ------------------------------------------
# - FORMAT .parquet using compression "gzip"


# export
%%timeit
test_data.to_parquet(folder_path + "\\AAPL.parquet", compression='gzip')
# 10.8 s ± 77.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# storage
# AAPL.parquet exported with python using "gzip"
# 37.595 KB


# import
%%timeit
test_data = pd.read_parquet(folder_path + "\\AAPL.parquet")
# 1.18 s ± 80.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


# ------------------------------------------
# - FORMAT .parquet using compression "brotli"


# export
%%timeit
test_data.to_parquet(folder_path + "\\AAPL.parquet", compression='brotli')
# around 5min each loop. I did not run %%timeit on this one.


# storage
# AAPL.parquet exported with python using "brotli"
# 29.425 KB


# import
%%timeit
test_data = pd.read_parquet(folder_path + "\\AAPL.parquet")
# 1.04 s ± 72 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

观察结果:

羽毛似乎更适合轻量级数据，因为它写入和加载速度更快。实木地板有更好的存储比率。
羽毛库的支持和维护最初让我很担心，但是文件格式与熊猫有很好的集成，我可以使用“ zstd”压缩方法的 conda安装依赖项。
到目前为止最好的存储是实木地板与“布罗特利”压缩，但它需要长期出口。它有一个良好的进口速度一旦出口完成，但仍然是2.5倍进口比羽毛。