我经常在超过1500万行左右的数据帧上执行pandas操作,我希望能够访问特定操作的进度指示器。
是否存在基于文本的熊猫分裂-应用-组合操作进度指示器?
例如:
df_users.groupby(['userID', 'requestDate']).apply(feature_rollup)
其中feature_rollup
是一个有点复杂的函数,它采用许多DF列,并通过各种方法创建新的用户列。对于大数据帧,这些操作可能需要一段时间,所以我想知道是否有可能在iPython笔记本中有基于文本的输出,以更新我的进度。
到目前为止,我已经尝试了Python的规范循环进度指示器,但它们没有以任何有意义的方式与pandas交互。
我希望在pandas库/文档中有一些我忽略了的东西,可以让人们了解分裂-应用-组合的进展。一个简单的实现可能会查看apply
函数正在工作的数据帧子集的总数,并将进度报告为这些子集的完成分数。
这可能是需要添加到库中的东西吗?