最佳答案
几个月来,在学习熊猫的过程中,我一直在努力寻找这个问题的答案。我在日常工作中使用SAS,它对核心外支持很好。然而,由于许多其他原因,SAS作为一个软件很糟糕。
我希望有一天能用python和Pandas取代SAS,但我目前缺乏用于大型数据集的核心外工作流程。我说的不是需要分布式网络的“大数据”,而是太大而无法放入内存但又小到足以放入硬盘驱动器的文件。
我的第一个想法是使用HDFStore
在磁盘上保存大型数据集,并仅将我需要的部分拉入数据帧进行分析。其他人提到MongoDB是一个更易于使用的替代方案。我的问题是:
实现以下目标的最佳实践工作流程是什么:
真实世界的例子将不胜感激,特别是来自任何在“大数据”上使用熊猫的人。
编辑——一个我希望它如何工作的例子:
我试图找到执行这些步骤的最佳实践方法。阅读有关熊猫和Pytable的链接似乎附加一个新列可能是一个问题。
编辑——具体回答Jeff的问题:
if var1 > 2 then newvar = 'A' elif var2 = 4 then newvar = 'B'
。这些操作的结果是我的数据集中的每条记录都有一个新列。我很少会向数据集添加行。我几乎总是会创建新列(统计/机器学习术语中的变量或特征)。