最佳答案
我有一个大的(约12M行)数据帧df
:
df.columns = ['word','documents','frequency']
以下是及时刊登的:
word_grouping = df[['word','frequency']].groupby('word')
MaxFrequency_perWord = word_grouping[['frequency']].max().reset_index()
MaxFrequency_perWord.columns = ['word','MaxFrequency']
然而,这将花费出乎意料的长时间来运行:
Occurrences_of_Words = word_grouping[['word']].count().reset_index()
我哪里做错了?是否有更好的方法来计算大数据帧中出现的次数?
df.word.describe()
运行得很好,所以我真的没有料到这个Occurrences_of_Words
数据帧需要很长时间来构建。