最佳答案
在使用 train _ test _ split ()时,如何获得数据的原始索引?
我有以下几点
from sklearn.cross_validation import train_test_split
import numpy as np
data = np.reshape(np.randn(20),(10,2)) # 10 training examples
labels = np.random.randint(2, size=10) # 10 labels
x1, x2, y1, y2 = train_test_split(data, labels, size=0.2)
但这并没有给出原始数据的索引。
一种变通方法是将索引添加到数据中(例如 data = [(i, d) for i, d in enumerate(data)]
) ,然后在 train_test_split
中传递它们,然后再次展开。
有没有更清洁的解决方案?