几天前,我问过一个 有个问题关于如何找到一个给定矢量的最近邻居。我的向量现在是21维,在我继续之前,因为我不是来自机器学习或数学领域,我开始问自己一些基本的问题:
- 首先,欧几里得度量是否是找到最近邻居的一个很好的衡量标准?如果没有,我有什么选择?
- 另外,如何确定确定 k- 邻居的正确阈值?是否可以进行一些分析来计算出这个值?
- 之前,有人建议我使用 kd-Tree,但维基百科页面明确表示,对于高维空间,kd-Tree 几乎等同于一个暴力搜索法。在这种情况下,什么是最好的方法来找到最近的邻居在一百万点数据集有效?
有没有人能澄清一下以上的部分(或全部)问题?