最佳答案
我要对多个文件中的数百万条记录进行模糊匹配。我为此确定了两种算法: Jaro-Winkler和 Levenshtein编辑距离。
我不能理解这两者之间的区别。看起来 Levenshtein给出了两个字符串之间的编辑次数,而 Jaro-Winkler给出了0.0到1.0之间的标准化得分。
我的问题是:
这两种算法的基本区别是什么?
这两种算法的性能差别是什么?