我正在做临床信息标准化(拼写检查) ,我检查每个给定的单词对900,000字的医学词典。我更关心的是时间的复杂性/性能。
我想进行模糊字符串比较,但不确定使用哪个库。
选择1:
import Levenshtein
Levenshtein.ratio('hello world', 'hello')
Result: 0.625
选择2:
import difflib
difflib.SequenceMatcher(None, 'hello world', 'hello').ratio()
Result: 0.625
在这个例子中,两者给出了相同的答案。您认为在这种情况下两者的表现相同吗?