我阅读了一些关于 Lucene 的文档; 我也阅读了这个链接中的文档 (http://lucene.sourceforge.net/talks/pisa).
我真的不明白 Lucene 是如何索引文档的,也不明白 Lucene 用什么算法来索引?
在上面的链接中,它说 Lucene 使用这种算法进行索引:
- 增量算法:
- 维护段索引堆栈
- 为每个传入的文档创建索引
- 将新索引推入堆栈
- 设 b = 10为合并因子,M = 8
for (size = 1; size < M; size *= b) {
if (there are b indexes with size docs on top of the stack) {
pop them off the stack;
merge them into a single index;
push the merged index onto the stack;
} else {
break;
}
}
这个算法如何提供优化的索引?
Does Lucene use B-tree algorithm or any other algorithm like that for indexing 还是有特定的算法?