我什么时候使用每个?
还有..NLTK词化依赖于词类吗? 如果是的话,不是更准确吗?
短而密:http://nlp.stanford.edu/ir-book/html/htmledition/stemming-and-lemmatization-1.html
词干分析和词素归并的目的都是将一个词的屈折形式(有时是派生相关的形式)简化为一个共同的基本形式。 然而,这两个词的味道不同。词干提取通常指的是一种粗糙的启发式过程,即砍掉词尾,希望在大多数情况下正确地实现这一目标,通常包括删除派生词缀。词典化通常是指正确地使用词汇和对单词进行词法分析,其目的通常是只删除词尾的屈折变化,并返回单词的基本形式或字典形式,这就是所谓的词典化。
词干分析和词素归并的目的都是将一个词的屈折形式(有时是派生相关的形式)简化为一个共同的基本形式。
然而,这两个词的味道不同。词干提取通常指的是一种粗糙的启发式过程,即砍掉词尾,希望在大多数情况下正确地实现这一目标,通常包括删除派生词缀。词典化通常是指正确地使用词汇和对单词进行词法分析,其目的通常是只删除词尾的屈折变化,并返回单词的基本形式或字典形式,这就是所谓的词典化。
在NLTK文档中:
词元化和词干化是规范化的特殊情况。他们为一组相关的单词形式确定一个规范的代表。
我认为词干是一种粗糙的技巧,人们用它来把同一个单词的所有不同形式归结为一个基本形式,而这个基本形式本身不需要是一个合法的单词。 像波特词干分析器这样的东西可以使用简单的正则表达式来消除常见的单词后缀。
,词素化将单词还原为其实际的基本形式,这可能与输入单词完全不同。 类似于Morpha,它使用FST将名词和动词转换为其基本形式
正如Myyn所指出的,词干提取是将屈折词缀(有时是派生词缀)移除到所有原词可能相关的基本形式的过程。词素化与获得单个单词有关,该单词允许您将一组屈折形式组合在一起。这比词干更难,因为它需要考虑上下文(以及单词的含义),而词干忽略了上下文。
至于何时使用其中一种,这取决于您的应用程序在多大程度上依赖于在上下文中正确获取单词的含义。如果你在做机器翻译,你可能需要词素化来避免误译单词。如果您正在对超过10亿个文档进行信息检索,其中99%的查询都在1-3个单词之间,那么您可以满足于词干分析。
至于NLTK,WordNetLemmatizer确实使用了词性,尽管您必须提供它(否则它默认为名词)。传递“ Dove ”和“ V ”得到“ Dive ”,而传递“ Dove ”和“ N ”得到" Dove.
词干提取和词素分解的目的都是为了减少形态变异。这与更一般的“术语合并”程序相反,后者也可以处理词汇语义、句法或正字法变化。
词根化和词根化之间的真正区别有三个方面:
词干分析将词形简化为(伪)词干,而词元分析则将词形简化为语言学上有效的词条。这种差异在具有更复杂形态的语言中是明显的,但对于许多IR应用可能是不相关的;
词根化只处理屈折方差,而词根化也可以处理派生方差;
在实现方面,Lemmatization通常更复杂(特别是对于形态复杂的语言),并且通常需要某种词典。另一方面,满意的词干提取可以通过相当简单的基于规则的方法来实现。
为了消除同音异义词的歧义,还可以通过词性标记器来支持词素化。
列化与填塞密切相关。不同之处在于 词干分析器在不了解上下文的情况下对单个单词进行操作, 因此不能区分具有不同 词义取决于词性。然而,词梗通常 更容易实现和运行更快,并且降低的精度可能不 对某些应用程序很重要。 例如: “更好”这个词有“好”作为它的引理。此链接被遗漏 词干,因为它需要字典查找。 单词“ walk ”是单词“ walking ”的基本形式,因此 在词干分析和词元分析中都匹配。 单词“ meeting ”既可以是名词的原形,也可以是一种形式 指动词(“遇见”),取决于上下文,例如,"在我们最后的 见面“或”我们明天再见面"。与炮泥不同, 引理原则上可以选择适当的引理 这取决于上下文。
列化与填塞密切相关。不同之处在于 词干分析器在不了解上下文的情况下对单个单词进行操作, 因此不能区分具有不同 词义取决于词性。然而,词梗通常 更容易实现和运行更快,并且降低的精度可能不 对某些应用程序很重要。
例如:
这个词有“好”作为它的引理。此链接被遗漏 词干,因为它需要字典查找。
单词“ walk ”是单词“ walking ”的基本形式,因此 在词干分析和词元分析中都匹配。
单词“ meeting ”既可以是名词的原形,也可以是一种形式 指动词(“遇见”),取决于上下文,例如,"在我们最后的 见面“或”我们明天再见面"。与炮泥不同, 引理原则上可以选择适当的引理 这取决于上下文。
源头:https://en.wikipedia.org/wiki/lemmatisation
基于实例驱动的词根化与词根化差异的解释:
列线化处理“ car ”到“ cars ”的匹配 与“汽车”相匹配的“汽车”。
填塞处理将“ car ”与“ cars ”匹配。
词素化意味着模糊词匹配的范围更广,即 仍然由相同的子系统处理。它暗示了某些技巧。 用于引擎内的低级处理,并且还可以反映 术语的工程偏好。 [……]以FAST为例, 他们的词典化引擎不仅处理基本的单词变体,如 单数与复数,但也有同义词库操作符,如“热” 匹配“温暖”. 当然,这并不是说其他引擎不处理同义词。 他们这样做,但低层次的实现可能是在一个不同的 子系统,而不是处理基词干的子系统。
词素化意味着模糊词匹配的范围更广,即 仍然由相同的子系统处理。它暗示了某些技巧。 用于引擎内的低级处理,并且还可以反映 术语的工程偏好。
[……]以FAST为例, 他们的词典化引擎不仅处理基本的单词变体,如 单数与复数,但也有同义词库操作符,如“热” 匹配“温暖”.
这并不是说其他引擎不处理同义词。 他们这样做,但低层次的实现可能是在一个不同的 子系统,而不是处理基词干的子系统。
http://www.ideaeng.com/stemming-lemmatization-0601.
有两个方面可以看出他们的不同:
词干分析器将返回单词的词干,该词干不必与单词的形态词根相同。即使词干本身不是有效的词根,相关的词映射到相同的词干通常就足够了,而在词化中,它将返回一个词的字典形式,该词必须是有效的词。
在词法分析中,首先要确定一个词的词性,不同词性的规范化规则是不同的,而词干分析器在不了解上下文的情况下对单个词进行操作,因此不能区分根据词性而具有不同含义的词。
参考http://textminingonline.com/dive-into-nltk-part-iv-stemming-and-lemmatization
填塞只是从单词的最后几个字符中删除或取出词干,这通常会导致不正确的含义和拼写。列线化考虑上下文并将单词转换为其有意义的基本形式,这称为词条。有时,同一个单词可以有多个不同的词元。我们应该在特定的上下文中确定单词的词性(POS)标签。以下是说明所有差异和使用情形的示例:
词干分析是删除给定单词的最后几个字符以获得较短形式的过程,即使该形式没有任何意义。
实施例,
"beautiful" -> "beauti" "corpora" -> "corpora"
填塞可以非常快速地完成。
另一方面,词素化是根据单词的字典含义将给定单词转换为其基本形式的过程。
"beautiful" -> "beauty" "corpora" -> "corpus"
词根化比词干处理需要更多的时间。
Huang等人如下所述描述词干分析和词元分析。选择取决于问题和计算资源的可用性。
词干分析通过删除或替换单词后缀来标识单词的常见词根形式(例如,“ flooding ”词干分析为“ flood ”),而词素分析标识单词的屈折形式并返回其基本形式(例如,“ better ”词素分析为“ good ”)。
黄,X,李,Z,王,C,&;宁海(2020).识别快速响应的灾难相关社交媒体:视觉-文本融合的CNN架构。国际数字地球杂志,13(9),1017–1039。https://doi.org/10.1080/17538947.2019.1633425
填塞 是产生词根/基词的形态变体的过程。词干处理程序通常称为词干处理算法或词干分析器。 通常,在搜索某个关键字的文本时,如果搜索返回该词的变体,则会有所帮助。 例如,搜索“ boat ”也可能返回“ boats ”和“ boating ”。在这里,“ boat ”是[boat,boater,boating,boats]的词干。
列线化 超越单词缩减,考虑语言的全部词汇,对单词进行词法分析。' was '的引理是' be ',' mice '的引理是' mouse '。
我确实参考了这个链接, https://towardsdatascience.com/stemming-vs-lemmatization-2daddabcb221
词干和词目词化都产生屈折词的基础排序,因此唯一的区别是词干可能不是一个实际的词,而词目是一个实际的语言词。
词干分析遵循一种算法,该算法具有对单词执行的步骤,这使得它更快。然而,在词根化中,你也使用了语料库来提供词根,这使得它比词干提取慢。此外,您可能必须定义词类才能获得正确的引理。
以上几点表明,如果速度集中,则应使用词干分析,因为词干分析程序扫描语料库会消耗时间和处理。这取决于你正在处理的问题,决定是否应该使用词干分析器或词素转换器。 欲了解更多信息,请访问链接: https://towardsdatascience.com/stemming-vs-lemmatization-2daddabcb221
简而言之,这些算法之间的区别在于,只有列线化在评估中包括单词的含义。在填塞中,只有一定数量的字母从单词的末尾被切断以获得词干。这个词的意思在其中不起作用。
简而言之:
列线化:使用上下文将单词转换为其 字典(基)形式也称为引理
填塞:使用词干,大多数情况下去除派生词缀。
源