如何用 Python 检查一个单词是否是英语单词?

如果一个单词在英语词典中,我想检查一个 Python 程序。

我相信 nltk wordnet 接口可能是一种方式去,但我不知道如何使用它这样一个简单的任务。

def is_english_word(word):
pass # how to I implement is_english_word?


is_english_word(token.lower())

将来,我可能想检查单词的单数形式是否在字典中(例如,properties-> property-> English word)。我怎么才能做到呢?

258864 次浏览

使用集合来存储单词列表,因为查找它们会更快:

with open("english_words.txt") as word_file:
english_words = set(word.strip().lower() for word in word_file)


def is_english_word(word):
return word.lower() in english_words


print is_english_word("ham")  # should be true if you have a good english_words.txt

要回答问题的第二部分,复数形式已经在一个好的单词列表中了,但是如果出于某种原因,您想要特别排除列表中的复数形式,那么您确实可以编写一个函数来处理它。但是英语的复数规则非常棘手,我只需要在单词列表中加上复数就可以了。

至于在哪里可以找到英语单词列表,我只是通过谷歌搜索“英语单词列表”找到了几个。这里有一个: http://www.sil.org/linguistics/wordlists/english/wordlist/wordsEn.txt如果你特别想要一种英式英语或者美式英语,你可以在谷歌上搜索。

为了(更)强大和灵活,使用专用的拼写检查库,如 PyEnchant。有一个 教程,或者你可以直接跳进去:

>>> import enchant
>>> d = enchant.Dict("en_US")
>>> d.check("Hello")
True
>>> d.check("Helo")
False
>>> d.suggest("Helo")
['He lo', 'He-lo', 'Hello', 'Helot', 'Help', 'Halo', 'Hell', 'Held', 'Helm', 'Hero', "He'll"]
>>>

PyEnchant附带了一些字典(en _ GB,en _ US,de _ DE,fr _ FR) ,但是如果需要更多语言,可以使用任何 OpenOffice 的

似乎有一个名为 inflect的多元化库,但我不知道它是否有任何好处。

对于语义 Web 方法,可以运行 针对 RDF 格式的 WordNet 的 parql 查询。基本上只是使用 urllib 模块发出 GET 请求并返回 JSON 格式的结果,使用 python‘ JSON’模块进行解析。如果它不是英语单词,你将得不到任何结果。

作为另一个想法,您可以查询 维基词典的 API

使用 NLTK :

from nltk.corpus import wordnet


if not wordnet.synsets(word_to_test):
#Not an English Word
else:
#English Word

如果您在安装 wordnet 时遇到困难,或者想尝试其他方法,请参考 这篇文章

它不能很好地与 WordNet 一起工作,因为 WordNet 不包含所有的英语单词。 基于没有附魔的 NLTK 的另一种可能性是 NLTK 的单词语料库

>>> from nltk.corpus import words
>>> "would" in words.words()
True
>>> "could" in words.words()
True
>>> "should" in words.words()
True
>>> "I" in words.words()
True
>>> "you" in words.words()
True

为了获得更快的基于 NLTK 的解决方案,您可以对这组单词进行散列,以避免线性搜索。

from nltk.corpus import words as nltk_words
def is_english_word(word):
# creation of this dictionary would be done outside of
#     the function because you only need to do it once.
dictionary = dict.fromkeys(nltk_words.words(), None)
try:
x = dictionary[word]
return True
except KeyError:
return False

使用 pyEnchant.checker 拼写检查:

from enchant.checker import SpellChecker


def is_in_english(quote):
d = SpellChecker("en_US")
d.set_text(quote)
errors = [err.word for err in d]
return False if ((len(errors) > 4) or len(quote.split()) < 3) else True


print(is_in_english('“办理美国加州州立大学圣贝纳迪诺分校高仿成绩单Q/V2166384296加州州立大学圣贝纳迪诺分校学历学位认证'))
print(is_in_english('“Two things are infinite: the universe and human stupidity; and I\'m not sure about the universe.”'))


> False
> True

我发现有3个基于软件包的解决方案来解决这个问题。它们是 Pyenchant、 wordnet 和 corpus (自定义或来自 ntlk)。Pyenchant 无法轻松地安装在 带有 py3的 win64中。Wordnet 不能很好地工作,因为它的语料库不完整。所以对我来说,我选择的答案是@Sadik,并使用‘ set (words.words ())’来加速。

第一:

pip3 install nltk
python3


import nltk
nltk.download('words')

然后:

from nltk.corpus import words
setofwords = set(words.words())


print("hello" in setofwords)
>>True

适用于所有 Linux/Unix 用户

如果您的操作系统使用 Linux 内核,那么有一个简单的方法可以从英美词典中获取所有单词。在目录 /usr/share/dict中有一个 words文件。还有一个更具体的 american-englishbritish-english文件。它们包含该特定语言中的所有单词。你可以通过每一种编程语言访问它,这就是为什么我认为你可能想知道这个。

现在,对于 python 特定的用户,下面的 python 代码应该为列表单词分配每个单词的值:

import re
file = open("/usr/share/dict/words", "r")
words = re.sub("[^\w]", " ",  file.read()).split()
file.close()
    

def is_word(word):
return word.lower() in words
 

is_word("tarts") ## Returns true
is_word("jwiefjiojrfiorj") ## Returns False

希望这个能帮上忙!

使用 nltk.corpus 代替 Enchant。 Enchant 会产生模棱两可的结果。例如: 对于基准和基准的迷惑正在返回 true。它应该假设返回 false 作为基准。

下载这个文本文件 https://raw.githubusercontent.com/dwyl/english-words/master/words_alpha.txt

然后使用下面的 Python 代码片段创建一个 Set,该代码片段加载约370k 非英文字母数字单词

>>> with open("/PATH/TO/words_alpha.txt") as f:
>>>     words = set(f.read().split('\n'))
>>> len(words)
370106

从这里开始,您可以使用

>>> word_to_check = 'baboon'
>>> word_to_check in words
True

请注意,这个集合可能不全面,但仍然可以完成工作,用户应该做质量检查,以确保它的工作,以及他们的用例。