最佳答案
我正在编写一个 Python MapReduce 字数计算程序。问题是,有很多非字母字符散落在数据,我发现这个后 Stripping everything but alphanumeric chars from a string in Python显示了一个很好的解决方案使用正则表达式,但我不知道如何实现它
def mapfn(k, v):
print v
import re, string
pattern = re.compile('[\W_]+')
v = pattern.match(v)
print v
for w in v.split():
yield w, 1
恐怕我不知道如何使用库 re
或甚至正则表达式。我不确定如何将正则表达式模式应用到传入的字符串(一本书的行) v
,以检索没有任何非字母数字字符的新行。
有什么建议吗?