我试图将一个字符串拆分为单词和标点符号,并将标点符号添加到拆分产生的列表中。
例如:
>>> c = "help, me"
>>> print c.split()
['help,', 'me']
我真正想要的名单是:
['help', ',', 'me']
因此,我希望字符串在空格处被分割,标点符号从单词中被分割出来。
我尝试先解析字符串,然后运行拆分:
>>> for character in c:
... if character in ".,;!?":
... outputCharacter = " %s" % character
... else:
... outputCharacter = character
... separatedPunctuation += outputCharacter
>>> print separatedPunctuation
help , me
>>> print separatedPunctuation.split()
['help', ',', 'me']
这会产生我想要的结果,但是对于大文件来说速度非常慢。
有没有更有效的方法?