最佳答案
我试图获取 HTML 文档中包含以下文本模式的元素: # S {11}
<h2> this is cool #12345678901 </h2>
因此,前者可以使用以下方法进行匹配:
soup('h2',text=re.compile(r' #\S{11}'))
结果会是这样的:
[u'blahblah #223409823523', u'thisisinteresting #293845023984']
我能够得到所有匹配的文本(见上一行)。但是我希望文本的父元素能够匹配,所以我可以使用它作为遍历文档树的起点。在这种情况下,我希望返回所有 h2元素,而不是匹配的文本。
有什么想法吗?