我正在尝试使用 Python 将 html 块转换为文本。
输入:
<div class="body"><p><strong></strong></p>
<p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>
预期输出:
< p > Lorem 爱因斯坦的精英们 埃涅阿斯马萨。 有一些 连接埃尼亚康莫多里古拉。埃尼亚马萨。埃尼亚 主人。罗姆以我的名义受苦受难,连续受苦的精英。埃涅阿斯 (咒语) 埃涅安语意大利语意大利语意大利语意大利语意大利语意大利语意大利语意大利语意大利语意大利语意大利语意大利语。 埃涅阿斯马萨埃涅阿斯穆多 (咒语)
我尝试了 html2text
模块,但没有什么效果:
#!/usr/bin/env python
import urllib2
import html2text
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup(urllib2.urlopen('http://example.com/page.html').read())
txt = soup.find('div', {'class' : 'body'})
print(html2text.html2text(txt))
txt
对象生成上面的 html 块。我想把它转换成文本并在屏幕上打印出来。