我正在尝试使用 python-docx
模块(pip install python-docx
)
但它似乎是非常混乱的,因为在 Github Repo测试样本中,他们使用的是 opendocx
函数,但在 Readthedocs中,他们使用的是 Document
类。即使它们只是显示如何向 docx 文件添加文本,而不是读取现有文件?
第一种(opendocx
)不起作用,可能会被弃用。对于第二种情况,我试图使用:
from docx import Document
document = Document('test_doc.docx')
print(document.paragraphs)
它返回了一个 <docx.text.Paragraph object at 0x... >
列表
然后我做了:
for p in document.paragraphs:
print(p.text)
它返回了所有的文本,但少了一些东西。所有 URL (CTRL + CLICK 转到 URL)在控制台上没有以文本形式显示。
问题是什么? 为什么 URL 丢失了?
如何在不循环迭代的情况下获得完整的文本(类似于 open().read()
)