我试图从一个 pdf 文本数据使用 Pdfminer。我能够将这些数据提取到。使用 pdfminer 命令行工具 pdf2txt.py 成功地创建了 txt 文件。我目前这样做,然后使用一个 python 脚本来清除。Txt 文件。我想合并到脚本的 pdf 摘录过程,并节省自己的一个步骤。
当我发现这个链接时,我认为我找到了一些东西,但是我没有找到任何成功的解决方案。也许那里列出的函数需要再次更新,因为我正在使用一个新版本的 pdfminer。
我尝试的另一种方法是使用 os.system
在脚本中调用该脚本。
我使用的是 Python 版本2.7.1和 pdfminer 版本20110227。