Tag: pdfminer

我如何使用pdfminer作为一个库

我正在尝试使用pdfminer从pdf获取文本数据。 我可以使用pdfminer命令行工具pdf2txt.py成功将这些数据提取到.txt文件。 我目前这样做,然后使用python脚本来清理.txt文件。 我想将pdf提取过程合并到脚本中,并保存一个步骤。 当我发现这个链接的时候 , 我以为自己在做什么 ,但是我没有任何解决scheme的成功。 也许在那里列出的function需要再次更新,因为我正在使用更新版本的pdfminer。 我也尝试了这里显示的function,但它也没有工作。 我尝试的另一种方法是使用os.system在脚本中调用脚本。 这也是不成功的。 我正在使用Python版本2.7.1和pdfminer版本20110227。

在PDF中使用PDFMiner从PDF文件中提取文本?

Python版本2.7 我正在寻找关于如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例。 它看起来像PDFMiner更新其API和所有相关的例子,我发现包含过时的代码(类和方法已经改变)。 我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法,所以我不知道如何做到这一点。 事实上,我只是在看源代码,看看我能否弄清楚。