高级PDFparsing使用Python(提取文本没有表等):什么是最好的图书馆?

我正在寻找一个PDF库,这将允许我从PDF文档中提取文本。 我已经看了PyPDF,这可以很好地从PDF文档中提取文本。 问题在于,如果文档中有表格,则表格中的文本将与文档的其余部分一起提取。 这可能是有问题的,因为它会产生无用的文本部分,看起来乱码(例如,大量的数字拼凑在一起)。

我正在寻找一些更先进的东西。 我想从PDF文档中提取文本, 不包括任何表格和特殊的格式。 有没有这样的图书馆? 还是我不得不在输出文本上做一些后处理来摆脱这些部分?

您还可以查看PDFMiner ,Python中的另一个PDFparsing器。

您可能感兴趣的PDFMiner的特殊性在于,您可以控制在进行提取时如何重新组合文本部分。 你可以通过指定行,字,字符等之间的空格来实现这一点。所以,也许通过tweeking这个你可以达到你想要的(取决于你的文档的可变性)。 PDFMiner也可以给你在页面中的文本的位置,它可以通过对象ID和其他东西提取数据。 所以挖掘PDFMiner和创意!

但是,你的问题实际上并不是一件容易解决的问题,因为在PDF中,文本并不是连续的,而是由绝对位于页面中的许多小字符组成。 PDF的重点是保持布局完整。 它不是以内容为导向的,

这是一个难以解决的问题,因为视觉上相似的PDF可能具有截然不同的结构,这取决于它们是如何生成的。 在最糟糕的情况下,图书馆需要基本上像OCR一样行事。 另一方面,PDF可能包含足够的结构和元数据,以便于删除表格和graphics,图书馆可以根据需要量身定制。

我很确定没有任何开源工具可以解决各种PDF文件的问题,但是我记得听说过商业软件声称完全按照你的要求去做。 我相信你会在search时遇到他们。