如何从PDF文档中提取文本?
如何使用PHP从PDF文档中提取文本?
(我不能使用其他工具,我没有root权限)
我发现了一些纯文本function,但是它们不能很好地处理Unicode字符:
http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html
下载class.pdf2text.php @ https://pastebin.com/dvwySU1a(2014年; 4月5日更新)或http://www.phpclasses.org/browse/file/31030.html (需要注册)
码:
include('class.pdf2text.php'); $a = new PDF2Text(); $a->setFilename('filename.pdf'); $a->decodePDF(); echo $a->output();
该类不适用于我testing过的所有PDF格式,试试看,你可能会很幸运:)
如果上述不起作用,请尝试http://pdfparser.org/
我知道这个话题已经很老了,但是这个需求依然存在。 我阅读了许多文档,论坛和脚本,并构build了一个新的支持压缩和解压缩的高级pdf文件:
https://gist.github.com/smalot/6183152
希望它有助于everone