如何从PDF文档中提取文本？

如何使用PHP从PDF文档中提取文本？

（我不能使用其他工具，我没有root权限）

我发现了一些纯文本function，但是它们不能很好地处理Unicode字符：

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

码：

include('class.pdf2text.php'); $a = new PDF2Text(); $a->setFilename('filename.pdf'); $a->decodePDF(); echo $a->output();

该类不适用于我testing过的所有PDF格式，试试看，你可能会很幸运:)

如果上述不起作用，请尝试http://pdfparser.org/

我知道这个话题已经很老了，但是这个需求依然存在。我阅读了许多文档，论坛和脚本，并构build了一个新的支持压缩和解压缩的高级pdf文件：

希望它有助于everone