用php阅读pdf文件
我有一个大的PDF文件,是一个build筑物的楼层地图。 它包括所有的办公家具,包括座位位置的文本框。
我的目标是用PHP读取这个文件,在文档中search文本图层,获取文件中的内容和坐标。 这样我可以绘制座位位置 – > x / y坐标。
有什么办法通过PHP来做到这一点? (甚至如果这是必要的,甚至是Ruby或Python)
检查FPDF(FPDI):
http://www.setasign.de/products/pdf-php-solutions/fpdi/
这些将允许您打开一个PDF并在PHP中添加内容。 我猜你也可以使用他们的function来search现有的内容来获取你需要的值。
另一个可能的库是TCPDF: http : //www.tecnick.com/public/code/cp_dpage.php? aiocp_dp = tcpdf
更新添加一个更现代化的图书馆: PDFparsing器
有一个php库(pdfparser),正是你想要的。
项目网站
github上
https://github.com/smalot/pdfparser
演示页/ api
在您的项目中包含pdfparser之后,您可以从mypdf.pdf
获取所有文本, mypdf.pdf
所示:
<?php $parser = new \installpath\PdfParser\Parser(); $pdf = $parser->parseFile('mypdf.pdf'); $text = $pdf->getText(); echo $text;//all text from mypdf.pdf ?>
Simular你可以从pdf获取元数据,也可以获得pdf对象(例如图像)。
嗯…不完全是PHP的,但你可以调用一个程序,从PHP转换成一个临时的HTML文件,然后用PHPparsing结果文件。 我为我的一个项目做了类似的事情,这是我使用的程序:
PdfToHtml
这个程序最棒的地方在于它会用绝对位置坐标来吐出<div>标签中的文本元素。 看来这正是你想要做的。
你可能也想尝试这个应用程序http://pdfbox.apache.org/ 。 一个工作的例子可以在https://www.jinises.comfind