在Php的HTML刮

我一直在使用正则expression式在PHP中进行一些HTML抓取。这工作，但结果是挑剔和脆弱。有没有人使用任何提供更强大的解决scheme的软件包？ configuration驱动的解决scheme将是理想的，但我不挑剔。

在从页面中获取HTML之后，我会推荐PHP Simple HTML DOM Parser 。它支持无效的HTML，并提供了一个非常简单的方法来处理HTML元素。

如果您正在抓取的页面是有效的X（HT）ML，那么任何PHP的内置XMLparsing器都可以。

我还没有取得很多PHP库的成功刮。如果你冒险，但你可以尝试simplehtmldom 。我build议使用Hpricot for Ruby或美丽的Python for Python，它们都是HTML的优秀parsing器。

我也会推荐'Simple HTML DOM Parser'。这是一个很好的select，特别是如果你熟悉jQuery或JavaScriptselect器，那么你会发现自己在家里。

过去我甚至曾经在博客上做过博客

我有一些有趣的工作与HTMLSQL ，这不是一个高端的解决scheme，但非常简单的工作。

使用PHP的HTML抓取，我build议cURL + regexp或cURL +一些DOMparsing器，虽然我个人使用cURL +正则expression式。如果你对regexp有深刻的印象，有时候它更准确。

上面提到的Simple Html DOM Parser也有很好的结果。然后还有PHP的整洁的扩展，这也很好。

我不得不在主机1和1上使用curl。