在Php的HTML刮

我一直在使用正则expression式在PHP中进行一些HTML抓取。 这工作,但结果是挑剔和脆弱。 有没有人使用任何提供更强大的解决scheme的软件包? configuration驱动的解决scheme将是理想的,但我不挑剔。

在从页面中获取HTML之后,我会推荐PHP Simple HTML DOM Parser 。 它支持无效的HTML,并提供了一个非常简单的方法来处理HTML元素。

如果您正在抓取的页面是有效的X(HT)ML,那么任何PHP的内置XMLparsing器都可以。

我还没有取得很多PHP库的成功刮。 如果你冒险,但你可以尝试simplehtmldom 。 我build议使用Hpricot for Ruby或美丽的Python for Python,它们都是HTML的优秀parsing器。

我也会推荐'Simple HTML DOM Parser'。 这是一个很好的select,特别是如果你熟悉jQuery或JavaScriptselect器,那么你会发现自己在家里。

过去我甚至曾经在博客上做过博客

我有一些有趣的工作与HTMLSQL ,这不是一个高端的解决scheme,但非常简单的工作。

使用PHP的HTML抓取,我build议cURL + regexp或cURL +一些DOMparsing器,虽然我个人使用cURL +正则expression式。 如果你对regexp有深刻的印象,有时候它更准确。

上面提到的Simple Html DOM Parser也有很好的结果。 然后还有PHP的整洁的扩展,这也很好。

我不得不在主机1和1上使用curl。

http://www.quickscrape.com/是我使用Simple DOM类创build的!