我怎样才能在Perl网页爬虫处理Javascript?
我想抓取一个网站,问题是,它充满了JavaScript的东西,比如button等,当它们被按下时,它们不会改变URL,但是页面上的数据被改变了。
通常我使用LWP / Mechanize等来抓取网站,但都不支持JavaScript。 任何想法?
另一种select可能是Selenium和WWW :: Selenium模块
WWW :: Scripter模块有一个可能有用的JavaScript插件 。 不能说我自己用过,但是。
WWW :: Mechanize :: Firefox可能是有用的。 这样你可以让Firefox处理复杂的JavaScript问题,然后提取合成的HTML。
iMacros for IE / Firefox / Chrome是一个非常灵活的网页刮板,可以从Perl控制: http : //wiki.imacros.net/Perl
我会build议HtmlUnit和Perl包装: WWW :: HtmlUnit 。