履带式铲运机
有人可以区分一个爬虫和刮板的范围和function。
爬虫获取网页 – 即给定一个起始地址(或一组起始地址)和一些条件(例如,有多less深度的链接,要忽略的文件types),它从下载链接的任何东西S)。
一个刮取器把所有已经下载的页面[编辑:或者,更一般的意义上是被格式化显示的数据]和(试图)从这些页面中提取数据,以便它可以(例如)存储在数据库中并根据需要进行操作。
根据您使用结果的方式,抓取可能会侵犯信息所有者和/或关于使用网站的用户协议的权利(爬行在某些情况下也违反后者)。 编辑:正如Steven Sudit所提到的,许多网站在其根目录中包含一个名为robots.txt的文件(即,使用URL http://server/robots.txt
)来指定抓取工具如何(以及如果)抓取该网站 -特别是,它可以列出爬虫不应该尝试访问的(部分)URL。 如果需要,可以根据搜寻器(user-agent)分别指定这些值。
爬虫在网上冲浪,跟随链接。 一个例子是Google机器人获取页面索引。 刮板从表格中提取价值,但不一定与networking有任何关系。
Web爬虫在逻辑中获取链接(Url – Pages),并且刮板从HTML获取值(提取)。
有这么多的networking爬虫工具。 访问页面看一些。 任何XML – HTMLparsing器都可以用来从抓取的页面中提取(报废)数据。 (我build议Jsoupparsing和提取数据)
一般来说,抓取工具会沿着链接到达多个页面,而铲除工具从某种意义上说,只是拉动在线显示的内容,而不会到达更深的链接。
最典型的爬虫是谷歌机器人,它会遵循链接到达您网站上的所有网页,并将其索引的内容,如果他们发现有用(这就是为什么你需要robots.txt告诉哪些内容,你不想成为索引)。 所以我们可以在网站上search这样的内容。 而刮板的目的只是为了个人使用,不会对其他人造成太大的影响。
但是,现在抓取工具和抓取工具没有什么特别的区别,因为一些自动化的网页抓取工具也允许您通过链接(如Octoparse和import.io)抓取网站。 他们不是像谷歌机器人一样的抓取工具,但他们能够自动抓取网站,无需编码即可获取大量数据。