履带式铲运机

有人可以区分一个爬虫和刮板的范围和function。

爬虫获取网页 – 即给定一个起始地址（或一组起始地址）和一些条件（例如，有多less深度的链接，要忽略的文件types），它从下载链接的任何东西S）。

一个刮取器把所有已经下载的页面[编辑：或者，更一般的意义上是被格式化显示的数据]和（试图）从这些页面中提取数据，以便它可以（例如）存储在数据库中并根据需要进行操作。

根据您使用结果的方式，抓取可能会侵犯信息所有者和/或关于使用网站的用户协议的权利（爬行在某些情况下也违反后者）。编辑：正如Steven Sudit所提到的，许多网站在其根目录中包含一个名为robots.txt的文件（即，使用URL http://server/robots.txt ）来指定抓取工具如何（以及如果）抓取该网站 -特别是，它可以列出爬虫不应该尝试访问的（部分）URL。如果需要，可以根据搜寻器（user-agent）分别指定这些值。

爬虫在网上冲浪，跟随链接。一个例子是Google机器人获取页面索引。刮板从表格中提取价值，但不一定与networking有任何关系。

Web爬虫在逻辑中获取链接（Url – Pages），并且刮板从HTML获取值（提取）。

有这么多的networking爬虫工具。访问页面看一些。任何XML – HTMLparsing器都可以用来从抓取的页面中提取（报废）数据。（我build议Jsoupparsing和提取数据）

一般来说，抓取工具会沿着链接到达多个页面，而铲除工具从某种意义上说，只是拉动在线显示的内容，而不会到达更深的链接。

最典型的爬虫是谷歌机器人，它会遵循链接到达您网站上的所有网页，并将其索引的内容，如果他们发现有用（这就是为什么你需要robots.txt告诉哪些内容，你不想成为索引）。所以我们可以在网站上search这样的内容。而刮板的目的只是为了个人使用，不会对其他人造成太大的影响。

但是，现在抓取工具和抓取工具没有什么特别的区别，因为一些自动化的网页抓取工具也允许您通过链接（如Octoparse和import.io）抓取网站。他们不是像谷歌机器人一样的抓取工具，但他们能够自动抓取网站，无需编码即可获取大量数据。