networking抓取和networking抓取有什么区别?

抓取和networking抓取有区别吗?

如果有差异,那么为了收集一些networking数据来提供一个数据库,以便以后在定制的search引擎中使用,最好的方法是什么?

从本质上来说,Google,Yahoo,MSN等都可以search任何信息。 刮一般是针对某些网站的,特定的数据,例如价格比较,所以编码完全不同。

通常情况下,一个刮板将被定制到它应该被抓取的网站上,并且会做一个(好的)抓取工具不会做的事情,即:

  • 不要考虑robots.txt
  • 将自己标识为浏览器
  • 用数据提交表单
  • 执行Javascript(如果需要像用户一样行事)

是的,他们是不同的。 在实践中,你可能需要使用两者。

(因为到目前为止,其他的答案都没有涉及它的本质,他们用榜样,但没有明确区分,当然,从2010年开始!)

Web抓取是一个使用最less的定义,是处理一个Web文档并从中提取信息的过程。 你可以做网页抓取而不用做networking抓取。

Web爬行 (使用最小定义)是从种子URL列表开始反复查找和获取Web链接的过程。 严格来说,要进行networking抓取,你必须做一定程度的networking抓取(提取url)。

清除其他答案中提到的一些概念:

  • robots.txt旨在应用于访问网页的任何自动过程。 所以它适用于爬虫和刮板。

  • “适当的”爬虫和刮板,都应该准确地识别自己。

一些参考:

  • 维基百科在网上刮
  • 维基百科在networking爬虫
  • 维基百科robots.txt

AFAIK网页抓取是Google所做的 – 它在网站上查看链接,并build立该网站的布局数据库以及链接到的网站

Web Scraping是一个网页的预加工分析,用来加载一些数据,EG加载BBC的天气,并将天气预报(抓取),并将其放置在其他地方或将其用于其他程序。

这两者之间肯定有区别。 一是指访问一个网站,另一个是提取。

这两者之间有一个根本的区别。 对于那些想要深入挖掘的人,我build议你阅读这个 – Web爬虫,Web爬虫

我们抓取网站,对网站的结构,网页之间的联系以及估计需要访问所有感兴趣页面的时间有广泛的了解。刮擦通常比较难以实现,但这是数据提取的一个本质。 我们来考虑用剪切的一些矩形覆盖网页的刮。 我们现在只能看到我们需要的东西,完全忽略了所有页面(比如导航,页脚,广告)常见的网站部分,或者是作为注释或面包屑的无关信息。 有关爬行和报废之间差异的更多信息,请参阅https://tarantoola.io/web-scraping-vs-web-crawling/