Tag: web scraping

networking抓取 – 如何识别网页上的主要内容

鉴于新闻文章的网页(来自任何主要新闻来源,如时代或彭博社),我想确定在该网页上的主要文章内容,并抛出其他杂项元素,如广告,菜单,边栏,用户评论。 在大多数主要新闻网站上,通用的方法是什么? 数据挖掘有哪些好的工具或库? (最好是基于python)

Web与Haskell刮擦

Haskell网站的当前状态是什么? 我试图让自己更多地做我在哈斯克尔快速的一次性的任务,以帮助提高我的语言舒适度。 在Python中,我倾向于使用优秀的PyQuery库。 Haskell有类似的简单和容易吗? 我已经研究了Tag Soup,虽然parsing器本身看起来不错,但是实际上遍历页面并不像其他语言那样好。 那里有更好的select吗?

哪个HTMLparsing器是最好的?

我编码了很多parsing器。 到目前为止,我正在使用HtmlUnit无头浏览器进行parsing和浏览器自动化。 现在,我想分开这两个任务。 由于80%的工作只涉及parsing,我想使用一个浅的HTMLparsing器,因为它需要很多时间在HtmlUnit中首先加载一个页面,然后获取源代码,然后parsing它。 我想知道哪个HTMLparsing器是最好的。 如果接近HtmlUnitparsing器,parsing器会更好。 编辑: 最好的,我想至less有以下function: 速度 通过其“标识”或“名称”或“标签types”轻松定位任何HtmlElement。 如果它不清除脏HTML代码,这将是好的。 我不需要清理任何HTML源代码。 我只需要一个最简单的方法来移动HtmlElements并从中收集数据。

如何获取任何url或网页的Googlecaching年龄?

在我的项目中,我需要将Googlecaching年龄添加为重要信息。 我试图searchGooglecaching时代的来源,也就是Google上次重新编制索引后的天数。 我在哪里可以获得Googlecaching年龄?

在Android中抓取HTML网页的最快方法是什么?

我需要从Android中的非结构化网页中提取信息。 我想要的信息embedded在没有ID的表格中。 <table> <tr><td>Description</td><td></td><td>I want this field next to the description cell</td></tr> </table> 我应该使用 模式匹配? 使用BufferedReader来提取信息? 还是有更快的方式来获得这些信息?

如何使用Python请求来伪造浏览器访问?

我想从下面的网站获取内容。 如果我使用Firefox或Chrome浏览器,我可以得到我想要的真实网页,但如果使用Python请求包(或wget命令)来获取它,它将返回一个完全不同的HTML页面。 我以为网站的开发者为此做了一些阻断,所以问题是: 如何通过使用python请求或命令wget来伪造浏览器访问? http://www.ichangtou.com/#company:data_000008.html

使用vba从网站上刮取数据

我试图从网站刮取数据: http : //uk.investing.com/rates-bonds/financial-futures通过VBA,像实时价格,即德国5 YR鲍勃,美国30Y T型债券,我已经尝试过Excelnetworking查询,但它只是刮了整个网站,但我只想刮掉率,有没有办法做到这一点?

Java的HTMLparsing

我正在从一个网站上刮取数据的应用程序,我想知道如何去获取数据。 具体而言,我需要包含在使用特定CSS类的多个div标签中的数据 – 目前(用于testing目的)我只是检查 div class = "classname" 在HTML的每一行 – 这工作,但我不禁觉得有一个更好的解决scheme。 有什么好的方法,我可以给一个类的HTML一行,并有一些不错的方法,如: boolean usesClass(String CSSClassname); String getText(); String getLink();

HTML抓取的选项?

我正在考虑尝试Beautiful Soup ,一个用于HTML抓取的Python包。 还有其他的HTML抓取包我应该看? Python不是必需的,我其实也对其他语言感兴趣。 迄今为止的故事: python 美丽的汤 LXML HTQL Scrapy 机械化 ruby 引入nokogiri angular度来说,Hpricot 机械化 scrAPI scRUBYt! 袋熊 的Watir 。净 Html敏捷包 华廷 Perl的 WWW ::机械化 网页式铲运机 Java的 标签汤 的HtmlUnit networking丰收 jARVEST jsoup 杰里科HTMLparsing器 JavaScript的 请求 cheerio artoo 节点骑手 phantomjs PHP GOUTTE htmlSQL PHP简单的HTML DOMparsing器 PHP用CURL刮擦 他们中的大多数 屏幕刮板