Tag: 网刮

selenium与scrapydynamic页面

我试图从网页上刮取产品信息,使用scrapy。 我的被​​刮的网页看起来像这样: 从10个产品的product_list页面开始 点击“下一步”button加载下面的10个产品(url在两页之间不会改变) 我使用LinkExtractor来跟踪每个产品链接到产品页面,并获得所有我需要的信息 我试图复制next-button-ajax-call,但无法正常工作,所以我给selenium一个尝试。 我可以在一个单独的脚本中运行selenium的webdriver,但我不知道如何与scrapy集成。 我应该在哪里把selenium元素放入我的蜘蛛蛛? 我的蜘蛛是相当标准的,如下所示: class ProductSpider(CrawlSpider): name = "product_spider" allowed_domains = ['example.com'] start_urls = ['http://example.com/shanghai'] rules = [ Rule(SgmlLinkExtractor(restrict_xpaths='//div[@id="productList"]//dl[@class="t2"]//dt'), callback='parse_product'), ] def parse_product(self, response): self.log("parsing product %s" %response.url, level=INFO) hxs = HtmlXPathSelector(response) # actual data follows 任何想法是赞赏。 谢谢!

无头浏览器和刮 – 解决scheme

我试图把浏览器自动testing套件和无头浏览器平台的可能的解决scheme清单能够刮。 浏览器testing/清理: Selenium – 浏览器自动化中的polyglot旗舰,为Python,Ruby,JavaScript,C#,Haskell等提供绑定,用于Firefox(作为扩展)的IDE,用于更快的testing部署。 可以作为一个服务器,并具有吨的function。 JAVASCRIPT PhantomJS – 使用屏幕截图和自动化的JavaScript无头testing,使用Webkit 。 从版本1.8开始,Selenium的WebDriver API被实现,所以你可以使用任何的WebDriver绑定和testing将与Selenium兼容 SlimerJS – 与PhantomJS类似,使用Gecko (Firefox)而不是WebKit CasperJS – 基于PhantomJS和SlimerJS构build的JavaScript ,具有额外的function Ghost驱动程序 – 用于PhantomJS的WebDriver Wire Protocol的 JavaScript实现。 新的 PhantomCSS – CSS回归testing。 一个CasperJS模块,用于使用PhantomJS和Resemble.js自动进行可视化回归testing。 新的 WebdriverCSS – Webdriver.io的插件,用于自动化视觉回归testing 新的 PhantomFlow – 通过testing描述和可视化用户stream程。 Web用户界面testing的一种实验方法。 新的 trifleJS – 移植 PhantomJS API来使用Internet Explorer引擎。 新的 CasperJS IDE (商业) Node.js的 节点 – […]

Python – 从谷歌图片search下载图片?

我想使用python下载谷歌图片search的所有图片。 我使用的代码似乎有一些问题。我的代码是 import os import sys import time from urllib import FancyURLopener import urllib2 import simplejson # Define search term searchTerm = "parrot" # Replace spaces ' ' in search term for '%20' in order to comply with request searchTerm = searchTerm.replace(' ','%20') # Start FancyURLopener with defined version class MyOpener(FancyURLopener): version = 'Mozilla/5.0 (Windows; […]

如何使用我已经知道URL地址的Python在本地保存图像?

我知道互联网上的图像的url。 例如包含Google徽标的http://www.digimouth.com/news/media/2011/09/google-logo.jpg 。 现在,我怎样才能使用Python下载这个图像,而无需在浏览器中实际打开URL并手动保存文件。

Scrapy非常基本的例子

您好我的Python上安装了Python Scrapy,我试图按照他们的networking上的第一个例子 。 他们试图运行命令: scrapy crawl mininova.org -o scraped_data.json -t json 我不太明白这是什么意思? 看起来像scrapy竟然是一个单独的程序。 我不认为他们有一个叫爬行的命令。 在这个例子中,他们有一段代码,它是类MininovaSpider和TorrentItem的定义。 我不知道这两个类应该去哪里,去同一个文件,这个python文件的名字是什么?

使用python-Scrapy刮取dynamic内容

免责声明:我已经在StackOverflow上看到许多其他类似的post,并试图以同样的方式做,但他们似乎并没有在这个网站上工作。 我正在使用Python-Scrapy从koovs.com获取数据。 但是,我无法获得dynamic生成的产品大小。 具体来说,如果有人可以指导我从这个链接的下拉菜单中获取“不可用”尺寸标签,我将不胜感激。 我能够静态地获得大小列表,但是这样做只能获取大小列表,而不能获取大小列表。