Tag: 屏幕刮

无头,脚本化的Firefox / Webkit的Linux?

我正在寻求自动化一些networking交互,即定期从安全的网站下载文件。 这基本上涉及input我的用户名/密码和导航到适当的URL。 我尝试了简单的Python脚本,然后是更复杂的脚本,只是发现这个特定的网站正在使用一些令人讨厌的基于JavaScript和Flash的login机制,使我的方法无用。 然后,我尝试HTMLUnit,但似乎并不想要工作。 我怀疑是使用Flash的问题。 我不想再考虑这个问题了,所以我倾向于使用脚本编写实际的浏览器来login并获取我需要的文件。 要求是: 在Linux服务器上运行(即没有X运行)。 如果我真的需要让XI能做到这一点,但我不会高兴。 可靠。 我想开始这个事情,不要再想这个了。 可以编写脚本 没有太复杂的,但我应该能够告诉浏览器采取的各种步骤和页面访问。 X无脚本的可编写脚本的浏览器有没有好的工具包? 你有没有尝试过这样的事情,如果有的话,你有任何智慧的话?

如果对象有其他类,美丽的汤也找不到CSS类

如果一个页面有<div class="class1">和<p class="class1"> ,那么soup.findAll(True, 'class1')会find它们。 如果它有<p class="class1 class2"> ,但它不会被find。 我如何find具有某个类的所有对象,而不pipe它们是否还有其他类?

CasperJS将数据传回给PHP

CasperJS被PHP用exec()命令调用。 在CasperJS完成其工作(如检索网页的某些部分)之后,如何将检索到的数据返回给PHP?

从一个网页上刮很多Javascript的屏幕

我被要求编写一个应用程序,屏幕从内联网网页抓取信息,并以一个很好的方便查看格式来显示它的某些信息。 该网页是一个真正的混乱,并要求用户点击六个图标,以发现订单项目是否已经到达或已经收到。 正如你可以想象的,用户觉得这至less是一件令人讨厌的事情,如果有一个任何人都可以使用的应用程序,在一个屏幕上列出他们的订单状态将是很好的。 是的,我知道一个更好的解决scheme将是重新编写Web应用程序,但这涉及到供应商的召唤,并将花费我们小小的财富。 无论如何,当看着这个我发现我想刮的网页大多是Javascript(虽然它不使用任何AJAX技术)。 有谁知道如果一个库或程序存在,我可以用Javascript喂,然后将吐出我的应用程序的DOMparsing? 我几乎可以用任何语言编写应用程序,但是我的select是JavaFX,所以我可以用它来玩。 谢谢你的时间。 伊恩

使用python从HTML页面源下载图像文件?

我正在写一个刮板,从HTML页面下载所有的图像文件,并将它们保存到一个特定的文件夹。 所有的图像都是HTML页面的一部分。

在Php的HTML刮

我一直在使用正则expression式在PHP中进行一些HTML抓取。 这工作,但结果是挑剔和脆弱。 有没有人使用任何提供更强大的解决scheme的软件包? configuration驱动的解决scheme将是理想的,但我不挑剔。

Python无头浏览器(需要JavaScript支持!)

我需要一个非常容易使用的无头浏览器(我对Python和一般编程还是比较新的),这将允许我导航到一个页面,login到一个需要Javascript的表单,然后通过search符合特定条件的结果,单击checkbox,然后单击以下载文件。 所有这些都需要Javascript。 我听到一个无头浏览器是我想要的 – 需求/喜好是我可以从Python运行它,最好是由py2exe(我正在为其他用户编写这个程序)编译生成的脚本。 到目前为止风车看起来可能是我想要的,但我不确定。 任何想法赞赏!

用Python来抓取网页

我想从网站上获取每日日出日落时间。 是否有可能使用Python刮取网页内容? 什么是模块使用? 有没有任何教程可用?