如何使用Wget将所有图像下载到一个文件夹中
我正在使用wget从网站下载所有的图像,它工作正常,但它存储与所有子文件夹网站的原始层次结构,所以图像周围点缀。 有没有办法让它将所有的图像下载到一个文件夹? 我现在使用的语法是:
wget -r -A jpeg,jpg,bmp,gif,png http://www.domain.com
尝试这个:
wget -nd -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.domain.com
更多信息:
-nd
防止创build一个目录层次结构(即没有目录 )。
-r
启用recursion检索。 请参阅recursion下载以获取更多信息。
-P
设置所有文件和目录保存到的目录前缀。
-A
设置白名单来检索只有某些文件types。 string和模式被接受,两者都可以在逗号分隔列表中使用(如上所示)。 有关更多信息,请参阅文件types 。
wget -nd -r -l 2 -A jpg,jpeg,png,gif http://t.co
-
-nd
:没有目录(保存所有文件到当前目录;-P directory
改变目标目录) -
-r -l 2
:recursion级别2 -
-A
:接受的扩展名
wget -nd -H -p -A jpg,jpeg,png,gif -e robots=off example.tumblr.com/page/{1..2}
-
-H
:跨主机(默认情况下,wget不会从不同的域或子域下载文件) -
-p
:页面必备条件(包括每个页面上的图像等资源) -
-e robots=off
:执行命令robotos=off
,就好像它是.wgetrc
文件的一部分.wgetrc
。 这将closures机器人排除,这意味着你忽略robots.txt和机器人meta标签(你应该知道这个附带的影响,小心)。
示例:从示例目录列表中获取所有.jpg
文件:
$ wget -nd -r -l 1 -A jpg http://example.com/listing/
我写了一个解决多个网站的这个问题的shellcript: https : //github.com/eduardschaeli/wget-image-scraper
(用wget从url列表中抓取图片)
试试这个:
wget -nd -r -P /save/location/ -A jpeg,jpg,bmp,gif,png http://www.domain.com
等到它删除所有额外的信息
根据手册页-P标志是:
-P前缀–directory-prefix = prefix将目录前缀设置为前缀。 目录前缀是所有其他文件和子目录将被保存到的目录,即检索树的顶部。 默认是。 (当前目录)。
这意味着它只指定目的地,但是在哪里保存目录树。 它不会把树变成一个目录 。 如前所述,-nd标志实际上是这样做的。
@Jon在未来将描述旗子的作用是非常有益的,这样我们就能理解事情是如何运作的。
build议的解决scheme是完美的下载图像,如果它足以让你保存所有的文件在你使用的目录。 但是,如果要将所有图像保存在指定的目录中而不复制站点的整个分层树,请尝试在Jon提出的线上添加“cut-dirs”。
wget -r -P /save/location -A jpeg,jpg,bmp,gif,png http://www.boia.de --cut-dirs=1 --cut-dirs=2 --cut-dirs=3
在这种情况下,cut-dirs将阻止wget创build子目录,直到网站层次结构树中的第3层级别,将所有文件保存在指定的目录中。如果添加更多数字的“cut-dirs”if你正在处理与深层结构的网站。
wget实用程序使用广泛使用的协议(如HTTP,HTTPS和FTP)从万维网(WWW)检索文件。 Wget实用程序是免费的包和许可证是在GNU GPL许可证下。 该实用程序可以安装任何类Unix操作系统,包括Windows和MAC OS。 这是一个非交互式的命令行工具。 Wget的主要特点是它的鲁棒性。 它是这样devise的,以便在慢速或不稳定的networking连接中工作。 Wget在networking出现问题的情况下自动开始下载。 也recursion下载文件。 它会继续尝试,直到文件被完全检索。
在linux机器上安装wget apt-get install wget
创build一个您要下载文件的文件夹。 sudo mkdir myimages cd myimages
右键单击网页,例如,如果你想图像位置右键单击图像和复制图像的位置。 如果有多个图像,请按照以下步骤操作:
如果一次有20个图像从网上下载,范围从0到19。
wget http://joindiaspora.com/img {0..19} .jpg