如何使用wget从网站下载所有文件(但不是HTML)?
如何使用wget
并从网站获取所有文件?
我需要除HTML,PHP,ASP等网页文件外的所有文件
要筛选特定的文件扩展名:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
或者,如果您更喜欢长选项名称:
wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
这将反映网站,但没有jpg
或pdf
扩展名的文件将被自动删除。
wget -m -p -E -k -K -np http://site/path/
手册页会告诉你这些选项做什么。
wget
只会跟踪链接,如果没有链接到索引页面的文件,那么wget
不会知道它的存在,因此不会下载它。 即。 它有助于所有文件链接到网页或目录索引。
这为我下载了整个网站:
wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/
我试图下载从Omeka的主题页面链接的zip文件 – 非常类似的任务。 这对我工作:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-
-A
:只接受zip文件 -
-r
:recursion -
-l 1
:深一级(即只有从这个页面直接链接的文件) -
-nd
:不要创build一个目录结构,只需将所有的文件下载到这个目录。
所有使用-k
, -K
, -E
等选项的答案可能都没有真正理解这个问题,比如重写HTML页面来创build本地结构,重命名.php
文件等等。 不相关。
要从字面上获取除 .html
之外的所有文件:
wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com
你可以尝试:
wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/
你也可以添加:
-A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar
接受特定的扩展名,或只拒绝特定的扩展名:
-R html,htm,asp,php
或排除特定的区域:
-X "search*,forum*"
如果机器人(例如search引擎)忽略这些文件,则还必须添加: -e robots=off
尝试这个。 它总是为我工作
wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
在Windows系统上,以获得wget你可能
- 下载Cygwin
- 下载GnuWin32
wget -m -A * -pk -e robots=off www.mysite.com/
这将下载所有types的文件在本地,并指向他们从HTML文件,它会忽略机器人文件