如何使用wget从网站下载所有文件（但不是HTML）？

如何使用wget并从网站获取所有文件？

我需要除HTML，PHP，ASP等网页文件外的所有文件

要筛选特定的文件扩展名：

 wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

或者，如果您更喜欢长选项名称：

 wget --accept pdf,jpg --mirror --page-requisites --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

这将反映网站，但没有jpg或pdf扩展名的文件将被自动删除。

 wget -m -p -E -k -K -np http://site/path/

手册页会告诉你这些选项做什么。

wget只会跟踪链接，如果没有链接到索引页面的文件，那么wget不会知道它的存在，因此不会下载它。即。它有助于所有文件链接到网页或目录索引。

这为我下载了整个网站：

 wget --no-clobber --convert-links --random-wait -r -p -E -e robots=off -U mozilla http://site/path/

我试图下载从Omeka的主题页面链接的zip文件 – 非常类似的任务。这对我工作：

 wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/

所有使用-k ， -K ， -E等选项的答案可能都没有真正理解这个问题，比如重写HTML页面来创build本地结构，重命名.php文件等等。不相关。

要从字面上获取除 .html 之外的所有文件：

 wget -R html,htm,php,asp,jsp,js,py,css -r -l 1 -nd http://yoursite.com

你可以尝试：

 wget --user-agent=Mozilla --content-disposition --mirror --convert-links -E -K -p http://example.com/

你也可以添加：

 -A pdf,ps,djvu,tex,doc,docx,xls,xlsx,gz,ppt,mp4,avi,zip,rar

接受特定的扩展名，或只拒绝特定的扩展名：

 -R html,htm,asp,php

或排除特定的区域：

 -X "search*,forum*"

如果机器人（例如search引擎）忽略这些文件，则还必须添加： -e robots=off

尝试这个。它总是为我工作

 wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL

在Windows系统上，以获得wget你可能

 wget -m -A * -pk -e robots=off www.mysite.com/

这将下载所有types的文件在本地，并指向他们从HTML文件，它会忽略机器人文件