Wget将输出文件和标题输出到STDOUT
我正在尝试通过wget -S -O - http://google.com
将文档正文及其标题输出到stdout
但它只显示html文档。
谢谢
UPD:
工作了这个wget --save-headers --output-document - http://google.com
wget --version
显示GNU Wget 1.11.4红帽修改
尝试以下,没有额外的标题
wget -qO- www.google.com
注意尾随-
。 这是-O
的常规命令参数的一部分,以便输出到文件,但是由于我们不使用>
来指向文件,所以它会出现在shell中。 您可以使用-qO-
或-qO -
。
wget -S -O - http://google.com
可以按照我的预期工作, 但有一点要注意:头文件被认为是debugging信息,因此它们被发送到标准错误而不是标准输出。 如果您将标准输出redirect到文件或其他进程,则只能获取文档内容。
您可以尝试将标准错误redirect到标准输出,作为可能的解决scheme。 例如,在bash
:
$ wget -q -S -O - 2>&1 | grep ...
要么
$ wget -q -S -O - 1>wget.txt 2>&1
-q
选项禁止进度条和wget
输出的一些烦人的讨厌的部分。
它在这里工作:
$ wget -S -O - http://google.com HTTP request sent, awaiting response... HTTP/1.1 301 Moved Permanently Location: http://www.google.com/ Content-Type: text/html; charset=UTF-8 Date: Sat, 25 Aug 2012 10:15:38 GMT Expires: Mon, 24 Sep 2012 10:15:38 GMT Cache-Control: public, max-age=2592000 Server: gws Content-Length: 219 X-XSS-Protection: 1; mode=block X-Frame-Options: SAMEORIGIN Location: http://www.google.com/ [following] --2012-08-25 12:20:29-- http://www.google.com/ Resolving www.google.com (www.google.com)... 173.194.69.99, 173.194.69.104, 173.194.69.106, ... ...skipped a few more redirections ... [<=> ] 0 --.-K/s <!doctype html><html itemscope="itemscope" itemtype="http://schema.org/WebPage"><head><meta itemprop="image" content="http://img.dovov.comgoogle_favicon_128.png"><ti ... skipped ...
也许你需要更新你的wget( ~$ wget --version GNU Wget 1.14 built on linux-gnu.
)
这不会工作:
wget -q -S -O - google.com 1>wget.txt 2>&1
由于redirect从右到左计算,因此将html发送到wget.txt,并将头发送到STDOUT:
wget -q -S -O - google.com 2>&1 1>wget.txt