阻止Googlebuild立索引
有没有办法阻止谷歌索引一个网站?
的robots.txt
User-agent: * Disallow: /
这将阻止索引的所有search机器人。
有关详情,请参阅: http : //www.google.com/support/webmasters/bin/answer.py?hl = zh_CN& answer = 40360
我必须在这里添加我的答案,因为接受的答案并不真正触及问题。 另外请记住,阻止Google抓取并不意味着您可以保持您的内容私密。
我的回答基于几个来源: https : //developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq–crawling- -indexing —排名
robots.txt
文件控制抓取,但不索引! 这两个是完全不同的行为,分开进行。 有些页面可能被抓取,但没有被索引,有些甚至可能被索引, 但从未被抓取 。 其他网站上可能存在指向非爬行页面的链接,这会使Google索引器跟随它并尝试索引。
问题是关于收集关于页面的数据的索引,所以它可能通过search结果可用。 它可以阻止添加元标记:
<meta name="robots" content="noindex" />
或者将HTTP头添加到响应中:
X-Robots-Tag: noindex
如果问题是关于爬行,那么当然你可以创buildrobots.txt
文件,并提出以下几行:
User-agent: * Disallow: /
抓取是为了收集关于特定网站结构的信息而采取的行动。 例如,您已经通过Google网站pipe理员工具添加了该网站。 抓取工具会将其logging下来,并访问您的网站,searchrobots.txt
。 如果没有find,那么它会假定它可以抓取任何东西(为了帮助执行此操作,并指定优先级并定义更改频率,也需要具有sitemap.xml
文件,这一点非常重要)。 如果find该文件,将遵循规则。 成功抓取后,它将在某个时刻为抓取的页面运行索引,但不能分辨何时…
重要提示 :这一切意味着您的网页仍然可以显示在Googlesearch结果中,而不piperobots.txt
。
我希望至less有一些用户能够阅读这个答案,并且清楚地知道,因为了解实际发生的事情至关重要。
仅供参考 – Google有一个网站pipe理员工具网站,值得至less查看.. .. http://www.google.com/webmasters/start/
Google 服从 robots.txt文件。
我使用一个简单的aspx页面来传递谷歌的结果到我的浏览器使用一个假的“Pref”的cookie,一次获得100个结果,我不希望谷歌看到这个中继页,所以我检查IP地址,如果它开始与66.249,那么我只是做一个redirect。
点击我的名字,如果你重视隐私,想要一个副本。
我使用的另一个技巧是有一些JavaScript调用页面设置会话中的标志,因为大多数(不是所有)的networking机器人不执行JavaScript,所以你知道这是一个closuresJavaScript的浏览器,或者是一个比like一个机器人
您也可以通过这种方式添加元机器人:
<head> <title>...</title> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> </head>
而另一个额外的层是修改.htaccess,但你需要深入检查。
使用nofollow meta标签:
<meta name="robots" content="nofollow" />
要在链接级别指定nofollow,请将具有值nofollow的属性rel添加到链接:
<a href="example.html" rel="nofollow" />
您可以通过在apache conf中全局添加以下设置来禁用此服务器范围,或者可以在vhost中使用相同的参数来仅为特定虚拟主机禁用该参数。
标题集X-Robots-Tag“noindex,nofollow”
一旦完成,你可以通过validation返回的Apache头来testing它。
curl -I staging.mywebsite.com HTTP / 1.1 302find的date:2016年11月26日22:36:33 GMT服务器:Apache / 2.4.18(Ubuntu)位置:/ pages / X-Robots-Tag:noindex,nofollow Content-Type:text / html; 字符集= UTF-8
请记住,尽pipe他们声称遵守robots.txt,Bing的微软爬虫并不总是这样做。
我们的服务器统计数据表明,他们有一些运行不遵守robots.txt的爬行程序的IP地址以及一些IP地址。