阻止Googlebuild立索引

有没有办法阻止谷歌索引一个网站？

的robots.txt

User-agent: * Disallow: /

这将阻止索引的所有search机器人。

有关详情，请参阅： http ： //www.google.com/support/webmasters/bin/answer.py？hl = zh_CN＆ answer = 40360

我必须在这里添加我的答案，因为接受的答案并不真正触及问题。另外请记住，阻止Google抓取并不意味着您可以保持您的内容私密。

我的回答基于几个来源： https ： //developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq–crawling- -indexing —排名

robots.txt文件控制抓取，但不索引！这两个是完全不同的行为，分开进行。有些页面可能被抓取，但没有被索引，有些甚至可能被索引，但从未被抓取。其他网站上可能存在指向非爬行页面的链接，这会使Google索引器跟随它并尝试索引。

问题是关于收集关于页面的数据的索引，所以它可能通过search结果可用。它可以阻止添加元标记：

 <meta name="robots" content="noindex" />

或者将HTTP头添加到响应中：

 X-Robots-Tag: noindex

如果问题是关于爬行，那么当然你可以创buildrobots.txt文件，并提出以下几行：

 User-agent: * Disallow: /

抓取是为了收集关于特定网站结构的信息而采取的行动。例如，您已经通过Google网站pipe理员工具添加了该网站。抓取工具会将其logging下来，并访问您的网站，searchrobots.txt 。如果没有find，那么它会假定它可以抓取任何东西（为了帮助执行此操作，并指定优先级并定义更改频率，也需要具有sitemap.xml文件，这一点非常重要）。如果find该文件，将遵循规则。成功抓取后，它将在某个时刻为抓取的页面运行索引，但不能分辨何时…

重要提示 ：这一切意味着您的网页仍然可以显示在Googlesearch结果中，而不piperobots.txt 。

我希望至less有一些用户能够阅读这个答案，并且清楚地知道，因为了解实际发生的事情至关重要。

http://www.robotstxt.org/

仅供参考 – Google有一个网站pipe理员工具网站，值得至less查看.. .. http://www.google.com/webmasters/start/

Google 服从 robots.txt文件。

我使用一个简单的aspx页面来传递谷歌的结果到我的浏览器使用一个假的“Pref”的cookie，一次获得100个结果，我不希望谷歌看到这个中继页，所以我检查IP地址，如果它开始与66.249，那么我只是做一个redirect。

点击我的名字，如果你重视隐私，想要一个副本。

我使用的另一个技巧是有一些JavaScript调用页面设置会话中的标志，因为大多数（不是所有）的networking机器人不执行JavaScript，所以你知道这是一个closuresJavaScript的浏览器，或者是一个比like一个机器人

您也可以通过这种方式添加元机器人：

 <head> <title>...</title> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> </head>

而另一个额外的层是修改.htaccess，但你需要深入检查。

使用nofollow meta标签：

 <meta name="robots" content="nofollow" />

要在链接级别指定nofollow，请将具有值nofollow的属性rel添加到链接：

 <a href="example.html" rel="nofollow" />

您可以通过在apache conf中全局添加以下设置来禁用此服务器范围，或者可以在vhost中使用相同的参数来仅为特定虚拟主机禁用该参数。

标题集X-Robots-Tag“noindex，nofollow”

一旦完成，你可以通过validation返回的Apache头来testing它。

curl -I staging.mywebsite.com HTTP / 1.1 302find的date：2016年11月26日22:36:33 GMT服务器：Apache / 2.4.18（Ubuntu）位置：/ pages / X-Robots-Tag：noindex，nofollow Content-Type：text / html; 字符集= UTF-8

请记住，尽pipe他们声称遵守robots.txt，Bing的微软爬虫并不总是这样做。

我们的服务器统计数据表明，他们有一些运行不遵守robots.txt的爬行程序的IP地址以及一些IP地址。