用GOOGLEsearchhtml源代码？

我有几个网站，我不记得我写了几行代码。当我的网页被Google索引时，我想知道Google是否提供了在HTML源代码/标记本身内进行search的工具，而不仅仅是允许在页面的可视化，渲染和部分search中进行search？

谢谢

有一个名为NerdyData的新search引擎，可以让你searchHTML / CSS / JS源代码

他们索引了超过一千六百万个公共领域，我发现这些数据很有用。

我在旅行中遇到以下资源（上面已经提到了一些）：

HTML标记为重点的search引擎

我还想提出以下build议：

巨大的，网站抓取数据档案

“115m” Meanpath网站url抓取文章突出了“ 常见抓取url索引” （以及其他url数据）的用法。

我们如何分析这个抓取数据？

有关如何开始分析这些海量数据的想法，请参阅Big Data / Map-reduce-type框架。

Google列举了一些关于使用Apache的Spark项目来分析Common Crawl的转储的想法。要了解Common Crawl使用的文件格式，请参阅以下内容：

文章“ Accessing-Common-Crawl-Dataset-on-S3 ”概述了以低成本方式访问Common Crawl的250TB +转储，而不将数据负载转移到Amazon的AWS / S3networking之外。当然，假设您将使用AWS / EC2 / S3等组合来分析抓取数据。

最后， Patrick Durusau维护了一些有趣的与常见爬虫相关的博客页面。

就个人而言，我觉得这个主题很有趣，我build议我们得到这个抓取数据，而它的热！ 😉

谷歌无法search您的代码从网站。您可以使用http://nerdydata.com/这是我使用的最好的代码search引擎！; 我想你会从这个网站得到你的确切代码。

您可以尝试使用PublicWWW进行源/标记search。它允许在1.67亿网站上的网页源代码中find任何HTML，JavaScript，CSS和纯文本。

通过PublicWWW，您可以：

当然，你不仅可以find你的网站使用一些代码/标记片段。

您也可以尝试meanpath在HTML源代码中进行search。虽然它是一个商业工具，它可以让你评估他们的服务。截至2014年11月，它声称已经在141,670,458个实时域名上索引了页面。

当您的网站抓取您的网站时，您的网站上的一些代码行（如果不是客户端脚本）对于谷歌是不可见的。当访问网站输出代码的工作结果时，Google如何在你的php代码中find一些东西？