用GOOGLEsearchhtml源代码?

我有几个网站,我不记得我写了几行代码。 当我的网页被Google索引时,我想知道Google是否提供了在HTML源代码/标记本身内进行search的工具, 不仅仅是允许在页面的可视化,渲染和部分search中进行search?

谢谢

有一个名为NerdyData的新search引擎,可以让你searchHTML / CSS / JS源代码

他们索引了超过一千六百万个公共领域,我发现这些数据很有用。

我在旅行中遇到以下资源(上面已经提到了一些):

HTML标记为重点的search引擎

  • Nerdydata
  • Globalogiq.com“Codesearch”

我还想提出以下build议:

巨大的,网站抓取数据档案

  • 常见的抓取 – “多年的免费网页数据帮助改变世界”(超过250TB +)
  • 2014年1月4日,来自115个网站的1.6TB 抓取数据 (由Meanpath慷慨捐赠给社区)

“115m” Meanpath网站url抓取文章突出了“ 常见抓取url索引” (以及其他url数据)的用法。

我们如何分析这个抓取数据?

有关如何开始分析这些海量数据的想法,请参阅Big Data / Map-reduce-type框架 。

Google列举了一些关于使用Apache的Spark项目来分析Common Crawl的转储的 想法 。 要了解Common Crawl使用的文件格式 ,请参阅以下内容:

  • 所以,你已经准备好开始[与普通抓取]
  • 浏览WARC文件格式[通过普通抓取]

文章“ Accessing-Common-Crawl-Dataset-on-S3 ”概述了以低成本方式访问Common Crawl的250TB +转储 , 而不将数据负载转移到Amazon的AWS / S3networking之外。 当然,假设您将使用AWS / EC2 / S3等组合来分析抓取数据。

最后, Patrick Durusau维护了一些有趣的与常见 爬虫 相关的博客页面 。

就个人而言,我觉得这个主题很有趣,我build议我们得到这个抓取数据,而它的热! 😉

谷歌无法search您的代码从网站。您可以使用http://nerdydata.com/这是我使用的最好的代码search引擎!; 我想你会从这个网站得到你的确切代码。

您可以尝试使用PublicWWW进行源/标记search。 它允许在1.67亿网站上的网页源代码中find任何HTML,JavaScript,CSS和纯文本。

通过PublicWWW,您可以:

  • 通过他们共享的唯一HTML代码来查找相关网站,例如小工具和发布商ID。

  • 识别使用特定图像或徽章的网站。

  • 找出还有谁在使用你的主题。
  • 确定提及你的网站。
  • find你的竞争对手的分支机构。
  • 确定您的竞争对手亲自协作或互动的网站。
  • 引用使用库或平台。
  • 在网上find代码示例。
  • 找出谁在他们的网站上使用什么JS小部件。

当然,你不仅可以find你的网站使用一些代码/标记片段。

您也可以尝试meanpath在HTML源代码中进行search。 虽然它是一个商业工具,它可以让你评估他们的服务。 截至2014年11月,它声称已经在141,670,458个实时域名上索引了页面。

当您的网站抓取您的网站时,您的网站上的一些代码行(如果不是客户端脚本)对于谷歌是不可见的。 当访问网站输出代码的工作结果时,Google如何在你的php代码中find一些东西?

http://google.com/codesearch将search公开可用的来源,因此,如果您将来源存储在github上,则会find它。;