用GOOGLEsearchhtml源代码?
我有几个网站,我不记得我写了几行代码。 当我的网页被Google索引时,我想知道Google是否提供了在HTML源代码/标记本身内进行search的工具, 而不仅仅是允许在页面的可视化,渲染和部分search中进行search?
谢谢
有一个名为NerdyData的新search引擎,可以让你searchHTML / CSS / JS源代码
他们索引了超过一千六百万个公共领域,我发现这些数据很有用。
我在旅行中遇到以下资源(上面已经提到了一些):
HTML标记为重点的search引擎
- Nerdydata
- Globalogiq.com“Codesearch”
我还想提出以下build议:
巨大的,网站抓取数据档案
- 常见的抓取 – “多年的免费网页数据帮助改变世界”(超过250TB +)
- 2014年1月4日,来自115个网站的1.6TB 抓取数据 (由Meanpath慷慨捐赠给社区)
“115m” Meanpath网站url抓取文章突出了“ 常见抓取url索引” (以及其他url数据)的用法。
我们如何分析这个抓取数据?
有关如何开始分析这些海量数据的想法,请参阅Big Data / Map-reduce-type框架 。
Google列举了一些关于使用Apache的Spark项目来分析Common Crawl的转储的 想法 。 要了解Common Crawl使用的文件格式 ,请参阅以下内容:
- 所以,你已经准备好开始[与普通抓取]
- 浏览WARC文件格式[通过普通抓取]
文章“ Accessing-Common-Crawl-Dataset-on-S3 ”概述了以低成本方式访问Common Crawl的250TB +转储 , 而不将数据负载转移到Amazon的AWS / S3networking之外。 当然,假设您将使用AWS / EC2 / S3等组合来分析抓取数据。
最后, Patrick Durusau维护了一些有趣的与常见 爬虫 相关的博客页面 。
就个人而言,我觉得这个主题很有趣,我build议我们得到这个抓取数据,而它的热! 😉
谷歌无法search您的代码从网站。您可以使用http://nerdydata.com/这是我使用的最好的代码search引擎!; 我想你会从这个网站得到你的确切代码。
您可以尝试使用PublicWWW进行源/标记search。 它允许在1.67亿网站上的网页源代码中find任何HTML,JavaScript,CSS和纯文本。
通过PublicWWW,您可以:
-
通过他们共享的唯一HTML代码来查找相关网站,例如小工具和发布商ID。
-
识别使用特定图像或徽章的网站。
- 找出还有谁在使用你的主题。
- 确定提及你的网站。
- find你的竞争对手的分支机构。
- 确定您的竞争对手亲自协作或互动的网站。
- 引用使用库或平台。
- 在网上find代码示例。
- 找出谁在他们的网站上使用什么JS小部件。
- …
当然,你不仅可以find你的网站使用一些代码/标记片段。
您也可以尝试meanpath在HTML源代码中进行search。 虽然它是一个商业工具,它可以让你评估他们的服务。 截至2014年11月,它声称已经在141,670,458个实时域名上索引了页面。
当您的网站抓取您的网站时,您的网站上的一些代码行(如果不是客户端脚本)对于谷歌是不可见的。 当访问网站输出代码的工作结果时,Google如何在你的php代码中find一些东西?
http://google.com/codesearch将search公开可用的来源,因此,如果您将来源存储在github上,则会find它。;