用 GOOGLE 搜索 html 源代码?

我有几个网站,我不记得我在哪里写了一些代码行。由于我的页面是由谷歌索引的,我想知道,如果谷歌提供了一个设施,搜索内的 HTML 源代码/标记本身,而不是只允许搜索内的可视化,呈现,页面的一部分?

谢谢

98696 次浏览

在我的旅行中,我发现了以下资源(有些已经在上面提到了) :

专注于标记的搜索引擎

我还想附上以下几点:

巨大的,网站抓取数据存档

我们如何分析这些爬行数据?

要了解如何开始分析这些海量数据,请看 大数据/Map-reduce-type 框架

Google 列出了一些关于使用 Apache 的 Spark 项目 来分析 共同爬行的垃圾场的想法:

这篇名为 访问 S3上的公共爬行数据集的文章概述了如何以低成本的方式访问 Common Crawl 的250TB + 转储,将数据负载传输到 Amazon 的 AWS/S3网络之外的 没有。当然,这是假设您的 将使用一些组合 AWS/EC2/S3等来分析爬网数据。

最后,Patrick Durusau维护 一些有趣的公共爬行使用相关的博客页面

就我个人而言,我觉得这个主题很有趣,我建议我们 趁热得到这个抓取数据!; -)

您可以尝试使用 PublicWWW在源代码/标记中进行搜索。它允许查找任何 HTML,JavaScript,CSS 和纯文本的网页源代码在1.67亿多个网站。

通过 PublicWWW 你可以:

  • 找到相关网站通过独特的 HTML 代码,他们共享,即。 小部件和发布者 ID

  • 使用某些图像或徽章识别网站。

  • 找出还有谁在使用你的主题。
  • 找出提到你的网站。
  • 找到你竞争对手的子公司。
  • 确定你的竞争对手个人合作或互动的网站。
  • 使用库或平台的引用。
  • 在网上查找代码示例。
  • 弄清楚谁在他们的网站上使用什么 JS 小部件。
  • ...

当然,你不仅可以找到你的网站使用一些代码/标记片段。