我有几个网站,我不记得我在哪里写了一些代码行。由于我的页面是由谷歌索引的,我想知道,如果谷歌提供了一个设施,搜索内的 HTML 源代码/标记本身,而不是只允许搜索内的可视化,呈现,页面的一部分?
谢谢
在我的旅行中,我发现了以下资源(有些已经在上面提到了) :
专注于标记的搜索引擎
我还想附上以下几点:
巨大的,网站抓取数据存档
我们如何分析这些爬行数据?
要了解如何开始分析这些海量数据,请看 大数据/Map-reduce-type 框架。
Google 列出了一些关于使用 Apache 的 Spark 项目 来分析 共同爬行的垃圾场的想法:
这篇名为 访问 S3上的公共爬行数据集的文章概述了如何以低成本的方式访问 Common Crawl 的250TB + 转储,将数据负载传输到 Amazon 的 AWS/S3网络之外的 没有。当然,这是假设您的 是将使用一些组合 AWS/EC2/S3等来分析爬网数据。
最后,Patrick Durusau维护 一些有趣的公共爬行使用相关的博客页面。
就我个人而言,我觉得这个主题很有趣,我建议我们 趁热得到这个抓取数据!; -)
您可以尝试使用 PublicWWW在源代码/标记中进行搜索。它允许查找任何 HTML,JavaScript,CSS 和纯文本的网页源代码在1.67亿多个网站。
通过 PublicWWW 你可以:
找到相关网站通过独特的 HTML 代码,他们共享,即。 小部件和发布者 ID
使用某些图像或徽章识别网站。
当然,你不仅可以找到你的网站使用一些代码/标记片段。