从站点获取 URL 列表

我正在为一个客户部署一个替换站点,但他们不希望他们所有的旧页面都以404结束。保留旧的 URL 结构是不可能的,因为它太可怕了。

因此,我正在编写一个404处理程序,它应该寻找被请求的旧页面,并对新页面进行永久重定向。问题是,我需要一个所有旧页面 URL 的列表。

我可以手动做到这一点,但我感兴趣的是,如果有任何应用程序,可以提供给我一个相对(例如:/page/path,而不是 http:/.../page/path )的网址列表,只要给定的主页。就像蜘蛛一样,但它不关心内容,而是寻找更深的页面。

490395 次浏览

我并不想回答我自己的问题,但我只是想运行一个站点地图生成器。我发现的第一个 http://www.xml-sitemaps.com有一个很好的文本输出。正合我意。

编写一个爬行器,它从磁盘读取每个 html 并输出“ a”元素的每个“ href”属性(可以用解析器完成)。请记住哪些链接属于某个页面(这是 MultiMap 数据结构的常见任务)。之后,您可以生成一个作为404处理程序输入的映射文件。

因此,在理想的情况下,您应该为站点中的所有页面制定一个规范。您还将拥有一个测试基础结构,可以访问所有页面来测试它们。

你大概不在理想的世界,为什么不这样做... ?

  1. 在井之间创建一个映射 已知的旧网址和新的网址。 Redirect when you see an old URL. 我可能会考虑 ”这个页面移动了,是新的网址 是 XXX,你将被重定向 简短”

  2. 如果没有映射,则显示一个 ”抱歉,这一页移动了,这是 连结到主页」的信息及 如果你愿意,可以改变他们的方向

  3. 记录所有重定向-特别是 没有映射的。随着时间的推移,添加 页的映射 很重要

Wget from a linux box 可能也是一个不错的选择,因为有一些开关可以用来爬行和更改它的输出。

编辑: wget 也可用于 Windows: http://gnuwin32.sourceforge.net/packages/wget.htm

wget -r -l0 www.oldsite.com

那么只要 find www.oldsite.com就会显示所有的网址,我相信。

或者,只是在每个404请求上服务自定义的未找到页面! 也就是说,如果有人使用了错误的链接,他会得到告诉该页面没有找到,并提供一些关于网站内容的提示。

我会研究任何数量的在线网站地图生成工具。就我个人而言,我过去使用过 这个(基于 Java) ,但是如果你在谷歌上搜索“网站地图构建器”,我相信你会发现很多不同的选项。

下面是站点地图生成器的列表(显然您可以从中获得站点的 URL 列表) : http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

网站地图生成器

中生成或维护文件的工具的链接 XML Sitemaps 格式,这是在 Sitemaps.org 和 支持的搜索引擎,如问,谷歌,微软生活 搜索和 Yahoo! . Sitemap 文件通常包含 URLs on a website along with some meta-data for these URLs. The 以下工具通常生成“ web-type”XML Sitemap 和 URL-list files (some may also support other formats).

请注意: 谷歌尚未测试或验证的功能或 本网站所列的第三者软件的安全性。请 直接向软件作者提出有关软件的任何问题。 我们希望你喜欢这些工具!

服务器端程序

  • Enarion phpSitemapsNG (PHP)
  • Google Sitemap Generator (Linux/Windows,32/64位,开源)
  • Outil en PHP (法语,PHP)
  • Perl 网站地图生成器(Perl)
  • Python Sitemap Generator (Python)
  • 简单网站地图(PHP)
  • SiteMap XML 动态网站地图生成器(PHP) $
  • Sitemap generator for OS/2 (REXX-script)
  • XML Sitemap Generator (PHP) $

CMS 和其他插件:

  • ASP.NET-网站地图
  • DotClear (西班牙语)
  • DotClear (2)
  • Drupal
  • 电子商务模板(PHP) $
  • Ecommerce Templates (PHP or ASP) $
  • 生活类型
  • 网站地图生成器
  • MnoGoSearch
  • 操作系统商业
  • PhpWebSite
  • 飞机
  • RapidWeaver
  • Textpattern
  • VBulletin
  • Wikka Wiki (PHP)
  • WordPress

下载工具

  • GSiteCrawler (Windows)
  • GWebCrawler & Sitemap Creator (Windows)
  • G-Mapper (Windows)
  • Inspyder Sitemap Creator (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1网站地图生成器(Windows) $
  • Rage Google Sitemap Automator $(OS-X)
  • 尖叫青蛙搜索引擎优化蜘蛛和网站地图生成器(Windows/Mac) $
  • 网站地图专业版(Windows) $
  • 网站地图编写器(Windows) $
  • DevIntelligence 的网站地图生成器(Windows)
  • Sorrowmans 网站地图工具(Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • WebDesignPros 网站地图生成器(JavaWebstart 应用程序)
  • Weblight (Windows/Mac) $
  • Wonder WebWare 网站地图生成器(Windows)

网上生成器/服务

  • AuditMyPc.com Sitemap Generator
  • AutoMapIt
  • Autoitemap $
  • Enarion phpSitemapsNG
  • 免费的网站地图生成器
  • Neuroticweb.com 网站地图生成器
  • 网站地图生成器
  • ScriptSocket 站点地图生成器
  • SeoUtilitySitemap 生成器(意大利语)
  • SitemapDoc
  • Sitemapspal
  • 网站地图提交
  • Smart-IT-Consulting Google Sitemaps XML 验证器
  • XML 网站地图生成器
  • XML-网站地图生成器

集成了网站地图生成器的 CMS

  • 混凝土5

谷歌新闻网站地图生成器以下插件允许 出版商更新谷歌新闻网站地图文件,一个变种 Org 协议,我们在我们的帮助中心中描述 到网站地图文件的正常属性,谷歌新闻网站地图允许 发布者描述他们发布的内容类型,以及 指定单个文章的访问级别。更多信息 关于谷歌新闻可以在我们的帮助中心和帮助论坛找到。

  • WordPress 谷歌新闻插件

代码段/库

  • ASP 脚本
  • Emacs Lisp script
  • Java 库
  • Perl 脚本
  • PHP 类
  • PHP 生成器脚本

如果您认为一个工具应该被添加或删除 原因,请在网站管理员帮助论坛留言。

我发现最好的是 http://www.auditmypc.com/xml-sitemap.asp,它使用 Java,对页面没有限制,甚至可以将结果导出为原始 URL 列表。

它还使用会话,因此如果您正在使用 CMS,请确保在运行爬网之前注销。