it-swarm.cn

抓取我的网站并帮助我找到死链接和未链接文件的好工具

我有一个非常大的遗留站点,有数千个PDF,有时在数据库中占用,但通常只是页面上的链接,并存储在网站上的大多数目录中。

我已经编写了一个php爬虫来跟踪我网站上的所有链接,然后我将它与目录结构的转储进行比较,但有更简单的东西吗?

21
MrChrister

我用过 Xenu的Link Sleuth 。它工作得很好,请确保不要自己DOS!

15
plntxt

如果您使用的是Windows 7,最好的工具是IIS7的SEO Toolkit 1.0。它是免费的,您可以免费下载。

该工具将扫描任何网站,并告诉您所有死链接的位置,加载时间长的页面,缺少标题的页面,重复标题,关键字和描述相同,以及哪些页面打破了HTML。

6
Ben Hoffman

试试 W3C的开源工具Link Checker 。您可以在线使用它或在本地​​安装它

4
mvark

有几种产品来自 Microsys ,特别是他们的 A1 Sitemap GeneratorA1网站分析器 会抓取您的网站并报告您可能想到的一切它。

这包括断开的链接,还包括所有页面的表格视图,以便您可以比较相同的<title>和元描述标签,nofollow链接,网页上的meta noindex以及需要敏锐眼光的大量疾病等内容。快速解决问题。

1
Evgeny

Link Examiner 是一款非常好的免费软件,可满足您的需求。

1
Dark

我是 linklint 的大粉丝,用于链接检查大型静态站点,如果你有一个unix命令行(我在linux上使用过,MacOS)和FreeBSD)。有关安装说明,请参阅其网站。安装完成后,我创建一个名为check.ll的文件并执行:

linklint @check.ll

这是我的check.ll文件的样子

# linklint
-doc .
-delay 0
-http
-htmlonly
-limit 4000
-net
-Host www.example.com
-timeout 10

这会抓取www.example.com并生成HTML文件,其中包含交叉引用的报告,其中包含已损坏,丢失等内容。

1
artlung