it-swarm.cn

如何检测指向域名擅自占地者的链接?

我知道如何找到404页面的死链接。然而,这些天没有多少链接真的死了,但最终他们最终成为域名擅自占地者。我意识到这是一个很高的订单,但有没有办法找出一个网站是否实际上是一个域名擅自占用者而没有实际使用我的浏览器访问每个网站并检查它是否有一个背包等女孩的图片。?

4
delete

停放页面/域的可能检测方法:

找到垃圾短语

对不常见的常见垃圾短语进行不区分大小写的搜索,例如“您需要什么,什么时候需要它”和“几乎任何东西的来源!”。

查找购买邀请

查找“查询此域名”和“此域名可能待售”等文字。

在随机子页面上测试404s

访问testdomain.com/randomstring。如果您获得404,或者页面本身包含文本“404”或“未找到”,则可能不会停放。

测试随机子页面上的重定向

其他停放的域系统将testdomain.com/randomstring重定向到testdomain.com

在元标记中搜索域名

多个驻留域模板对作者元标记使用以下格式:

<meta name="author" content="Nameofdomain.com" />

其他人把它放在描述中:

<meta name="description" content="nameofdomain.com">

在每种情况下,域都是'content'属性中的only thing。活动网站不太可能出现这种情况。

寻找框架集标签

一些停放的域模板使用带有多个内部帧的<frameset>标签来引入外部内容(通常来自'information.com'),但在页面上没有其他功能。

使用多个测试

这些测试中没有一个必然是自己的停放域的可靠指标。您可能需要组合多个测试来创建自己的算法,然后根据一组已知的停放域和已知的活动域来测试和优化它。

2
Nick

有些东西你可以寻找。页面上的主要元素是iFrame吗?响应是301/302会带你离开域吗? (许多擅自占地者只会302301你到他们的登陆页面)。链接/文本比率是否非常高?

我说这很难,但这至少是一些共同特征。

维基百科linkrot页面上似乎还有一个项目涉及一些试图这样做的项目: http://en.wikipedia.org/wiki/Wikipedia_talk:Linkrot - details虽然很粗略。

0
Mark Henderson