有什么方法可以检测不想被检测到的网络爬虫?
(我知道列出检测技术可以让聪明的隐形爬虫程序员做出更好的蜘蛛,但是我不认为我们能够阻止聪明的隐形爬虫,只有那些犯错误的
我不是在说像 Googlebot 和 Yahoo! Slurp 这样的好爬虫。 我认为机器人不错,如果它:
robots.txt
(并服从它)我说的是 很糟糕爬虫,躲在普通用户代理后面,使用我的带宽,从不给我任何回报。
有一些活板门,可以建造 更新列表(感谢 Chris,gs):
robots.txt
中仅列出(标记为 disallow)的目录,有些陷阱会被“好”和“坏”的机器人同时触发。 你可以把它们和白名单结合起来:
robots.txt
?robots.txt
另一件重要的事情是: 请考虑盲人使用屏幕阅读器: 让人们联系你,或解决一个(非图像)验证码继续浏览。
有什么方法可以自动检测到网络爬虫试图把自己伪装成正常的人类访问者。
问题不是 我怎么才能抓住。而是 我怎样才能最大化发现爬虫的机会。
有些蜘蛛真的很棒,能够解析和理解 HTML、 xhtml、 CSS JavaScript、 VBScript 等等。 我没有幻想,我不可能打败他们。
然而,你会惊讶于一些爬行动物是多么愚蠢。最愚蠢的例子(在我看来)是: 在请求所有 URL 之前将它们转换为小写。
还有一大堆爬行动物,它们“不够好”,无法避开各种各样的活板门。