有没有什么编程方法被用来打败 reCAPTCHA?
我感兴趣的是看到的证据和潜在的示范,尤其是 reCAPTCHA 已经被完全自动化,没有人性的方法所淘汰。
为了澄清,没有寻找重新验证码-欺骗解决方案,涉及任何方式的人类,是否团队任务填写验证码,色情寻求者,或机械土耳其人。
我也在 没有中寻找 reCAPTCHA 的替代方案,比如选择动物的类型,或者背景字段或者 javascript 技巧。
CAPTCHA 系统的弱点在于,在中国,人们建立的房间里挤满了人,他们唯一的工作就是查看 CAPTCHA 图像并输入结果,然后插入实际发送垃圾邮件的自动化系统。
对此你也无能为力。
这也比对实际图像进行图像识别、 OCR 等操作要便宜得多(反过来,你可能只需花费不到0.01美元就能得到响应)。
我最喜欢的验证码来自微软: http://research.microsoft.com/en-us/um/redmond/projects/asirra/
Asirra (动物物种图片) 限制进入的认可) 是一个 HIP,通过要求用户识别猫的照片 这个任务对于计算机来说很困难,但是我们的用户研究 表明人们可以快速准确地完成它。 许多人甚至认为这很有趣!
这是一个免费的服务,他们有示例代码让你开始。
我想知道它还要多久才会裂开。
在屈服于使用 captcha 的压力之前,可以考虑一些创造性的变通方法,比如在 CSS 中隐藏一个名为“ Your Comments”的字段。如果输入该字段,服务器将删除该请求。大多数机器人会上当,即使仍然没有一个很好的方法来打败房间里的低薪工人,而验证码无论如何也帮不上忙。
更新 : 只需读取一个 案例研究,其中删除验证码增加了近10% 的转换率。这对我来说意味着,如果你仅仅为了过滤掉机器人而失去了10% 的线索,那么它就相当糟糕了。想象一下10% 对大多数企业意味着什么。
去年在 Defcon 的演讲总体上解决了验证码的问题。他们所做的事情之一是使用多个免费的 OCR 引擎,并让他们投票选出最好的单词。这样做,他们能够获得一个相当不错的成功机会。其中一种是40% 左右,但我不认为是重新验证。
我注意到这里几乎所有的答案都与 CAPTCHA 的 概念的无效性有关——虽然我非常同意他们的观点,事实上几个月前我已经给出了 讲座的 解释一下——这个问题非常具体,所以我将提供一个演示。 但首先,我将重申这个演示,重新阅读其他评论,因为 CAPTCHA 是没有意义的,没有帮助的,与实现无关... ..。
但说真的,看看 验证码杀手。你可以上传一个验证码图像,它会自动,如果不是立即,提供 OCR 的答案。它还提供了一个 API (我认为是 REST,但也可能是 SOAP)。我个人尝试了许多 reCAPTCHA 图片,它实际上是一些最容易(或至少是最快)破解的图片。
更新 : 验证码杀手的网站现在被关闭了,显然是受到了法律的压力。有关本主题的完整概述,请参阅 http://captcha.org/。
是的,OCR 不是破坏验证码保护站点的最好方法——还有很多其他更好的方法。
它不仅被击败了,而且 有用的应用程序已经成功地建立在它的基础上,成为击败所有类型的免费帐户保护的大型直接下载网站名单(不仅仅是 megapload 和 rapidshare)的最神奇的工具。
Jdownloader 是开源的,并且是用 Java 编写的,所以看一下 源代码不仅可以回答 如果它坏了,还可以回答 怎么做。
编辑 : 大多数直接下载网站不使用 reCaptcha,而是使用一种更简单的 Captcha 方法(3个大写字母用不同颜色着色)。尽管如此,Jdownloader 和 一大堆(一个类似于 Jdownloader 的程序)是我所知道的唯一有效地破坏了 Captcha 方法的工作实现。我还没有听说过任何破解 reCaptcha 的实现。
更新 : 似乎至少有一个 reCaptcha 的实现(不是整个 reCaptcha 本身) 也被破解了。
2010年12月更新 : Jdownloader 看起来终于要打败“重新捕捉”了。这个插件仍然处于试验阶段,只能在 Windows 版本的 Jdownloader 上使用,但是,正如一个尝试过它的朋友告诉我的那样,它确实可以工作。
AFAIK 在实践中没有破解 RE-captcha 实现的工具,但是最终我认为有人会得到它。
有趣的是,如果有人设法得到它,那么整个 RE-captcha 项目是毫无意义的,因为 RE-captcha 设计的数字化图书不能以自动化的方式完成。
顺便说一句:
验证码系统的弱点是 人们在房间里堆满了 这是中国人唯一的工作 就是查看验证码的图像和类型 在结果中,插入到 自动化系统 垃圾邮件。
你不能像那样保护一个系统,这就像说“如果你的主机不在一个旧的军事地堡里,你的 web 应用程序就不够安全,因为现在人们可以偷走你的机器”。
ReCAPTACHA 没有坏,而且不会坏很长时间。问题是,如果你实现了你自己的验证码,如果它坏了,它可能需要很长的时间来修复它。
这是从 关于 reCAPTCHA 安全性的页面中摘录的:
ReCAPTCHA 是一个 Web 服务,这意味着 生成所有的图像 由我们的服务器评分。(...)这也 提供额外的保护: 我们的验证码可以自动 保安系统每次更新 找到了弱点。 例如,如果有人写了一个程序,可以读取我们扭曲的 图像,我们可以添加更多的失真 很少的时间, 和没有网络 主人必须改变任何东西 他们那边。
ReCAPTCHA 是一个 Web 服务,这意味着 生成所有的图像 由我们的服务器评分。(...)这也 提供额外的保护: 我们的验证码可以自动 保安系统每次更新 找到了弱点。
例如,如果有人写了一个程序,可以读取我们扭曲的 图像,我们可以添加更多的失真 很少的时间, 和没有网络 主人必须改变任何东西 他们那边。
我相信,由于他们是专门为验证码,他们已经改进的版本存储,准备部署在一点时间,如果需要的话。(当弱国尚未崩溃时,它们为何要创造更强大的安全保障?)
你可能对 这份详细的报告是关于4chan 如何击败 reCAPTCHA,并用它来操纵 TIME.com 的年度 TIME 100民意调查结果感兴趣。
Hacking Recaptcha (又名“阴茎泛滥”) 下一个策略是看看他们是否能找到 reCAPTCHA 实现中的缺陷。他们发现 reCAPTCHA 总是向用户显示两个单词进行解码——一个单词是 reCAPTCHA 系统已知的控制单词,而另一个是未知单词(reCAPTCHA 使用人工帮助纠正 OCR 错误)。维基百科描述了这个过程: “扫描的文本通过两个不同的光学字符识别程序进行分析; 在程序不同意的情况下,有问题的单词被转换成验证码。该单词与已知的控制单词一起显示,并由人工标记。那些一直被人类评委贴上单一标签的单词被重新用作控制词。”。2iasdo4匿名者意识到,如果他们总是用同一个单词标记未知的扫描文本——如果他们这样做成千上万次,最终很大比例的未知单词将与他们的单词错误标记。他们所要做的就是查看验证码中的两个单词,输入“简单”这个单词的正确标签(大概两台光学扫描仪都会同意这个标签) ,然后输入“阴茎”这个单词来表示硬的那个。如果他们经常这样做,那么很快就会有相当大比例的图片被贴上“阴茎”的标签,并且自动投票的能力将会恢复(一个副作用,匿名者没有忘记,是这样一个概念,即在未来几年里,将会有大量的电子书在文本中随机插入“阴茎”这个词。更新: 我问过 reCAPTCHA 的首席工程师 Ben Maurer 关于这种“阴茎泛滥”的攻击,Ben 说他们已经预料到了这种类型的攻击,他们有许多保护措施可以防止阴茎穿过 reCAPTCHA 的屏障。 优化 reCAPTCHA 和在短信中加入“阴茎”这个词一样吸引人的是,Anonymous 团队知道时间不多了,如果他们要恢复信息,他们没有时间等待自动投票者重新上线——他们将不得不手动投票,很多很多次。所以他们需要尽快进入验证码。他们开发了一套指导方针,允许他们快速决定哪些 reCAPTCHA 词可以跳过。例如: 你会得到两个字: 1真,1假。 对于 [REAL FAKE]或者 [FAKE REAL],你只需要输入 REAL就可以了。 如果它是 [LOOKSREAL LOOKSREAL]或 [LOOKSFAKE LOOKSFAKE],通常只是快速键入两个单词。不要浪费宝贵的时间去判断哪个是真的。 使用外观和类型的单词来识别假货 不要只依赖其中的一个。 整个规则集都在这里: 假的验证码。
Hacking Recaptcha (又名“阴茎泛滥”)
下一个策略是看看他们是否能找到 reCAPTCHA 实现中的缺陷。他们发现 reCAPTCHA 总是向用户显示两个单词进行解码——一个单词是 reCAPTCHA 系统已知的控制单词,而另一个是未知单词(reCAPTCHA 使用人工帮助纠正 OCR 错误)。维基百科描述了这个过程: “扫描的文本通过两个不同的光学字符识别程序进行分析; 在程序不同意的情况下,有问题的单词被转换成验证码。该单词与已知的控制单词一起显示,并由人工标记。那些一直被人类评委贴上单一标签的单词被重新用作控制词。”。2iasdo4匿名者意识到,如果他们总是用同一个单词标记未知的扫描文本——如果他们这样做成千上万次,最终很大比例的未知单词将与他们的单词错误标记。他们所要做的就是查看验证码中的两个单词,输入“简单”这个单词的正确标签(大概两台光学扫描仪都会同意这个标签) ,然后输入“阴茎”这个单词来表示硬的那个。如果他们经常这样做,那么很快就会有相当大比例的图片被贴上“阴茎”的标签,并且自动投票的能力将会恢复(一个副作用,匿名者没有忘记,是这样一个概念,即在未来几年里,将会有大量的电子书在文本中随机插入“阴茎”这个词。更新: 我问过 reCAPTCHA 的首席工程师 Ben Maurer 关于这种“阴茎泛滥”的攻击,Ben 说他们已经预料到了这种类型的攻击,他们有许多保护措施可以防止阴茎穿过 reCAPTCHA 的屏障。
优化 reCAPTCHA
和在短信中加入“阴茎”这个词一样吸引人的是,Anonymous 团队知道时间不多了,如果他们要恢复信息,他们没有时间等待自动投票者重新上线——他们将不得不手动投票,很多很多次。所以他们需要尽快进入验证码。他们开发了一套指导方针,允许他们快速决定哪些 reCAPTCHA 词可以跳过。例如:
你会得到两个字: 1真,1假。 对于 [REAL FAKE]或者 [FAKE REAL],你只需要输入 REAL就可以了。 如果它是 [LOOKSREAL LOOKSREAL]或 [LOOKSFAKE LOOKSFAKE],通常只是快速键入两个单词。不要浪费宝贵的时间去判断哪个是真的。 使用外观和类型的单词来识别假货 不要只依赖其中的一个。
你会得到两个字: 1真,1假。
对于 [REAL FAKE]或者 [FAKE REAL],你只需要输入 REAL就可以了。
[REAL FAKE]
[FAKE REAL]
REAL
如果它是 [LOOKSREAL LOOKSREAL]或 [LOOKSFAKE LOOKSFAKE],通常只是快速键入两个单词。不要浪费宝贵的时间去判断哪个是真的。
[LOOKSREAL LOOKSREAL]
[LOOKSFAKE LOOKSFAKE]
使用外观和类型的单词来识别假货 不要只依赖其中的一个。
整个规则集都在这里: 假的验证码。
ReCAPTCHA 没有被打败。如果是这样的话,那么为什么谷歌刚刚收购了它,并宣布他们将在谷歌内部应用该技术,以增加对谷歌产品的欺诈和垃圾邮件保护?
来自于2009年9月16日发布在谷歌博客上的 谷歌收购 reCAPTCHA:
通过这种方式,reCAPTCHA 的独特技术改进了将扫描图像转换为纯文本的过程,这种过程被称为光学字符识别(OCR)。这项技术也为谷歌图书和 Google新闻档案搜索等大规模文本扫描项目提供了动力。拥有文件的文本版本非常重要,因为可以搜索纯文本,轻松地在移动设备上呈现,并向视力受损的用户显示。因此,我们将在谷歌内部应用这项技术,不仅可以增加对谷歌产品的欺诈和垃圾邮件保护,还可以改善我们的图书和报纸扫描过程。
有很多方法可以用来废话重演。虽然很难使用神经网络使程序能够自动解决这些问题,但是有可能获取图像并使用亚马逊的机械土耳其或其他类似的程序来解决这些问题。
Http://codemagician.wordpress.com/2010/01/22/solving-recaptcha/
我在一个受 reCAPTCHA 保护的系统上看到了博客评论,页面在这个系统上加载,一秒钟后,文章就成功发布了。User-Agent 是无稽之谈(在这个特例中,它声称运行的是 Ubuntu 9.25/Firefox 3.8) ,引用者来自一个完全不相关的网站,没有链接到我们。
这显然是自动的。
2-3年前,基于文本输入的验证码方法在他们输掉这场战斗时就已经超越了界限,也就是说,进一步的复杂性只是让它们相对容易(因为计算机的能力正在增强,而人类没有) ,对机器来说更容易,对人类来说更加令人厌恶和排斥,如果不是完全不可能的话。这与 验证码作为测试,以确保响应不是由计算机生成的的原始范式相矛盾
更新: 请注意,ReCAPTCHA为 谷歌公司。所拥有,但是 谷歌公司。并不为它们自己的服务使用它。 这里有一个链接,包含 Google 自己/内部 例如,用于 Gmail 注册:使用的验证码网页
注意,Google 的 ReCAPTCHA总是有两个单词。 这里是 提供给其他人使用的谷歌 reCAPTCHA 图像的链接。
重新截图:
我留给读者一个明显的结论。
引自: [1] 被 reCAPTCHA 攻击的 vBulletin 论坛破解垃圾程序 | PC 专业博客 Posted on 2011年1月12日 by Davey Winder 作者: Davey Winder
打败 Captchas 最简单的方法是亚马逊土耳其机器人。有个叫 Kermit Welda 的家伙付给每个注册 Hotmail,AOL 和 Gmail 账户的人五分钱。那就是6000个假的电子邮件账户,每天5美分 = 300美元。当你让别人为你做脏活的时候,做生意的成本是相当低廉的。难怪我们的服务器的垃圾邮件过滤器要拒绝从 Hotmail 的任何东西。