ReCAPTCHA 结合了传统 OCR 与一个类似 Amazon's Mechanical Turk 的系统。每个单词都先经过两个不同的 OCR 软件辨识,如果两个 OCR 识别结果不一致,该单词会被标志为“未识别”,这些未被识别的文字会被送入 ReCAPTCHA 系统,被制作成 CAPTCHA 文字让用户识别。
译者注:这里原文并没讲清楚用户如何完成 CAPTCHA 识别,因为 CAPTCHA 要求系统本身必须知道准确答案,而现在的问题是系统自己也辨认不出。我猜想其机制应该是这样的,首先,在一开始,用户提供的任何辨认结果,不管是否正确都 可以通过,但系统会记录每个用户的辨认结果,最后,等辨认结果累积到一定数量,系统会将多数人一致的辨认的结果作为 Control Word 以校验以后的测试。原文中提到,一开始,系统提供一个已知的 Control Word (known control word),但这个 known control word 是如何来的,并没有说明。首先这个 known control word 不可能是准确的,否则就不必 ReCAPTCHA 了,其次,既然 Control Word 并不准确,如何判定用户是否通过测试,只有一个办法,就是在一开始,让用户提交的任何辨认结果都通过。