Есть идеи, которые меня поражают, а когда они еще и прекрасно реализованы, они заставляют меня биться в экстазе восхищения.
В мире существует множество различных вещей, и есть вещи, просто созданные друг для друга. Чаще всего, это очевидно, и тогда это не интересно. Действительно интересно становится тогда, когда вещи, с первого взгляда не имеющие ничего общего, вещи, казалось бы, из разных эпох, находят друг друга в одной маленькой идее, способной на очень многое.
Первый сканер появился в начале 20-ого века. Проблема распознавания текста намного моложе, но за это время создано достаточно большое количество средств для ее решения. И все же, есть ситуации, в которых любая программа оказывается бессильна. Кроме этого, практически любой машинно распознанный текст приходится проверять визуально.
У этой проблемы есть отличное решение, есть механизм, способный практически стопроцентно распознать даже очень сильно зашумленный текст — это человеческий мозг.
Ну скажем, у нас есть древняя книга, пережившая так много, что слов в ней почти не разобрать, и эту книгу мы хотели бы оцифровать. Человек сделает это лучше любой машины. Но как заставить человека сделать это?
В современном мире есть интернет. В интернете есть масса проблем, но среди самых распространенных и актуальных — спам. Способы распространения спама разнообразны, но есть особо раздражающий — комментарии и боты, точнее, боты, оставляющие спам в комментариях.
Для борьбы с этим видом спама придумали капчу (captcha): хочешь оставить комментарий — докажи, что ты не бот. Капча дает определенный эффект даже несмотря на то, что большинство из них этими самыми ботами взламываются. Но это не важно.
Так как же заставить человека бесплатно совершать полезную работу по распознаванию текста?

Ребята из Carnegie Mellon University однажды поняли, как именно.
Это
reCAPTCHA. Принцип ее работы прост. Сканируется какая-нибудь старая книга или газета (например, сейчас рекапча помогает оцифровывать старые номера New York Times), текст в которой не поддается машинному распознаванию. Отдельные слова появляются в качестве кода капчи и для того, чтобы подтвердить свою человечность, пользователю предлагается ввести эти слова.
Но если текст не распознан, как понять, что введенные слова соответствуют действительности? Для этого код рекапчи состоит из двух слов: первое — нераспознанное, второе — уже распознанное. Если второе слово введено верно, считается, что и первое также введено верно. Собирая варианты распознавания слова, находим самый часто встречающийся — это и есть правильный ответ.
Итого: убиты два жирных, сочных зайца. Невероятно элегантное решение. Гениальная идея.