Як боротьба зі спамом може принести несподівану користь

Максим Саваневський · 26 Серпня 2008

Як боротьба зі спамом може принести несподівану користь

Чимало сайтів перед тим як дозволити користувачам зробити якісь дії – прокоментувати чи написати матеріал, просять ввести букви чи два слова, які, як правило, нічого не значать. Мова йде про технологію CAPTCHA.

До недавнього часу CAPTCHA давала можливість лише застерігатись від спаму, та від недавнього часу технологія сприятиме заповнювати деякі історичні прогалини.

На сьогоднішній день в світі існує чимало проектів покликаних оцифрувати чималі стоси книжок, манускриптів та газет. Одна з найбільших проблем, яка виникає під час цього процесу – не всі тексти розпізнаються ідеально. Наприклад, газета The New York Times зараз працює над оцифровкою свого архіву з 1851 року. Цим процесом паралельно займаються дві різні програми розпізнавання тексту. Після процесу оцифрування – тексти співставляють. Інколи вони не співпадають. Що робити? Як варіант – залучати людей, але це дорого.

Проект reCAPTCHA покликаний вирішити цю проблему. Тисячі слів, які були розпізнані неточно, надсилаються програмою на близько 45 000 сайтів, які підтримують цей проект, і користувачі під час підтвердження свого “неботівського” походження сприяють розшифруванню старих текстів. Коли кілька людей вводять однаковий текст – він автоматично надсилається програмою назад в The New York Times, де вставляється в текст.
Як боротьба зі спамом може принести несподівану користь

Користування послугами reCAPTCHA для комерційних організацій є платним, а для таких проектів, як Internet Archive, який має на меті оцифрувати всі книги видані перед 1980 роком, послуга надається безкоштовно.

Розробники проекту пропонують всім охочим приєднатись до нього та встановити програму на своїх сайтах.

Читати більше про: CAPTCHA, reCAPTCHA, розпізнавання тексту, спам

Максим Саваневський
Керуючий партнер PlusOne DA. Засновник Watcher.

Максим Саваневський на зв'язку

Також читайте:

jarofed

Чув про цей проект. Але, відверто кажучи, раніше ніяк не міг зрозуміти, за яким же принципом він працює. Адже коли людина вводить текст для підтвердження, що вона не робот, то якраз виходить, що комп по ідеї повинен знати, який текст вона повинна ввести (а інакше як він перевірить, чи правильно введено)… Тепер я зрозумів, у чому суть…
Одне тільки цікаво, чи різання манускриптів на шматки, які потім використовуються, як капчі, а потім, по ідеї, повинні “збиратися до купи” не ускладнює процес ще більше, ніж якщо просто посадити людину і попросити розшифрувати.
maksym

я думаю, що це стосується масових проектів типу нью-йорк-таймз. а манускрипти, очевидно, все ж люди розбирають вручну
podarok

я пробував цей плагін…
Для друпалу він не дуже добре реалізований був, тому відмовився на користь алгоритму bayesian

Як боротьба зі спамом може принести несподівану користь

Позначки