Google офіційно повідомив про придбання бізнесу reCAPTCHA.
Суть бізнесу полягає в генерації капчі – деформовані букви та цифри, ввівши які сайти з великою ймовірністю визначають, що перед ними людина, а не бот.
На сьогоднішній день цей сервіс використовують понад 100 тис. сайтів у всьому світі.
Але є в reCAPTCHA і другий вид діяльності. Користувачу пропонують для розпізнавання два слова. Про перше я вже написав вище. А ось друге – має свої особливості. Його не обвов‘язково вгадати. Це слово пов‘язане з система оцифровки книг.
На сьогоднішній день в світі існує чимало проектів покликаних оцифрувати чималі стоси книжок, манускриптів та газет. Одна з найбільших проблем, яка виникає під час цього процесу – не всі тексти розпізнаються ідеально. Наприклад, газета The New York Times зараз працює над оцифровкою свого архіву з 1851 року. Цим процесом паралельно займаються дві різні програми розпізнавання тексту. Після процесу оцифрування – тексти співставляють. Інколи вони не співпадають.
Що робити? Як варіант – залучати людей, але це дорого.
reCAPTCHA вирішує цю проблему. Тисячі слів, які були розпізнані неточно, надсилаються програмою на понад 100 000 сайтів, і користувачі під час підтвердження свого “неботівського” походження сприяють розшифруванню старих текстів. Коли кілька людей вводять однаковий текст – він автоматично надсилається програмою назад в The New York Times, де вставляється в текст.
Очевидно, що придбання reCAPTCHA для Гугл є вигідним зокрема й в плані розвитку свого проекту оцифровки книг Google Books.