За останні кілька місяців відбулося чимале пожвавлення ринку пошукових систем. Google презентував свій миттєвий пошук, Facebook i Bing оголосили про тісну інтеграцію своїх пошукових сервісів, а також запустили соціальний пошук.
Олександр Садовський – харків’янин. У 2002 році він почав працювати в компанії AdLabs (Москва) як начальник аналітичного відділу, а у вересні 2003 року був запрошений до Яндекса для роботи над проектами, пов’язаними з пошуком. Під його керівництвом були створені такі сервіси, як Пошук по блогах, Яндекс.XML, запущені новий алгоритм ранжування і робот для оперативного індексування свіжої інформації та багато іншого.В січні 2005 року Олександр очолив відділ веб-пошуку компанії Яндекс.
– Олександре, чи можна говорити про те, що Яндекс сьогодні вже не має технологічної переваги в кириличному пошуку порівняно з Бінгом і Гуглом?
– Ні, так говорити не можна. В Яндекса є і технологічні, і продуктові переваги. Скажімо, регіоналізація пошуку за тисячами міст Росії та обласними центрами України – в інших пошукових систем її немає. Ми добре розуміємо мову – вміємо, наприклад, автоматично знаходити розшифровку абревіатур, перекладати запит «на льоту» і знаходити релевантні результати іншою мовою (вже запущено для yandex.ua), розуміти морфологію несловарних слів тощо. У нас є унікальні технологічні розробки – приміром, завдяки вищезгаданому Матрикснету співробітники Яндекса зайняли перше, третє і десяте місця на світовому чемпіонаті з ранжування, який проводила Yahoo.
– Чи є в Яндекса шанс повернутися на Mail.ru за умови відмови порталу вказувати, що пошук належить Яндексу?
– За умови відмови брендувати результати пошуку ми співпрацювати не готові.
– Кілька тижнів тому ви сказали, що продажні SEO-посилання тепер значно менше впливатимуть на ранжування. Як ви збираєтеся розрізняти ці посилання, як дізнатися, де продажне посилання, а де ні?
– Ми навчилися збирати велику навчальну вибірку як природних, так і SEO-посилань. SEO-посилання відрізняються від звичайних; на основі цих розбіжностей ми розробили ряд факторів, що описують посилання. Далі справа техніки – навчити формулу розпізнавати один клас посилань і при цьому не помилятися, не змішувати його з другим класом. Нам вдалося досягти дуже високої точності, помилки трапляються вкрай рідко.
– Нещодавно ви [компанія Яндекс] писали, що формула ранжування «Обнінська» важить понад 280 мегабайт. Що в неї включено, і чому так багато?
– Формула будується повністю автоматично за допомогою Матрикснету – технології машинного навчання, придуманої в Яндексі. Вона описує, як обчислюється релевантність сторінок на основі факторів ранжування, розрахованих для запиту, сторінки, сайту в цілому тощо. Понад 400 факторів, придуманих нашими розробниками, дають можливість врахувати у формулі величезну кількість різновидів пошуку.
Яндекс дає відповідь на більш ніж 100 мільйонів запитів на добу. Користувачі шукають музику і товари, енциклопедичну інформацію та карти, сайти організацій, фотографії та багато іншого. У свою чергу, під кожним класом запитів маються на увазі різні потреби – наприклад, той, хто шукає музику, може хотіти знайти трек для прослуховування або трек для завантаження, знайти текст пісні, переклад, акорди тощо. Щоб описати все це розмаїття запитів, врахувати очікування користувача (наприклад, що під час пошуку за геозалежним запитом сайти з його регіону пріоритетніші за інші), потрібна велика формула, де міріади комбінацій факторів дають можливість максимізувати релевантність на всьому спектрі запитів. Матрикснет – великий крок уперед, отримати таку високу якість пошуку в разі настроювання формули ранжування вручну було б неможливо.