Дослідження української інтернет-аудиторії часто викликає нарікання, а інколи недовіру до результатів з боку як професіоналів інтернет-ринку, так і людей, які лише побічно з ринком стикаються.
Писали про це й ми не раз на Watcher’і. Наприклад, у нас викликало недовіру наявність 5,7 млн. користувачів Facebook в Україні. І за пів року компанія InMind дещо змінила алгоритм обрахунку, через що кількість користувачів Facebook впала в 3 рази.
Нещодавно нас здивували цифри КМІС, за даними якого в Україні з 2009 року по 2011 рік кількість інтернет-користувачів зросла лише з 29% до 30%. Олександр Красновський, менеджер з розвитку онлайн досліджень InPoll КМІСу, надіслав нам свою статтю, в якій спробував роз‘яснити причини розходження цифр.
Сподіваюсь, вона буде цікавою для вас, хоча в статті є деякі некоректності. Наприклад, порівнюється дослідження GfK, зроблене на початку 2009 року з цифрами InMind кінця 2009 року. Для себе я також не зміг зрозуміти, чому ж все таки з 2009 по 2011 рік за даними КМІСу ріст інтернет аудиторії склав всього 3% (з 29% до 30%).
В статті вперше прочитав про існування серйозних сезонних коливань використання інтернету, що на думку Олександра суттєво впливає на дослідження. Річ цікава, сподіваємось отримати більш детальну інформацію згодом.
Отже, читайте статтю, коментуйте
Корректность измерения Интернет аудитории Украины уже длительное время является дискуссионным вопросом. Часто можно встретить противоречивые сообщения о величине Интернет аудитории и динамике развития рынка Интернета в Украине. Например, недавно газета БИЗНЕС разместила материал «В феврале украинская Интернет-аудитория сократилась на 6,3%» со ссылкой на отчет компании Bigmir-Internet (bigmir-internet.com.ua). Примерно в это же время другая исследовательская компания Gemius Ukraine разместила новость «Аудитория Уанета, февраль 2011: рост активности пользователей». При поверхностном знакомстве может возникнуть впечатление о противоположных направлениях развития рынка. Информационные сообщения о поведении украинской Интернет-аудитории, которые базируются на репрезентативных опросах населения, а не на статистике посещения сайтов, также неоднозначны в оценках доминирующих тенденций. Все вызывает как минимум недоумение, а зачастую недоверие к исследовательским компаниям.
Действительно, публикации и результаты оценок выглядят по-разному. Какова же причина этих различий? Чтобы разобраться в этом, рассмотрим и сравним собственные данные (КМИС), а также открытые данные об аудитории Интернета таких компаний, как GFK, InMind и Gemius.
Данные взяты из открытых источников, которые доступны на официальных сайтах компаний, в такой формулировке, в которой подается информация: GFK (link1, link2), InMind (link1, link2), Gemius (link1, link2) .
* Численность населения соответствующей возрастной группы по данным переписи населения Украины за 2001г.
** Компании приводят расчеты ошибки для простой случайной выборки. Однако нам не известны случаи использования такого подхода в общенациональных опросах. Из-за особенностей дизайна выборки, например, существования нескольких ступеней отбора (населенных пунктов, домохозяйств, людей в домохозяйстве) реальная ошибка возрастает на дизайн-эффект, то есть, в лучшем случае, в 1,4-1,5 раза.
*** Компания Gemius для просчета Интернет аудитории использует разработанную систему мониторинга сайтов и подсчета куков компьютеров пользователей.
**** Gemius использует подход, для которого ошибка выборки не рассчитывается.
Первое, на что стоит обратить внимание при анализе результатов – каким образом собиралась информация той или другой исследовательской компанией. Из таблицы 1 мы видим, что все представленные компании используют различные методики сбора данных. Как это может повлиять на конечный результат?
Определение Интернет-пользователей
Исследовательские компании очень лаконичны в описании того, кого они называют пользователями Интернет. Пользователями могут называться люди, которые когда-либо в жизни, сейчас или с некоторой частотой (не менее одного раза в месяц) пользуются Интернет. Кроме того, в зависимости от формулировки вопросов анкеты, можно получить сильно отличающиеся показатели. То есть, при прочих равных методических условиях (объем выборки и способ ее построения, время проведения исследования и т.п.), если задавать вопросы про использование Интернет в течение последней недели или года, мы получим различные результаты. Другой наглядный пример – это классификация пользователей мобильным Интернетом, который может учитываться в домашнем и/или общем пользовании.
Далее, как видно из таблицы 1, возраст аудитории исследования (очень тесно связанный с использованием Интернет) существенно отличается, поэтому полученные оценки могут быть либо завышенными, либо заниженными, если их сравнивать с результатами других компаний. Например, исследования КМИС показывают, что добавление к взрослому населению возрастной группы 15-17 летних может приводить к увеличению доли пользователей на 1,5 процентных пункта.
Методика исследования
Метод сбора данных
Сам подход к сбору данных может давать качественно другие результаты. Так, Gemius основывает свои оценки рынка на изучении поведения Интернет-пользователя на выбранных веб-сайтах, а КМИС, GFK и InMind базируются на выборочных опросах населения.
Выборка
Объем и дизайн выборки существенно влияет на погрешность измерения. Детали дизайна выборки не всегда публичны, а число опрошенных, хотя бы приближенно, позволяет получить сопоставимые оценки ошибки выборки.
Период сбора
Интенсивность использования Интернета имеет сезонные колебания. Также есть разница между результатами, полученными за один месяц, и кумулятивными данными, скажем, за квартал или год.
ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ
Сопоставляя результаты исследований, очень важно не забывать о природе выборочных данных, так как видимые расхождения в показателях не обязательно говорят о реальных различиях.
Чтобы было легче интерпретировать открытые данные, в таблице 2 мы приводим результаты исследований 4 компаний, добавив колонки с доверительными интервалами. Это позволит нам оценить, насколько значимы различия в данных. Напомним, что для удобства мы сравниваем расчеты для простой случайной выборки, которая дает самые низкую погрешность, а реальные ошибки выборки у всех исследований больше, как минимум на дизайн-эффект, то есть в 1,4-1,5 раза.
Учитывая вероятностную природу выборочных данных, говорить об однозначности полученной цифры Интернет-пользователей не приходится. Эта величина с достаточно высокой вероятностью находится в некотором диапазоне, который и называется доверительным интервалом и зависит от объема выборки, доли признака и доверительной вероятности. Например, в 2009 году InMind показал общую долю пользователей в размере 28%. Даже без учета дизайн-эффекта, принимая во внимания ошибку простой случайной выборки, полученное число с равной долей вероятности можно рассматривать как 25,7% , так и 30,3%. А на самом деле у всех трех компаний этот интервал еще шире.
Таким образом, если сравнить полученные результаты опросов в доверительных интервалах, то можно констатировать, что все компании имеют довольно близкие оценки Интернет аудитории в Украине.
Но тут возникает еще один вопрос. Если доверительные интервалы так близки, откуда тогда берутся значительные отклонения в показателях динамики роста числа пользователей?
Ответ достаточно прост. Очень часто при оценке динамики Интернет аудитории говорят не о ее доле в генеральной совокупности, а о ее приросте по сравнению с предыдущим периодом исследования. Такая динамика прироста представлена в таблице 3.
Как видно из таблицы, наибольший прирост был зафиксирован компанией GFK. По их данным, рост домашних пользователей с 2009 по 2010 год (в относительном исчислении) составил 45%. В то время как в абсолютном исчислении число пользователей повысилось на 8 процентных пунктов – с 18% до 26%. Это рассчитывается так: (26-18)/18*100 = 44.4% прироста. Статистически значимых различий с данными КМИС о величине аудитории домашних пользователей Интернет в 2009 и в 2010 годах нет, но возникает ощущение значительного роста. Если опять вспомнить про доверительные интервалы, то показатели прироста могут быть и другими. Так, при минимальном зазоре между показателями 2009-2010 годов (20,4% и 23,2%) прирост составит всего лишь 14%, а при максимальном (15,6% и 28,8%) – уже 85%. Сильное влияние на такой размах оценок оказывает и то, что выборка у GFK в рассматриваемом примере является самой малочисленной.
Все это так детально рассматривается для того, чтобы показать некоторую условность оценок прироста, лучше подходящих для макроэкономических показателей, чем для выборочных исследований. Хотя, справедливости ради заметим, что при этом оценки прироста очень широко используются для описания тенденций развития в маркетинге.
Подводя итоги сравнительного анализа, можем высказать несколько пожеланий, в первую очередь, себе и коллегам-исследователям:
• Для адекватного понимания ситуации было бы полезно, чтобы все компании давали определение (а еще лучше формулировки вопросов), кого они считают Интернет пользователями;
• Очевидно, что обращаясь с показателями, следует учитывать их вероятностную природу, и указывать доверительный интервал;
• Полезно указывать изменение показателей в процентных пунктах, так как прирост, учитывая значительную вариативность, может вводить потребителя информации в заблуждение.