суббота, 15 января 2011 г.

Зачем в интернете панельные исследования?

В разгар январских каникул 2011 года на сайте Roem.ru в комментариях к материалу «Письмо Молибога о переезде Рамблера» почему-то возникла активная дискуссия на тему «Можно ли доверять панельным исследованиям вообще и исследованиям компании TNS Media в частности?» Подозреваю, что немалая часть людей, деятельность которых активно связана с интернетом задастся вопросом «А что такое вообще панельные исследования, и зачем они нужны?»



Поскольку я тоже уделил некоторое количество времени дискуссии в комментариях к статье про переезд «Рамблера», то по её итогам решил, что будет нелишне написать пост с ответами на оба вопроса, упомянутых в предыдущем абзаце. Полагаю текст будет полезным, поскольку в ходе дискуссии я прочитал немало «рационализаторских» предложений и странных догадок со стороны людей, многие из которых давным-давно состоялись как интернет-профессионалы.

Сначала отвечу на вопрос «А что такое вообще панельные исследования и зачем они нужны?» Действительно, зачем нужны какие-то панельные исследования, когда в интернете существуют десятки систем подсчёта количества уникальных посетителей сайта и просмотренных ими страниц? Эти системы расскажут, и откуда пришел посетитель, и сколько раз он был на сайте, и какой у него на столе стоит монитор или какой в кармане лежит смартфон. К сожалению, во всём изобилии этой информации нет данных о том, сколько посетителю лет и есть ли у него высшее образование. Информация счетчиков систем статистики даже не ответит на вопрос о половой принадлежности посетителя.




Владельцам небольших корпоративных сайтов без информации о социально-демографических данных аудитории можно вполне обойтись. А вот рекламным агентствам и сайтам, которые зарабатывают на продаже рекламы, без таких данных работать очень трудно. Впрочем, до 2006 года труженики рекламной интернет-индустрии без этой информации как-то обходились. Всё-таки до той поры интернет был ещё относительно небольшим медиаканалом, в котором крупных рекламных бюджетов не наблюдалось, а рекламодатели в основном тратились на интернет по остаточному принципу. То есть, размещали в интернете рекламу на деньги, которые остались от размещения на ТВ, в журналах-газетах и на радио.

Для того, чтобы картина с бюджетами на рекламные размещения в интернете изменилась, интернету нужно было стать таким же цивилизованным как ТВ, радио и пресса. Про эти каналы размещения рекламы рекламодатель уже много лет получали информацию от компании TNS Media. Которая как раз с помощью панельного исследования собирала информацию об аудитории программ и изданий. В 2006 году TNS Media по аналогии с другими каналами начала исследовать интернет-аудиторию в рамках проекта WebIndex.

Принцип панельного исследования можно описать так. Исследовательская компания изучает социально-демографический состав населения страны или города. Например, на основе данных переписи населения или какого-нибудь социологического фонда вроде «Общественное мнение». На основе изученного исследовательская компания делает небольшую модель населения. По своей структуре эта модель более-менее точно соответствует населению всей страны или города (ещё это называют генеральной совокупностью, а модель – выборкой или панелью). Затем исследовательская компания внимательно следит за действиями/предпочтениями панелистов (участников выборки) и на их основании делает вывод, что точно также себя ведёт и генеральная совокупность. То есть, экстраполирует вкусы и интересы небольшой группы людей на всю страну или город (в зависимости от целей исследования).


Теперь пришло время ответить и на вопрос «Можно ли доверять панельным исследованиям вообще и исследованиям компании TNS Media в частности?» Люди, задающиеся таким вопросом, чаще всего приводят следующий аргумент: «Как это можно панель в 10 тысяч человек «размазывать» на всё огромное население страны? Это же ничтожно мало! Для достоверных данных нужно работать с сотнями тысяч, а лучше с миллионами панелистов!»

На первый взгляд, возражение кажется действительно очень резонным. Где 10 тысяч человек, а где десятки миллионов? Исчерпывающий и недвусмысленный ответ на это возражение даёт теория вероятности и математическая статистика. Не буду вдаваться в детали, чтобы не обескураживать людей с гуманитарным образованием и тех, кто сдав экзамен по высшей математике в рамках вузовского курса, благополучно о ней забыл. Отмечу лишь, что доля панелистов в генеральной совокупности почти не влияет на достоверность измерений. На достоверность измерений влияет лишь абсолютный размер панели. И в силу того, что интернет-аудитория имеет сложную структуру, у этого абсолютного размера есть нижнее ограничение. Опытным путем было установлено, что для правильного представления всех групп аудитории нужно не менее 1500 панелистов. Для достоверного исследования однозначно лучше собрать панель в 1500 человек, чем в 200. Но при этом она почти одинаково будет работать и для генеральной совокупности с несложной структурой в 150 тысяч человек и в 30 миллионов. Опять же без детальных расчетов – для генеральной совокупности из 2 групп людей увеличение панели с 200 человек до 20000 человек (то есть в 100 раз) даёт увеличение точности всего на 0,6 %. (Почему это так – можно почитать, например, в книге Рассела Лэнгли Practical Statistics Simply Explained ).

Самая сложная задача для исследовательской компании – это не сбор большого количества панелистов, а их соответствие структуре исследуемой совокупности. Может показаться, что раз доля выборки в генеральной совокупности не так уж важна, вполне допустимо обойтись панелью в те же 200 человек. Для каких-то несложных задач вроде «узнать сколько мужчин и женщин» посещают главную страницу «Яндекса» за месяц, такой панели будет более, чем достаточно.

К сожалению или к счастью, решение таких задач не удовлетворит потребности рекламодателей. Ведь рекламная кампания может идти всего неделю. При этом в панельном исследовании участвуют сайты значительно меньше «Яндекса», и до них за 1 неделю из 200 панелистов вообще может никто не добраться. Или доберётся 1 мужчина с высшим образованием, на основании которого придётся сделать вывод, что 100 % недельной аудитории этого сайта – мужчины с высшим образованием. Очевидно, что для исследования, которое даёт информацию и по семейному положению и по образованию аудитории, размер выборки должен быть больше. Похожее требование возникает и к размеру аудитории исследуемого сайта. Чем эта аудитория больше – тем более достоверными будут данные о ней. В ту пору, когда размер панели TNS составлял 1500 человек, сайты с аудиторией менее 300 тысяч посетителей в месяц, едва могли претендовать на обнародование данных о социально-демографическом составе своей аудитории.

После разбирательств с тем, зачем нужны панельные исследования и можно ли доверять панели, которая не включат сотни тысяч человек, остаётся рассказать, как происходит сбор информации о панелистах технически. В той же компании TNS Media для этого сейчас используются 2 способа.


Первый способ – так называемая site-centric модель. В этом случае на компьютеры участников панели ставят специальное программное обеспечение, а на сайты, участвующие в исследовании – счётчики TNS. Эти счётчики фиксируют визиты всех пользователей так же, как это делают, например, Liveinternet.ru или Google Analytics. То есть, через куки (подробнее про куки здесь). Когда на сайт со счётчиком заходит панелист, система через куку проверяет все его социально-демографические данные и отдельно фиксирует визит человека, о котором ей известно. Затем из всей массы посетителей выбираются данные панелистов и экстраполируются на всю аудиторию сайта.

Второй способ – так называемая user-centric модель. В этом случае на компьютеры участников также ставят специальное программное обеспечение – аналог тулбара «Яндекса» или Google. И с помощью этого тулбара смотрят за перемещениями панелиста по всем сайтам. Разумеется, никаких счётчиков TNS на этих сайтах не нужно. Данные об общей аудитории сайта при этом получаются исходя из расчёта «10 % панелистов зашли на Google. В генеральной совокупности – 30 миллионов пользователей, значит, всего на Google зашли 3 миллиона пользователей». В точности измерения охвата сайта этот способ, конечно, уступает первому. Зато он позволяет существенно расширить круг сайтов, участвующих в исследовании.

Второй способ, кроме того, хорошо отвечает на вопрос, почему для исследований, например, нельзя использовать тулбар Google. Во-первых, исследовательская компания не получит никакой информации об образовании, доходах и составе семьи панелиста. Во-вторых, нет никакой гарантии в том, что панель правильно представит состав генеральной совокупности. И окажется, что в выборке из 10 миллионов пользователей тулбара, 90 % - мужчины в возрасте до 35 лет. Несложно представить, как с такой выборкой будет выглядеть аудитория любого сайта, включая, например, Eva.ru.

За рамками поста, к сожалению, осталась информация о специфике подбора панелистов в онлайне (user-centric-модель) и оффлайне (site-centric-модель). Кроме того, не упомянуты никакие альтернативые исследования в пику TNS Media. Возможно, мне удастся написать об этом попозже.

Комментариев нет:

Отправить комментарий