вторник, 6 июля 2010 г.

Сookies в веб-аналитике


Можно предположить,  что читатель блога о веб-аналитике, по меньшей мере, один раз слышал слово «куки» или cookies. В разговорах об интернет-рекламе и веб-аналитике это слово звучит очень часто, поскольку использование кук – это ключевой элемент идентификации и отслеживания интернет-пользователей.
Подробная история появления и эволюции кук, выдержки из их спецификации и примеры приведены в статье в «Википедии» на русском языке.   Позволю себе не дублировать информацию о том, чем куки являются и чем не являются.
В разговоре о применении кук в веб-аналитике просто отмечу следующие моменты:
  1. Куки используются для отслеживания визитов на сайт. Таким образом, системы веб-аналитики отделяют старых посетителей от новых,  а также фиксируют время между визитами (и много всякой другой активности вроде того, как ведет себя пользователь с отдельно взятой рекламной кампании).
  2. Куки делятся на куки «первой стороны» и куки «третьей стороны» (кук «второй стороны» при этом не бываетJ). Под первой стороной подразумевается домен сайта, на который заходит пользователь. Под третьей стороной подразумевается домен стороннего сайта, который обеспечивает работу каких-нибудь сервисов на посещаемом сайте. Например, сайт использует стороннюю систему показа рекламы, счётчик посещений или  контент (видеоролик, который физически лежит на другом сервере).
  3. Куки бывают постоянные (на самом деле, у постоянства тоже есть предел – как правило, в несколько месяцев или лет) и временные (эти куки стираются сразу после того, как пользователь закрыл браузер). Временные куки ещё иногда называют «отрицательными».
  4. Один сайт может отдавать по несколько кук. Например, Google Analytics, отдаёт 5 кук "первой стороны", а система Liveinternet – отдаёт не менее 7 кук. У каждой отдаваемой куки – своё назначение, узнать о котором можно, почитав документацию системы-родительницы кук. К несчастью, далеко не все системы детально описывают свои куки.
  5. Некоторые системы веб-аналитики используют куки первой стороны (например, Google Analytics), а некоторые – куки третьей стороны. В использовании обоих типов куков есть свои плюсы и минусы.
Плюс кук первой стороны – снижается погрешность измерений (куки первой стороны блокируются менее чем 1 % пользователей). Минус – пользователь получает уникальную метку для каждого сайта, что делает невозможным  отслеживать пересечения аудитории сайтов. С другой стороны – даже при наличии кук третьей стороны крайне непросто обратиться к конкуренту со словами «Давайте посмотрим на наше пересечение».

четверг, 24 июня 2010 г.

Средства для веб-анализа. Javascript-тэги


Появление систем веб-аналитики, использующих для сбора данных javascript-тэги, значительно продвинуло интернет-бизнес  в плане получения действительно полезной информации о поведении пользователей на сайте.  Не будет преувеличением сказать, что от палки-копалки веб-аналитики перешли к экскаватору.
В отличие от серверных логов,  в которых содержится описание параметров http-запросов, javascript-тэги дали возможность получать информацию о событиях, происходящих на веб-страницах.  Таким образом, базовые метрики вроде количества уникальных посетителей и количества просмотров страниц  дополнились данными о поведении пользователей на каждой отдельно взятой странице.
Благодаря тому, что язык javascript позволяет фиксировать события на странице, стало возможно понимать, например, на каком из полей сложной веб-формы, пользователь отказался от завершения задачи. Или понимать, как часто пользователи вызывают события (например, просмотр увеличенной иллюстрации), которые не связаны с отдельным http-запросом.
Более того, разработчики javascript-решений для веб-аналитики научились фиксировать загрузки файлов (раньше фиксация таких событий считалась одним из ключевых преимуществ систем анализа серверных логов).
В  отличие от серверных логов решения на javascript-тэгах фиксируют и перемещение пользователя по сайту с использованием кнопок «вперёд» и «назад».
В сухом остатке крайне сложно представить себе мотивацию, по которой веб-аналитик для работы предпочтёт решению на javascript-тэгах анализ серверных логов.  Опасения, связанные с тем, что часть аудитории не может быть обсчитана из-за отключения в браузере javascript, сейчас не заслуживают внимания.  Уже в 2007 году доля пользователей с отключенным javascript была на уровне 3 %.

Однако и у такого хорошего решения как javascript-тэги есть несколько недостатков.  Существует вероятность того, что при установке тэгов на сайт, часть страниц будет пропущена, либо тэги будут установлены не корректно. В этих случаях собираемые данные будут не полными, а при наиболее печальном раскладе (например, тэг с ошибкой будет вставлен в неправильное место) есть риск и вовсе создать проблемы при загрузке страницы пользователем.
Для проверки правильности установки тэгов есть программные решения. Например, создатели Google Analytics в своём Conversion University рекомендуют использовать инструмент SiteScan.

четверг, 17 июня 2010 г.

Средства для веб-анализа. Серверные логи

Для сбора данных об аудитории сайта и её поведении на сайте существует несколько методов: серверные логи, javascript-тэги, т.н. beacons и сниффинг (обработка пакетов данных). Я не буду пытаться описать все указанные методы с их достоинствами и недостатками в одном посте – текста может получиться слишком много, и воспринять его за один раз может оказаться непросто.

Поэтому начну со сбора и анализа серверных логов.

Этот метод появился первым. Вообще, сбор и хранение серверных логов ведется в первую очередь для мониторинга корректной работы сайта, точнее, сервера на котором сайт живёт. Использование логов для учёта количества и качества аудитории сайта стало побочным продуктом.
Вкратце процесс сбора серверных логов выглядит так:
Пользователь вписывает URL сайта в адресную строку либо кликает по ссылке на сайт → Запрос на показ запрошенной страницы приходит на сервер →
Сервер принимает запрос, готовит запрошенную страницу для показа пользователю и записывает в лог параметры запроса пользователя (название страницы, IP-адрес, браузер и операционная система пользователя, дату и время запроса).

Для разбора и систематизации информации из серверных логов существует множество как платных, так и бесплатных программных продуктов. Первый такой коммерческий продукт появился ещё в 1994 году.

Всё, что нужно для начала работы в этом случае – это установить на сервер дополнительное ПО. Хорошему системному администратору для этого понадобится не более часа. Можно воспользоваться, например, Webalizer, AWstats или Analog– все три продукта бесплатны.

Удобство упомянутых продуктов в том, что они сортируют и показывают те данные, которые нужны для оценки аудитории, а не технические подробности работы сервера.

К преимуществам серверных логов, как инструмента веб-аналитики, можно отнести:
• возможность отслеживания визитов поисковых роботов. Эта возможность особенно полезна для новых только что запущенных сайтов. Людям, ответственным за поисковый трафик не надо ежедневно беспокоить системного администратора с вопросами: «Что у нас там с визитами роботов?»
• возможность хранить все анализируемые данные столько времени, сколько нужно. Все остальные продукты имеют ограничение на срок хранения данных. Плюс при миграции с одного продукта на другой сравнивать новые и старые данные становится совсем неудобно.
Минусы серверных логов:
• логи и их анализаторы не позволяют отслеживать просмотры кэшированных страниц. Если пользователь вернулся на главную страницу сайта, воспользовавшись браузерной кнопкой «Назад», повторный просмотр страницы засчитан не будет.
• через анализаторы логов крайне затруднительно получать какую-то информацию, выходящую за рамки базовых технических параметров (визиты, уникальные посетители, просмотры страниц , география, тип браузера и операционной системы). При огромном желании к анализатору можно «прикрутить» какие-то дополнительные надстройки. Но тогда уж лучше воспользоваться бесплатным решением с использованием javascript-тэгов.
• Через анализаторы логов невозможно отследить активность на сайте, не связанную с http-запросами (взаимодействие пользователя с объектами flash, ajax-формами и т.п.)

В сухом остатке, анализировать серверные логи при условии наличия продвинутых систем на базе javascript-тэгов, мне представляется делом сомнительным. За исключением отслеживания визитов поисковых роботов на начальном этапе существования сайта других потребностей я в этом инструменте не вижу.

вторник, 18 мая 2010 г.

Зачем тратиться на веб-аналитику?



Летом 2001 года я стал редактором интернет-газеты Lenta.ru. Работа в штате популярного онлайн-СМИ, офис которого в ту пору располагался в одном здании с издательским домом «Афиша» завлекла меня с первых дней. Писать новости, узнавая в процессе кучу интересных вещей, оказалось очень здорово.
Среди всего прочего привлекательной была возможность быстро оценить, насколько интересной показалась читателям написанная новость. Для этого использовалась некая внутренняя статистика «Ленты», в которую можно было посмотреть и увидеть, сколько человек прочитали твою новость за последние полчаса. В 2001 году абсолютным хитом оказалась новость про смерть Осамы бин Ладена – её прочитали аж 723 человека. Новость, конечно, оказалась ложной, но ажиотаж вызвала всё равно.
Для того, чтобы понимать, насколько хорошо «Лента» выглядела на фоне своих конкурентов, любопытные редакторы смотрели в рейтинг «Рабмлер Топ 100».  И радостно потирали руки, глядя сколько хитов и уникальных хостов собирала родная интернет-газета на фоне конкурентов из РБК и «Газеты.ру».  Этими цифрами и ограничивалось понимание того, как «Лента» работает, для большинства редакторов. Ну еще периодически шеф-редакторы громко говорили: «Нарисуйте «уши» для «подлодки «Курск». Это значило, что кто-то забывал выполнять обязательную процедуру по созданию маленького баннерочка, благодаря которому читатели осваивали на несколько новостей больше.
Редакторы исправно писали, рекламодатели платили деньги, pr-менеджеры разных компаний смотрели в «Рамблер Топ 100» и восхищенно говорили «Какая у вас аудитория!», не сильно озадачиваясь, какая доля этой аудитории заинтересуется услугами и товарами этих компаний.

В общем в 2001 году анализ работы сайта для очень большого числа участников медийного рынка ограничивался «Рамблером Топ 100» или каким-нибудь похожим рейтингом. Рекламные агентства, конечно, уже пользовались более продвинутыми системами анализа типа Spylog. Но людей, понимавших зачем нужен этот самый Spylog, можно было пересчитать очень быстро. Что касается меня, то я в ту пору ни от кого не слышал термина «веб-аналитика».
О  том, что такое веб-аналитика, и каких целей можно добиться с её помощью, я впервые услышал в апреле 2005 года на семинаре рекламного агентства Promo.ru. Докладчиком выступала директор по маркетингу этого агентства Елена Молчанова. Правда, её доклад назывался «Интернет-маркетинг», но речь в нём шла в первую очередь о веб-аналитике. На примере того же Spylog, Елена подробно рассказала, как можно понять, какая доля посетителей отдельно взятого сайта регулярно ходит на «Яндекс».
Спустя три месяца после первого знакомства с веб-аналитикой я вышел на работу в издательский дом «Собака», который в ту пору сильно озаботился развитием интернет-направления. Среди всех задач, связанных с развитием этого направления, оказалась , конечно, и веб-аналитика. Мы купили услуги компании Spylog, составили в Excel некую табличку с базовыми показателями (уникальные посетители, количество просмотренных страниц, ядро аудитории) и раз в месяц кратко обсуждали их с руководством. Руководство задавало вопросы «почему в прошлом месяце этот показатель был выше?» я давал краткие интуитивные пояснения в духе «Ну вот «Яндекс» в прошлом месяце дал больше переходов» и на этом анализ заканчивался.

В 2007 году мы плавно отказались от услуг Spylog – сервис явно испытывал какие-то проблемы с нагрузкой, а на фоне бесплатного Liventernet.ru с нашими потребностями в веб-анализе и вовсе выглядел напрасным поглотителем денег. Чуть позже, в свои инструменты для анализа я включил Google Analytics. В этом продукте самой востребованной функцией у нас коллегами и руководством оказалось «Наложение данных на сайт», всё остальное мы странным образом игнорировали. Параллельно коллеги из Лондона активно призывали нас купить продукт HBX, который использовался на всех англоязычных сайтах Timeout. Таким образом, данные об аудитории мы получали аж из 4 источников: Liveinternet.ru, HBX, Google Analytics и ещё TNS Web Index. Пытаясь привести все цифры к единому знаменателю, мы придумывали поправочные коэффициенты, сводили это всё в одну таблицу и с завидной частотой разбирали ошибки, возникавшие из-за неправильных поправочных коэффициентов.
В таком усложненном формате веб-аналитика для меня и существовала до весны 2009 года. В один из мартовских дней в поисках каких-то решений по веб-дизайну я наткнулся на блог американского веб-аналитика Авинаша Кошика «Occams Razor». И понял, что вкладывал в понятие «веб-аналитика» очень странный смысл. Выяснилось, что веб-аналитика – это не агрегация данных из бесконечных источников и не выписывание цифр в экселевскую табличку с комментариями «получилось как-то так». Веб-аналитика – это средство, которое сейчас позволяет с точностью до рубля оценить эффективность средств, потраченных на разработку сайта и его продвижение.
Веб-аналитика даёт ответы на вопросы:
  • Работает ли ваш сайт, так как вам представлялось или на самом деле всё обстоит сильно хуже/лучше?
  • Как можно развернуть аудиторию в свою сторону?
  • Какая аудитория вообще не стоит потраченных на нее денег?
Список вопросов можно дополнять, но указанные три кажутся мне наиболее значимыми. Как показывают реалии, огромное количество людей и сейчас оценивают эффективность своих интернет-усилий, используя странные поправочные коэффициенты или просто «Рамблер Топ 100».
Очень надеюсь, что мне хватит сил и терпения написать ещё не один пост про веб-аналитику и развернуть в сторону разумных затрат и создания хороших сайтов не одного сайтовладельца или его сотрудников.

пятница, 19 марта 2010 г.

Google Analytics разрешит пользователям исключить себя из отчётов

Очень странное решение готовят разработчики Google Analytics. В ближайшее время они обещают выпустить плагин для включения так называемых opt-out cookies. Это значит, что любой пользователь сможет запретить Google Analytics отслеживать свою активность на сайтах.

Самой теме с opt-out cookies уже очень много лет. В США они активно используются с 2000 года - тогда там был принят какой-то соответствующий закон Федеральной комиссией по торговле. Но тот закон и те opt-out cookies касались т.н. кук третьей стороны, которые реально позволяют отслеживать всю активность пользователя (какие сайты посещает, с какой частотой и т.п.)

Google Analytics использует куки первой стороны, то есть, не может отследить куда пошёл пользователь после того, как вышел с сайта, отслеживаемого GA. Кроме того, Google всячески подчёркивает, что не собирает никакой персональной информации о пользователях. Даже не фиксирует их IP-адреса.

Владельцам сайтов СМИ или интернет-магазинов по продаже детских игрушек от внедрения opt-out cookies для GA, скорее всего не станет ни горячо, ни холодно. Доля посетителей таких сайтов, знающих зачем придуманы opt-out cookies минимальна.
А вот сайты, ориентированные на продвинутую техническую аудиторию, теоретически могут пострадать. Хотя лично я никак не могу понять, зачем мне отключать отслеживание GA.

Ну и opt-out cookies GA - это всё-таки браузерный плагин. В Firefox и Chrome плагин поставить легко, с Internet Explorer и Safari это сделать посложнее.