Кнопка оценки производительности ИТ-Сервисов. Технология

Кнопка Помощи ITSM Общее описание Регистрация инцидентов Регистрация агрегированных инцидентов Диагностика корневых причин инцидентов Мониторинг производительности ИТ-Сервисов Калибровка системы мониторинга (по APDEX) «Защита от дурака» Контекстная справка Режимы работы Разведочно-Диагностическая Процедура

Интеграция и проч. Аудит пропускной способности сети Интеграция с системами мониторинга и Service Desk Интеграция с программами удалённого доступа Интеграция с решением «Гамбургский счёт» Интеграция с решением «Пятый уровень»

Мониторинг производительности ИТ-Сервисов с привлечением пользователей

Существующие методы мониторинга производительности ИТ-Сервисов

Сегодня наибольшее распространение получили два способа (метода) мониторинга производительности ИТ-Сервисов:

Систематизация жалоб пользователей, получаемых службой поддержки (Service Desk). Назовём его Метод №1.
Проактивный мониторинг производительности бизнес-приложений с использованием специальных технических средств. Назовем его Метод №2.

Систематизация жалоб пользователей в Службу поддержки

Основное и единственное достоинство Метода №1 (систематизация жалоб пользователей в Службу поддержки) – его простота и доступность. Практически любая система класса Service Desk позволяет получать отчёты по обращениям пользователей в разных разрезах, в том, в разрезе ИТ-Сервисов.

Главный недостаток – низкая информативность. Большинство пользователей обращаются в службу поддержки только в крайнем случае, когда другого выхода нет. Если же ИТ-Сервис плохо, но все же работает или без него пока можно обойтись, то большинство пользователей в службу поддержки, скорее всего, обращаться не будут. В результате недовольство ИТ-Сервисом может быть большим, а провайдер ИТ-Сервиса может об этом ничего не знать. И будет очень удивлён, когда недовольство клиента превысит порог терпения и он, казалось бы, на пустом месте устроит скандал («у вас всё работает просто ужасно») или молча уйдёт к другому провайдеру.

Проактивный мониторинг производительности ИТ-сервисов

В отличие от метода №1, метод №2 (проактивный мониторинг производительности ИТ-Сервисов) нацелен на получение информации о производительности ИТ-Сервисов до обращения пользователей в службу поддержки, т.е. до того, как будет превышен порог терпения пользователя.

Для проактивного мониторинга производительности ИТ-сервисов обычно используются следующие технические средства:

GUI-роботы, генерирующие синтезированные транзакции и измеряющие время реакции бизнес-приложений
Производители GUI-роботов часто позиционируют их как инструментарий для оценки производительности ИТ-сервисов. Мы считаем, что это не совсем верно. GUI-роботы действительно эффективны для оценки как доступности ИТ-Сервисов, так и времени реакции бизнес-приложений при выполнении простейших операций. Эти показатели коррелируют с производительностью ИТ-Сервисов, но в полной мере его не характеризуют. GUI-роботы входят в состав решений ProLAN.
Аппаратные анализаторы сетевых протоколов (сетевого трафика), устанавливаемые в разрыв сети и извлекающие из сетевого трафика информацию о работе бизнес-приложений
Пример такого продукта – GigaStor компании Network Instruments. Мощные анализаторы трафика, позволяющие контролировать производительность ИТ-Сервисов, предлагаются также компаниями HP, BMC, Oracle и другими. В отличие от GUI-роботов, аппаратные анализаторы сетевых протоколов позволяют получать исчерпывающую информацию о работе ИТ-Сервисов «глазами пользователей» (QoE, Quality of Experience), однако стоимость соответствующего инструментария не просто высокая, а очень высокая.
Программные агенты, устанавливаемые на компьютеры пользователей и незаметно для пользователей измеряющие производительность и другие показатели работы ИТ-Сервисов: время реакции бизнес-приложений, ошибки, время выполнения бизнес-транзакций и другое.
Пример такого решения – Пятый Уровень компании ProLAN. На данный момент область его применения ограничена только ИТ-Сервисами на основе Windows-приложений.

Кнопка оценки производительности ИТ-сервисов

Помимо рассмотренных двух методов мониторинга производительности ИТ-сервисов есть и Метод №3 — Кнопка оценки производительности ИТ-Сервисов. Метод основывается на использовании Кнопки Помощи ITSM (ранее: Красная Кнопка ITSM).

Пользователям ИТ-Сервисов предоставляется возможность пожаловаться на работу ИТ-Сервиса простым нажатием «красной кнопки». Это значительно проще и удобнее, чем звонить, писать или заполнять web-форму в портале самообслуживания. Однако непосредственным приёмником жалоб (сообщений, генерируемых «кнопкой»), является не Service Desk, а система сетевого мониторинга со встроенной экспертной системой.

Это позволяет, с одной стороны, «защитить» Service Desk от большого числа неинформативных сообщений, с другой – не пропустить и автоматически зарегистрировать важные (business critical) инциденты, например, когда несколько пользователей, расположенных в разных офисах, жалуются на какой-то ИТ-Сервис одновременно.

Аналогии. Здесь уместны две аналогии. Сообщение, генерируемое «кнопкой», выполняет ту же функцию, что и SNMP-трап или Syslog-сообщение. Но только отправителем этой информации является не сетевое оборудование, а пользователь ИТ-Сервисов. Другая аналогия – системы оценки качества обслуживания клиентов, в частности, Кнопка Лояльности. В обоих случаях пользователю сервиса (ИТ-сервиса и банковской услуги) предоставляется возможность в простой и удобной форме (без вызова заведующего, читай – регистрации инцидента), выразить своё отношение к качеству получаемых услуг.

Как это работает

Генерация жалобы пользователя

На компьютерах пользователей устанавливается Кнопка Помощи ITSM. Это специальный Windows-сервис и, опционально, USB-устройство. В качестве аппаратной кнопки обычно используется кнопка ProLAN-101.

Рис. 1.
Использование Кнопки Помощи ITSM для мониторинга производительности ИТ-Сервисов.
Увеличить

Представим, что пользователь недоволен работой ИТ-Сервиса. Сервис работает слишком медленно. Или появилось непонятное сообщение об ошибке. Или пользователь просто запутался в бизнес-логике из-за неудобного интерфейса и хочет сказать своё «фи» сервис провайдеру. При этом пользователь не хочет регистрировать инцидент, что может также происходить по разным причинам – считает его маловажным, несрочным и некритичным, не хочет лишний раз связываться с техподдержкой и т.п. Приложение работает медленно, но всё же работает; пользовательский интерфейс настолько неудобен, что пользователь от разу к разу путается в бизнес логике – таковы возможные причины жалоб: слишком плохо для удовлетворённости сервисом, но всё ещё слишком «хорошо» для обращения в поддержку.

Примечание. Кнопка Помощи ITSM может использоваться как для автоматической регистрации инцидентов, так и для оценки качества и производительности ИТ-Сервисов со стороны пользователя без регистрации инцидента. В первом случае используется Нормальный режим, во втором – режим ALARM. Подробнее о режимах работы Кнопки Помощи ITSM можно прочитать здесь.

Чтобы сообщить о своём недовольстве (пожаловаться на ИТ-Сервис), пользователь нажимает «красную кнопку» и удерживает её в нажатом состоянии около 2 секунд. Кнопка Помощи ITSM автоматически определяет, что в момент нажатия «кнопки» делал пользователь (используются активный процесс, заголовок активного окна, URL) и автоматически отправляет в систему мониторинга Жалобу пользователя – сообщение HelpMe.

Приём и экспертная оценка жалоб пользователей

Сообщение HelpMe – это SOAP-пакет, используемый для передачи информации от Кнопки Помощи ITSM к системе мониторинга. Сообщение HelpMe содержит информацию, показанную в Таблице 1.

Таблица 1. Содержимое сообщения HelpMe.

1.	Точное время, когда пользователь нажал «красную кнопку»
2.	Информация о пользователе (имя, аккаунт, подразделение)	Кто пользователь, где он находится. Справочник пользователей.
3.	Информация о местонахождении пользователя (офис, город, страна...)
4.	Скриншот в момент нажатия «красной кнопки»
5.	Информация об окружении пользователя (конфигурация компьютера, программная конфигурация, версия СУБД и т.п.)
6.	Что конкретно пользователь делал в момент нажатия «красной кнопки» (активный процесс, заголовок активного окна, URL, бизнес-операция)	На что жалуется. Справочник операций.

Сообщения HelpMe (жалобы пользователей), отправленные Кнопкой Помощи ITSM, принимаются Агрегатором Информации – составной частью системы мониторинга ProLAN. Получив сообщение HelpMe, Агрегатор Информации записывает его в консолидированную базу данных и передаёт выполняемой на нём экспертной системе.

На Агрегаторе Информации работает экспертная система, которая в режиме реального времени с использованием специальных Экспертиз (Оценочных Тестов) делает следующее:

Автоматически формирует метрики, характеризующие жалобы пользователей ИТ-Сервисов (см. Таблицу 2).
Автоматически оценивает сформированные метрики по пятибалльной шкале: хорошо, допустимо, требует внимания, на грани, плохо – и формирует Агрегированные снимки инцидентов. Подробнее о регистрации Агрегированных инцидентов см. «Регистрация агрегированных инцидентов по жалобам пользователей».

Информация, содержащаяся в сообщении HelpMe, позволяет группировать жалобы пользователей, с одной стороны, по информации о пользователе и его местонахождении, с другой стороны – по операциям, которые сотрудники выполняли в момент нажатия «красной кнопки». На основании этой информации система мониторинга формирует и отслеживает метрики, характеризующие жалобы пользователей.

Таблица 2. Пример механизма формирования метрик, характеризующих жалобы пользователей ИТ-Сервисов.

/	Справочник пользователей
Справочник операций	/	Топы - Москва	Продавцы - Питер	Все - Сочи
	Работа в 1С	Метрика 1: Жалобы топов из Москвы на работу 1С	Метрика 4: Жалобы продавцов из Питера на работу 1С и SAP CRM	Метрика 6: Жалобы всех пользователей из Сочи на работу 1С и SAP CRM
	Работа в SAP CRM	Метрика 2: Жалобы топов из Москвы на работу SAP CRM
	Интернет	Метрика 3: Жалобы топов из Москвы на работу Интернет	Метрика 5: Жалобы продавцов из Питера и всех пользователей из Сочи на работу Интернет

Рассмотрим механизм формирования метрик на примере Метрики 2. Экспертная система выбирает из базы данных всех пользователей, относящихся к категории «Топы – Москва», и определяет, сколько от них поступило жалоб за отчетный период на бизнес-приложение SAP CRM. Отчётный период может быть любым, например, 15 минут или 2 часа. Чем меньше отчётный период, тем быстрее ИТ-Служба сможет определить наличие проблемы. Отнесение пользователей к категории «Топы – Москва» осуществляется на основе параметров настройки «красной кнопки» и значений переменных среды на компьютерах пользователей ИТ-Сервисов. Работа в SAP CRM определяется, например, по названию активного процесса на компьютере пользователя в момент нажатия им «красной кнопки».

Отчёты о недовольстве пользователей работой ИТ-сервиса

В состав Агрегатора Информации входит приложение SLA-ON Operations, позволяющее в режиме реального времени видеть работу ИТ-Сервиса в различных разрезах, в частности, в разрезе ИТ-Сервисов по регионам (см. Рисунок 2) и разрезе бизнес-процессов (см. Рисунок 3).

Рис. 2.
Пример отображения оценки работы ИТ-Сервиса в разрезе регионов и бизнес-приложений.
Увеличить

Рисунок 3.
Пример отображения оценки работы ИТ-Сервиса в разрезе бизнес-процессов.
Увеличить

Вместо заключения

Кроме мониторинга производительности ИТ-Сервисов (о чём было рассказано выше), эффективное управление качеством ИТ-Сервисов также предполагает:

Оперативное оповещение об ухудшении работы ИТ-Сервисов. Подробнее: Регистрация агрегированных инцидентов.
Проведение ретроспективного анализа получаемых данных о работе ИТ-Сервисов (анализ трендов) и создание Отчетов в разных разрезах. Для решения этой задачи используется приложение Trend Viewer SE, также входящее в состав Агрегатора Информации. С его помощью провайдер ИТ-Сервиса получает возможность анализировать тренды (ретроспективный анализ) и легко создавать самые разные отчёты.
Умение быстро диагностировать причины жалоб пользователей. Поскольку в Агрегаторе Информации содержатся также результаты мониторинга здоровья ИТ-Инфраструктуры, с его помощью провайдер ИТ-Сервиса получает возможность быстро и легко определять причины жалоб пользователей. Подробнее о диагностике инцидентов и жалоб.