Эффективная диагностика корневых причин инцидентов (root cause analysis)
Решаемые задачи
Функциональность Кнопки Помощи ITSM
Используется Кнопка Помощи ITSM (ранее: Красная Кнопка ITSM).
Рис.1.
Архитектура Кнопки Помощи ITSM для диагностирования инцидентов.
Увеличить
В традиционной схеме организации ITSM вся информация, необходимая для диагностирования инцидента, собирается сотрудниками Службы поддержки из разных источников:
Клиентская часть (устанавливается на компьютер пользователя):
Серверная часть:
На серверной и клиентской части выполняется ряд проверок.
Проверки на серверной части выполняются Зондом SLA-ON Probe и называются Оценочными Тестами. Они выполняются непрерывно и считывают метрики, оценивающие здоровье всей ИТ-инфраструктуры.
Проверки на клиентской части выполняются Агентом EPM-Agent Plus и называются Контекстными Проверками. Они выполняются при вызове «красной кнопки» и зависят от контекста (текущего бизнес-приложения, бизнес-операции, задания, разновидности инцидента и т.п.).
При возникновении инцидента инженер поддержки с точностью до 1 минуты связывает информацию о состоянии ИТ-инфраструктуры и бизнес-приложений, полученных в результате Оценочных Тестов Зондом SLA-ON Probe, с информацией о пользователе, компьютере пользователя и инциденте, полученной Агентом EPM-Agent Plus и Фотоаппаратом рабочего дня SelfTrace в результате Контекстных Проверок.
Причины инцидентов бывают двух типов:
Ключевым элементом архитектуры для диагностирования инцидентов первого рода является Агрегатор Информации. Агрегатор Информации собирает и накапливает сведения о состоянии здоровья ИТ-инфраструктуры при помощи Зонда SLA-ON Probe и Консолидированной базы данных.
Функция Зонда SLA-ON Probe – мониторинг метрик здоровья ИТ-инфраструктуры и бизнес-приложений, которые он, опционально, передаёт их для записи в Консолидированную базу данных. Результаты, автоматически оцениваемые по пятибалльной шкале, называются Светофорами.
Измерения проводятся в автоматическом режиме с использованием всех основных технологий сетевого управления (SNMP, WMI, Cisco IP SLA, эмуляция транзакций и другие).
Инструмент для измерения состояния здоровья того или иного компонента ИТ-инфраструктуры называется Экспертизой (Оценочным Тестом). В базовую поставку Зонда SLA-ON Probe уже включены более 50 Экспертиз, подготовленных компанией ProLAN.
Это избавляет инженера поддержки или сервис-провайдера от необходимости знать заранее, какие метрики нужно измерять для управления здоровьем того или иного компонента ИТ-Инфраструктуры (арендованного канала связи, коммутатора, маршрутизатора и т.п.).
Код Экспертиз открыт (это программа на VBScript, упакованная в XML-файл), вы можете легко кастомизировать имеющиеся Экспертизы или создать новые.
Все результаты работы Зонда SLA-ON Probe, как сырые данные, так и экспертные оценки (Светофоры), автоматически передаются на консоль управления SLA-ON Operations.
Среди прочего консоль SLA-ON Operations включает две карты: карту Cockpit и карту HelpDesk (рис.2).
Карта Cockpit используется для отображения информации о здоровье ИТ-инфраструктуры и бизнес-приложений в реальном времени, получаемой от Зонда SLA-ON Probe и Консолидированной базы данных.
Карта HelpDesk используется для отображения всех значимых событий, в том числе списка произошедших инцидентов.
Рис.2.
Диагностика инцидентов, являющихся следствием сбоев в работе ИТ-Инфраструктуры и бизнес-приложений
Увеличить
Выбрав на карте HelpDesk интересующий его инцидент и кликнув по нему левой кнопкой мыши, инженер поддержки получает полную информацию о том, что? произошло (содержимое Снимка Инцидента).
Затем инженер поддержки может кликнуть по интересующему его инциденту правой кнопкой мыши, чтобы понять, почему это произошло. В этом случае он будет автоматически переброшен в карту Соckpit, где синяя стрелка-треугольник покажет ему здоровье различных компонент ИТ-Инфраструктуры (сетевого оборудования, серверов, каналов связи и т.п.) в тот момент, когда пользователь нажал «красную кнопку». Если Светофор какой-то Экспертизы имеет красный цвет, то информация в нижней части экрана покажет специалисту, какие метрики вышли за пороговые значения и насколько.
Для автоматической диагностики сбоев систему оповещения Оценочного Теста нужно настроить таким образом, чтобы при возникновении сбоя в работе ИТ-Инфраструктуры Оценочный Тест, выполняемый Зондом SLA-ON Probe, автоматически сообщал, какие пользователи (группа Active Directory) в результате этого сбоя могут пострадать.
Это важное преимущество продуктов ProLAN. При возникновении сбоя, Зонд SLA-ON Probe автоматически извлекает из Active Directory реквизиты таких пользователей и прикрепляет их к сообщению, которое по протоколу SOAP отправляет в Службу поддержки.
Многие инциденты можно предотвратить, если настроить Зонд SLA-ON Probe на автоматическую отправку e-mail сообщений в тех случаях, когда значения метрик здоровья ИТ-Инфраструктуры или производительности приложений выходят за границы установленных значений (пороговых значений).
Такие сообщения мы называем Содержательными оповещениями о Сбоях, т.к. они могут содержать информацию только о том, какая метрика вышла за порог, когда, насколько, вероятную причину сбоя, какие пользователи в результате сбоя могут пострадать и даже что делать в указанном случае. Эта информация отображается на карте HelpDesk там же, где отображается содержимое Снимков Инцидентов.
Инциденты являются следствием не только сбоев ИТ-инфраструктуры и бизнес-приложений, но и неправильных действий пользователей. Определением действий пользователя в последние 15 минут, в частности приложений, операций и заданий, выполняемых пользователем, занимается приложением SelfTrace. Для автоматического импорта результатов работы SelfTrace на Агрегаторе Информации должно выполняться приложение AutoImport.
Для определения бизнес-операции используются:
Предварительно должны быть созданы соответствующие каталоги, в которых задаётся соответствие между названиями бизнес-операций и их признаками (текст в заголовке окна, URL, текст на экране). Каталоги могут загружаться автоматически (в момент запуска компьютера) и вручную, по нажатию специальной кнопки. Каталоги могут храниться на web-сервере (HTTP), FTP-сервере, файловом сервере.
Получив название операции, SelfTrace использует его следующим образом:
Благодаря этому инженер поддержки, выбрав в приложении SLA-ON Operations карту HelpDesk и кликнув на кнопку История, сразу видит список приложений, бизнес-операций и заданий, которые пользователь выполнял в течение 15 минут перед нажатием «красной кнопки» (рис.3).
Кроме того, выполняемый на рабочей станции клиента Агент EPM-Agent Plus после нажатия «красной кнопки» осуществляет ряд Контекстных Проверок, собирающих информацию о компьютере пользователя, самом пользователе, при необходимости – ближайшего сетевого окружения, переменных среды и т.п.
Рис.3.
Отображение в карте HelpDesk приложения SLA-ON Operations истории действий пользователя
Увеличить