Виновата сеть? Нагрузочный Мониторинг Сети

Часто причиной плохого качества обслуживания посетителей фронт-офиса являются сбои в работе бизнес-приложений, являющиеся, в свою очередь, следствием плохой работы сети (в частности, низким качеством услуг ISP, NSP). Чтобы в этом убедиться или, наоборот, «реабилитировать» сеть, нужно контролировать качество её работы и уметь аргументировано предъявить претензии провайдеру сетевых услуг.

Существует множество технологий решения этой задачи. В данной статье я расскажу о технологии Нагрузочного Мониторинга Сети. Эта технология (наряду с другими технологиями, в частности, Cisco IP SLA) поддерживается всеми продуктами ProLAN, и прозрачно интегрируется с решениями: Кнопка Помощи ITSM, Кнопка Лояльности, Пятый Уровень, Терминал Обратной Связи и другими. Данная технология может использоваться для мониторинга любых сетей. Однако наибольшую ценность она представляет для мониторинга сетей, в которых каналообразующее оборудование не поддерживает технологию IP SLA.

Нагрузочный Мониторинг Сети – это регулярное измерение эффективной пропускной способности сети (network throughput), выполняемое методом генерации в сеть TCP-трафика с заданными параметрами и измерении фактически переданного/принятого объёма данных.

Используйте Нагрузочный Мониторинг Сети для решения следующих задач:

Аудит производительности каналов связи, в том числе арендуемых у провайдеров сетевых услуг (ISP, NSP). Такой аудит можно проводить:

Регулярно, например, 2 раза в сутки, для контроля качества получаемых услуг.
По требованию, например, для оптимизации параметров настройки каналообразующего оборудования.
Во время сдачи (приёмки) сети или при возникновении конфликтов с провайдером сетевых услуг.

Мониторинг качества работы каналов связи в рамках проактивного управления производительностью ИТ-Инфраструктуры.
Определение причин жалоб пользователей на плохую работу сети и/или бизнес-приложений (чтобы определить, виноваты ли каналы связи).

Не просто измеритель, а элемент Service Level Management

Отличие Нагрузочного Мониторинга Сети от тестирования сети с помощью Iperf, pathrate, chariot и других подобных средств в том, что Нагрузочный Мониторинг позволяет не только измерять пропускную способность сети, но и является важным элементом системы управления качеством предоставления ИТ-Услуг (Service Level Management). С технической точки зрения это означает следующее:

Измерение пропускной способности сети может выполняться не только по требованию (разово), но и на постоянной основе. При этом постоянное измерение пропускной способности не влияет на работу пользователей сети (Автоматическое управление генерацией трафика; подробнее ниже).
Результаты измерений в режиме реального времени могут экспортироваться в любую систему управления, поддерживающую SNMP.
ГЛАВНОЕ. Все измеряемые метрики: жалобы пользователей (фиксируются Кнопкой Помощи ITSM), время реакции бизнес-приложений (измеряется Пятым Уровнем), пропускная способность сети, а также метрики, характеризующие здоровье всех компонент ИТ-Инфраструктуры (утилизация, доступность, число ошибок, jitter, delay, packet loss и т.п.), измеряемые продуктами семейства ProLAN SLA-ON (Администратор, Аналитик, Эксперт), привязываются к единой временной шкале. Это позволяет, с одной стороны, быстро определять корневые причины жалоб пользователей и сбоев в работе бизнес-приложений, с другой стороны, быстро диагностировать причины низкой пропускной способности сети.

В линейке решений ProLAN Нагрузочный Мониторинг Сети является связующим звеном между решениями Кнопка Помощи ITSM и Пятый Уровень, контролирующими удовлетворённость пользователей ИТ-Сервисов и производительность бизнес- приложений, и системами управления здоровьем ИТ-Инфраструктуры ProLAN: Администратор, ProLAN: Аналитик; ProLAN: Эксперт. Приобретая любой из этих продуктов, вы сможете проводить Нагрузочный Мониторинг Сети.

Как это работает

Для проведения Нагрузочного Мониторинга Сети используется Тест пропускной способности сети на уровне TCP, входящий в состав всех продуктов семейства ProLAN SLA-ON (Администратор, Аналитик, Эксперт), в том числе в состав бесплатного продукта QuTester Plus.

Тест пропускной способности сети на уровне TCP – это VB-скрипт, выполняемый на Зонде. Зонд – компьютер, работающий под управлением любой версии MS Windows, на котором выполняется служба MS Windows SLA-ON Probe. Работа Теста основана на генерации TCP-Трафика между Зондом и Ответчиками, и измерении объёма передаваемых и принимаемых данных. Ответчик – это служба Linux или Windows, которая может работать на серверах или встраиваться в активное оборудование.

SLA-ON Probe входит в состав любого продукта семейства ProLAN SLA-ON (Администратор, Аналитик, Эксперт), но может использоваться и в составе любой системы управления, поддерживающей SNMP, т.к. позволяет экспортировать результаты измерений (пропускную способность и другие метрики) по SNMP. Для этого SLA-ON Probe поддерживает private MIB ProLAN.

Параметры настройки Теста пропускной способности сети

Генерация трафика может выполняться между Зондом и Ответчиками по очереди или одновременно.
Поддерживаются два режима генерации: Мониторинг Сети и Нагрузочное Тестирование. В первом случае, между Зондом и Ответчиком с заданной периодичностью передаётся массив данных фиксированного размера (от 1 МБ до 100 МБ). Во втором случае между Зондом и Ответчиком (или Ответчиками) в течение определённого периода времени выполняется передача данных с максимально возможной интенсивностью.
Размер блока данных, которыми осуществляется обмен между Зондом и Ответчиками.
Направление передачи данных:

Только от Зонда к Ответчику.
Только от Ответчика к Зонду.
Одновременно в обоих направлениях.
Сначала в одном направлении, потом в другом направлении.

Расписание генерации: с заданной периодичностью (например, каждые 15 минут) или в фиксированные моменты времени (например, ежедневно в 0 часов 15 минут, 2 часа 45 минут и т.п.).
Дополнительные параметры:

Использовать или не использовать при передаче данных алгоритм Найгла.
Контролировать или не контролировать доступность Ответчиков по UDP.
Время ожидания при невыполнении условий генерации (см. ниже).

Измеряемые характеристики

№	Характеристика	Описание
1	READ (Mbps, %)	Пропускная способность сети при передаче данных от Ответчика к Зонду. Во всех случаях одновременно измеряется абсолютная и относительная (относительно установленного значения) пропускная способность.
2	WRITE (Mbps, %)	Пропускная способность сети при передаче данных от Зонда к Ответчику.
3	RD-WR (Mbps, %)	Пропускная способность сети при встречной передаче данных между Зондом и Ответчиком.
4	TOTAL (Mbps, %)	Общая пропускная способность сети при одновременной передаче данных между Зондом и несколькими Ответчиками. В зависимости от направления передачи данных может быть: TOTAL READ, TOTAL WRITE, TOTAL RD-WR.
5	AVERAGE (Mbps, %)	Средняя пропускная способность сети при поочерёдной передаче данных между Зондом и несколькими Ответчиками. В зависимости от направления передачи данных может быть: AVERAGE READ, AVERAGE WRITE, AVERAGE RD-WR.
6	Responder Availability (%)	Доступность Ответчиков по UDP. Проверка доступности Ответчиков может быть отключена.
7	TCP Link Availability (%)	Доступность TCP-канала. TCP-канал считается недоступным, когда при доступности Ответчика UDP с ним невозможно установить связь по TCP и во время передачи данных происходит разрыв связи между Ответчиком и Зондом.

Автоматическое управление генерацией трафика

Поскольку тестовый трафик может оказывать негативное влияние на работу пользователей сети, в Тесте пропускной способности сети на уровне TCP предусмотрена возможность автоматического управления генерацией трафика в зависимости от активности внутренних пользователей. Поясним это на примере.

Предположим, тестируется канал связи, подключённый к 6-му порту маршрутизатора; см. Рисунок 2. При этом Зонд подключён к 1-му порту, а пользователи – к 3-му и 4-му портам. Предположим, Тест пропускной способности сети должен с 9-00 до 20-00 каждый час передавать 1 Мбайт данных от Ответчика к Зонду.

Если управление генерацией трафика включено, тест начнёт генерацию трафика только в том случае, если утилизация портов 3 и 4 будет меньше определённого значения, например, 5%. Если в то время, когда должна начаться генерация трафика, это условие не выполняется, то Тест не начнёт генерацию, а будет ждать определённое время. Если он так и не дождётся снижения утилизации до 5%, то генерация будет отложена следующего часа. Начав генерацию трафика, Тест продолжает контролировать утилизацию портов 3, 4, и если она окажется выше 5%, то прекратит генерацию, зафиксирует конфликт, и аннулирует результаты данного измерения. Условия, разрешающие/запрещающие генерацию трафика могут быть различными (не только утилизация портов). Режим управления генерацией трафика можно отключить.

Ключевые преимущества

1. Достоверность результатов аудита сети

Управление генерацией трафика позволяет, с одной стороны, автоматизировать измерение пропускной способности сети, с другой стороны, проводить замеры только в периоды низкой активности пользователей. Это обеспечивает высокую репрезентативность и достоверность получаемых результатов.

2. Экономичность мониторинга сети

Здоровье сети характеризуется множеством метрик – утилизация, ошибки, джиттер, число потерянных пакетов и т.д. Значения этих метрик влияют на пропускную способность сети, поэтому выход любой из них за допустимый диапазон значений вызывает снижение пропускной способности сети. Таким образом, чтобы узнавать о проблемах до того, как они скажутся на работе пользователей, достаточно контролировать пропускную способность сети, что дешевле, проще и удобнее, чем контролировать множество «сырых» метрик.

3. Возможность быстро «реабилитировать» сеть

Жалобы пользователей, фиксируемые Кнопкой Помощи ITSM, и производительность сети, измеряемая в рамках Нагрузочного Мониторинга Сети, всегда привязаны к единой временной шкале. Поэтому, чтобы реабилитировать сеть, достаточно убедиться, что в момент жалобы пользователя (нажатия им «красной кнопки») пропускная способность сети была нормальной.

Заинтересовало? Три варианта применения

Если вы администрируете небольшую сеть, загрузите бесплатный продукт QuTester Plus. Он позволит вам проводить Нагрузочный Мониторинг Сети со следующими ограничениями:

Вы не сможете единовременно тестировать более одного канала связи.
Вы сможете одновременно запускать не более трёх Оценочных Тестов (Экспертиз), при этом общее число измеряемых метрик не должно превышать 150. Это несколько ограничивает возможность быстро определять причины низкой пропускной способности.
Не отображается история результатов измерений. Отображаются только текущие значения измеряемых метрик и история оценок (светофоров).

Если вы являетесь пользователем какого-то продукта семейства ProLAN SLA-ON (Администратор, Аналитик, Эксперт), то чтобы проводить Нагрузочный Мониторинг сети сделайте upgrade используемого продукта (загрузите Тест пропускной способности сети на уровне TCP).
Если для управления ИТ-Инфраструктурой вы используете продукты других производителей (не компании ProLAN), то для проведения Нагрузочного Мониторинга Сети необходимо интегрировать SLA-ON Probe в используемую систему. Это сделать относительно несложно, т.к. SLA-ON Probe позволяет экспортировать результаты измерений по SNMP. Необходимые инструкции по интеграции вы получите после приобретения продукта SLA-ON Probe. Если вы затрудняетесь сделать интеграцию самостоятельно, она может быть выполнена специалистами ProLAN на возмездной основе.