Руководство по синтетическому бенчмаркингу корпоративных систем хранения данных и лучшие практики. Часть 3. Практическая иллюстрация на примере бенчмаркинга VMware vSAN

Николай Куликов опубликовал своё руководство по тестированию систем хранения на английском языке, поэтому захотелось получить русский вариант. Данный перевод выполнен ИИ с моими правками (возможны правки формулировок).

Сценарий и определение целей
ВМ-испытатели
Размер виртуального диска и общее использование ёмкости
Тесты воздействия на производительность набора активных рабочих нагрузок
Анализ влияния продолжительности тестирования и прогрева
Тестирование влияния OIO
Лимиты IOPS
Результаты тестирования
Заключение
Особая благодарность
Приложение A

Что ж, давайте пройдемся по пунктам, изложенным в первой и второй частях, и рассмотрим пример того, как может выглядеть сквозное тестирование.

Как я уже говорил, всегда стоит начинать с определения целей и задач. Истинная цель дальнейших бенчмарков – продемонстрировать на конкретном примере процесс проведения тестирования, а также проиллюстрировать влияние отдельных параметров на результаты теста. Чтобы сделать это ближе к реальности, давайте придумаем некую гипотетическую, но все же реалистичную ситуацию. Continue reading “Руководство по синтетическому бенчмаркингу корпоративных систем хранения данных и лучшие практики. Часть 3. Практическая иллюстрация на примере бенчмаркинга VMware vSAN”

Руководство по синтетическому бенчмаркингу корпоративных систем хранения данных и лучшие практики. Часть 2. Критерии успеха и параметры бенчмаркинга

Николай Куликов опубликовал своё руководство по тестированию систем хранения на английском языке, поэтому захотелось получить русский вариант. Данный перевод выполнен ИИ с моими правками (возможны правки формулировок).

Определение критериев успеха для синтетического бенчмаркинга
Исходные данные и вводные
Сбор метрик из существующих систем
Список параметров, которые необходимо определить

Заключение

Определение критериев успеха для синтетического бенчмаркинга

Как я уже упоминал в первой части руководства, определение целей и критериев успеха является обязательным шагом для успешного POC. Конечно, критерии успеха могут быть разными, но у них есть нечто общее – они должны следовать правилам S.M.A.R.T:

  • Конкретность – цель должна быть конкретной и ясной для всех, кто участвует в тестировании. Не должно быть никаких разночтений, двусмысленных толкований или “само собой разумеется”.
  • Измеримость – это означает, что существует метрика или число, которое может однозначно определить прохождение/непрохождение или результат A лучше, чем B.
  • Достижимость – требования должны быть реалистичными и достижимыми (хотя бы теоретически) для каждого участника. В противном случае нет смысла тратить на это время.
  • Релевантность – здесь это самый важный пункт. Вы должны быть в состоянии прояснить и очень четко показать, почему были выбраны именно такие цели и метрики. Как они связаны с потребностями бизнеса? Почему именно эта метрика или число, а не другая? И будьте осторожны со ссылками на “отраслевые стандарты”, “вот как мы делали это раньше”, “опыт других компаний”. Слишком легко ошибиться и потерять релевантность вашим конкретным бизнес-потребностям.
  • Ограниченность во времени – в вашем плане POC должны быть четко и заранее определены временные рамки и сроки.

Цели, а также подробная контрольная программа (описывающая, как именно будут проводиться тесты) должны быть написаны ДО начала POC и одобрены/подтверждены каждым участником.

Я также рекомендую отправить черновик программы участникам, часто они могут дать полезные советы, рекомендации или комментарии, а также для того, чтобы они были готовы. А также быть на связи с производителями/партнерами в процессе бенчмаркинга, особенно, если есть какие-то проблемы или система не смогла достичь поставленных целей. Часто эти проблемы можно легко решить, просто правильно настроив и отрегулировав систему.

Упрощенный пример критерия успеха может выглядеть следующим образом: “Задержка в гостевых ОС, работающих на системе хранения данных в нормальных условиях и полностью рабочем состоянии, должна быть менее 1,5 мс при 95-м процентиле при обеспечении 100 тыс. IOPS с профилем 8K 70/30 Чтение/Запись 90% Случайный доступ”. Рабочая нагрузка генерируется 12 ВМ с 5 виртуальными дисками в каждой, использование хранилища (общий объем данных, хранимых этими ВМ) должно составлять 70% от полезной ёмкости хранилища, размер набора активной рабочей нагрузки составляет 10%, продолжительность теста 2 часа после 1 часа прогрева”. Continue reading “Руководство по синтетическому бенчмаркингу корпоративных систем хранения данных и лучшие практики. Часть 2. Критерии успеха и параметры бенчмаркинга”

Руководство по синтетическому бенчмаркингу корпоративных систем хранения данных и лучшие практики. Часть 1. Общая теория, методы и подходы

Николай Куликов опубликовал своё руководство по тестированию систем хранения на английском языке, поэтому захотелось получить русский вариант. Данный перевод выполнен ИИ с моими правками (возможны правки формулировок).

Введение
Определение целей бенчмаркинга
Выбор подхода и методологии бенчмаркинга

Выбор инструментов и утилиты для синтетического бенчмаркинга хранилища данных
Формирование конфигурации демонстрационной среды

Заключение

Введение

За более чем десять лет работы в ИТ-индустрии я провел множество тестов и проверок концепций (proof-of-concepts, POC) различных систем хранения данных (СХД). Хотя это были совершенно разные типы систем хранения – традиционные SAN-системы хранения с подключением по FC, NAS, SDS (Software Defined Storage, программно-определяемое хранилище) и платформы HCI (Hyper Converged Infrastructure, гиперконвергентная инфраструктура), задачи были практически одинаковыми. И довольно часто я сталкивался с ситуацией, когда тесты никак не соответствовали потребностям бизнеса и даже были технически некорректны, что приводило к невозможности получить какие-либо значимые результаты.

Все мы знаем, насколько критически важными могут быть системы хранения данных для ИТ- и бизнес-операций. Мы также знаем, как много усилий требуется от всех вовлеченных сторон, чтобы правильно протестировать систему хранения и получить значимые результаты, способствующие процессу принятия решений. Именно поэтому я верю, что хорошо структурированный подход с полным вниманием к деталям является обязательным условием для любого вида тестирования и/или бенчмаркинга систем хранения данных.

В большинстве случаев валидация/POC систем хранения данных состоит из трех частей – тесты доступности, функциональные тесты и тесты производительности (они же бенчмаркинг):

  1. Функциональные тесты очень специфичны для конкретной организации, поскольку они должны быть согласованы с ИТ-ландшафтом заказчика, бизнес-процессами и другими отличительными аспектами.
  2. Тесты доступности требуют много времени, но это самая очевидная часть – заказчик должен составить список потенциальных рисков, описать ожидаемое поведение в каждом случае, определить с производителем/поставщиком/дистрибьютором варианты моделирования таких сценариев и выполнить такие тесты.
  3. Тесты производительности или бенчмаркинг – сложная и часто противоречивая часть плана тестирования, потому что это всегда баланс между применимостью и точностью против осуществимости и сложности.

В этом руководстве я рассмотрю только аспект тестирования производительности, и он будет связан в основном с синтетическим бенчмаркингом основной системы хранения общего назначения. Основная цель данного руководства – предоставить указания и рекомендации по проведению бенчмаркинга любого типа корпоративных систем хранения данных для получения значимых результатов при минимизации усилий. Я не буду много говорить об общих вещах, связанных с тестированием в целом и с организацией POC.

Это руководство состоит из двух частей – первая часть более универсальна и подходит практически для любой ситуации, когда вам необходимо провести синтетическое нагрузочное тестирование. Поэтому она состоит в основном из общих приемов, лучших практик и рекомендаций (хотя я постараюсь добавить больше примеров), а не из конкретных действий. Вторая часть – практическая и конкретная, где я на примере показываю, как можно проводить нагрузочное тестирование и как каждый из параметров нагрузочного тестирования влияет на результат.

Чтобы быть более конкретным и, по сути, отразить мой самый последний опыт, все дальнейшие примеры будут связаны с тестированием систем хранения данных в среде виртуальной инфраструктуры VMware.  Однако эти рекомендации могут быть применены и в других случаях с минимальными изменениями. Continue reading “Руководство по синтетическому бенчмаркингу корпоративных систем хранения данных и лучшие практики. Часть 1. Общая теория, методы и подходы”

VMware vSphere 7.0 update 3 – что сломали на этот раз

Статья прислана читателем бложика.

Перед началом дальнейшего прочтения надо вспомнить, что VMware vSphere состоит из двух мегаменовESXi на хостах и правящий всеми vCenter. Мне лично больше нравится таблица тут, но ее не так быстро обновляют.

Читаем «что там нового»

Как знают все, интересующиеся темой, на VMworld был анонсировано и тут же выложено обновление для ESXi от 2021-10-05/ 18644231, одновременно с vCenter Server 7.0 Update 3 (7.0.3.00000). Обновление ESXi было выложено, потом убрано со скачивания, затем снова выложено в том же виде. По старой традиции VMware убирать странное и делать вид что ничего не было (что уже было не один раз с HCL) – из VMware ESXi 7.0 Update 3 Release Notes – ждем, когда из RN пропадут строки типа: Continue reading “VMware vSphere 7.0 update 3 – что сломали на этот раз”

VMware vSphere 7 Update 3: обновления службы vCLS

Перевод статьи vSphere 7 Update 3: vCLS Updates.

Глоссарий

В данном тексте используется биологический термин “аффинность” для перевода “Affinity”, так как русский вариант “сродство” встречается в ИТ-лексиконе практически никогда. Под аффинностью в статье подразумевается принудительное размещение нескольких ВМ на одном хосте, под анти-аффинностью – запрет их совместного одновременного размещения на одном хосте.

Вступление

Служба vSphere Cluster Service (vCLS) была представлена в vSphere 7 Update 1. В vSphere 7 Update 3 появилось несколько хороших обновлений vCLS для повышения эффективности таких операций, как размещение агентских ВМ vCLS службы на хостах и хранилищах данных (datastores).

Аффиность стала умнее

Используя конструкцию Compute Policies, которая теперь является частью vSphere, мы можем обеспечить более разумное размещение ВМ агентов. Compute Policies уже были частью решения VMC on AWS. Это динамический способ создания правил (анти-)аффинности или создание динамического размещения ВМ в кластере с использованием тегов vSphere. В vSphere 7 Update 3 Compute Policies можно использовать только для агентских ВМ службы vCLS.

Это решает потенциальную проблему, с которой сталкивались клиенты, например, с рабочими нагрузками SAP HANA, требующими выделенных сокетов на узлах. Клиенты не могут использовать сокеты рабочих нагрузок HANA для запуска других приложений или даже агентских ВМ, как в случае с vCLS. Таким образом, клиенты теряют целиком весь сокет в кластере HANA для запуска агентских виртуальных машин vCLS, что может привести к потере значительных вычислительных ресурсов, в зависимости от размера и конфигурации кластера.

С помощью интеллектуальных конфигураций аффинности для агентских виртуальных машин vCLS, используя Compute Policies, мы можем запускать агентские ВМ vCLS на хостах внутри кластера, которые не будут мешать специфичным виртуальным машинам. Таким образом, пользователи SAP HANA могут задать аффинность, чтобы агентские виртуальные машины использовали выделенный хост. Причина использования Compute Policies, а не правил (анти-)аффинности DRS заключается в том, что DRS будет недоступна во время настройки аффинности агентских ВМ vCLS.

Как настроить?

Continue reading “VMware vSphere 7 Update 3: обновления службы vCLS”

Эволюция производительности VMware vSphere 7

В продолжении цикла

vSphere6 — эволюция

публикую перевод статьи What’s New in Performance for VMware vSphere 7.x?

В основе каждого выпуска VMware vSphere лежит множество улучшений производительности и масштабируемости. Платформа vSphere 7.x продолжает обеспечивать лучшую в отрасли производительность и функции для успешной виртуализации и управления вашим программно-определяемым центром обработки данных.

Последний технический документ “What’s New in Performance for VMware vSphere 7?” охватывает VMware vSphere 7.0, U1, U2 и U3. Некоторые основные моменты включают: Continue reading “Эволюция производительности VMware vSphere 7”

Требования к загрузочному накопителю в VMware ESXi 7 и нюансы использования

Перевод статьи ESXi 7 Boot Media Consideration and VMware Technical Guidance.

Исторически сложилось так, что для освобождения отсеков для устройств и снижения стоимости установки узлов ESXi выбирались SD-карты или USB-устройства. Однако такие устройства имеют низкий ресурс и со временем проявляют проблемы с надежностью. SD-карты и USB-накопители также могут иметь проблемы с производительностью и не выдерживать высокочастотных операций чтения-записи. В настоящее время мы все чаще наблюдаем проблемы, связанные с загрузкой в ESXi 7.x, с узлами, использующими SD-карты или USB-накопители в качестве загрузочных накопителей. В этой статье мы подробно расскажем о том, что мы видели, и предоставим техническое руководство по устранению таких проблем.

Прежде чем перейти к деталям, важно понять новую схему системы. До появления vSphere 7 управление разделами было ограничено: размеры разделов были фиксированными, а номера разделов – статичными. Существовали ограничения на использование нескольких решений с размерами разделов vSphere 6.x, например, если вы начинали комбинировать NSX-T, vSAN, Tanzu, vGPU и т.д. Это ограничивало поддержку установки больших модулей, отладочных функций и возможных сторонних компонентов.

В перспективе потребность в поддержке хостами ESXi других решений VMware или сторонних производителей постоянно возрастает. Поэтому потребность в более надежном, гибком и высокопроизводительном устройстве хранения данных для системного хранилища является необходимостью.

В новой схеме разделов vSphere 7.x только загрузочный раздел системы имеет фиксированный размер 100 МБ. Остальные разделы являются динамическими, то есть размер раздела будет определяться в зависимости от размера загрузочного накопителя. Continue reading “Требования к загрузочному накопителю в VMware ESXi 7 и нюансы использования”

Падучая ESXi или возвращение блудного хоста

И снова статья от участника телеграм-канала VMware User Group Rus.

Третьего дня в чат опять пришли коллеги с стандартной проблемой – хост отвалился от vCenter  – ШТО ДЕЛАТЬ?

Правильный ответ – писать сценарии отказа и отрабатывать их, это один из таких случаев, с которыми надо быть знакомыми до начала эксплуатации.

Вводные

Есть некий хост с VMware (разумеется, с последними патчами – а то было тут как-то PR 2412475: You see Sensor -1 type hardware health alarms on ESXi hosts and receive excessive mail alerts). Хост отвалился от VCenter (разумеется, тоже с последними патчами – особенно это касается линейки 7.0). Виртуальные машины на хосте продолжают работать, отказоустойчивости на уровне сервисов (Oracle real application clusters, database availability group, MS SQL Always On и так далее) нет, но и просто так перезагрузить хост – не вариант. Нет никаких гарантий, что хост поднимется, что есть ресурсы на других хостах.

В данном случае имеет смысл обратиться в поддержку – если, конечно, у вас система работает на поддерживаемой конфигурации, куплены лицензии и куплена эта самая поддержка. Поддержку можно купить «поштучно» – VMware Per Incident Support.

Шаг 1. Что было, то и будет; и что делалось, то и будет делаться, и нет ничего нового под солнцем

Continue reading “Падучая ESXi или возвращение блудного хоста”

Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager

В VMware vSphere 7.0 появился новый встроенный продукт для управления обновлениями Lifecycle Manager. Кратко я о нём упоминал в статье:

VMware ESXi 7.0 и неподдерживаемое оборудование

Данный менеджер умеет проверять HCL и даже, по слухам, обновлять прошивки оборудования!

После несколько обращений по поводу функционала и неполным пониманием собеседников как это работает настало время написать про интеграцию с экосистемой Lenovo. Continue reading “Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager”

Переход на VMware vSphere 7.0 update 2

Постоянный читатель прислал свои мысли о выборе гипервизоров и убедительной победе vSphere 7.0, несмотря на все грабли ;).

С чего все началось

Недавно у наших коллег появилось осознание, что:

  1. самым старым серверам в продуктивной среде уже 8 и больше лет,
  2. поддержки и запчастей на них нет,
  3. нагрузка по памяти под 90%, но ее там очень немного,
  4. установлена максимально возможная для этих серверов ESXi 6.5 , на тот момент 17477841 (сейчас 18071574).

Поэтому  было решено:

  1. начать закупку новых серверов,
  2. обновить, где  возможно, до ESXi 7.0 для единообразия.

Серверы, в основном, производства HPE и Huawei, на каких-то задачах используются серверы Supermicro. Предлагают закупать Dell, HPE, Lenovo. У Huawei сейчас все сложно, а присматриваться к линейке Kunpeng на Arm сейчас нет времени. Хотя под Arm есть и MS Server, и ESXi.

Почему ESXi, а не что-то еще Continue reading “Переход на VMware vSphere 7.0 update 2”