Тестирование систем хранения данных Huawei Dorado V6 в кластере HyperMetro

Disclamer:  все дальнейшие рассуждения, настройки и выбранные методы тестирования могут быть ошибочны. Никакого отношения к компаниям Lenovo, Huawei, Broadcom мы не имеем.

Цели тестирования:

  • определить производительность системы хранения данных (СХД) в кластере HyperMetro и её изменение при различных вариантах отказа оборудования;
  • оценить влияние на производительность и доступность программно-аппаратного комплекса (ПАК) фирменного MPIO-драйвера (драйвер балансировки подключения по нескольким путям ввод-вывода) Huawei Ultrapath;
  • протестировать функциональность SmartVirtualization СХД Huawei Dorado 5000V6 – способность выдавать через себя дисковые разделы других СХД.

Дополнительно была проведена проверка работоспособности одного из серверов системы управления базами данных (СУБД) Oracle DB при отказе узла кластера HyperMetro. Для этого сервер был временно перенесён в кластер HyperMetro без прерывания его работы, а по окончании тестирования возвращён обратно.

Оборудование было предоставлено системным интегратором,  который также составил и выполнил программу и методику испытаний. Тестирование осуществлялось при помощи программы VDBench, имитировалась нагрузка, аналогичная создаваемой основным сервером СУБД Oracle DB в ежедневной эксплуатации. Профиль  нагрузки  приведён  в Приложении 1.

Для проведения тестирования был собран стенд, имитирующий размещение оборудования в двух пространственно-разнесённых центрах обработки данных, установлено и настроено программное обеспечение (ПО) и развёрнуты тестовые виртуальные машины. Схема стенда и описание используемого ПО приводятся в Приложении 2.

Первичное конфигурирование системы проводилось с использованием штатных MPIO-драйверов среды виртуализации VMware ESXi. Драйвер оказывает решающее влияние на производительность системы и её отказоустойчивость, поэтому было проведено две серии тестов – со штатными драйверами VMware, и с фирменными драйверами Huawei Ultrapath от изготовителя СХД. Перед началом тестирования выживаемости кластера при различных вариантах отказов оборудования и влияние отказов на производительность был выполнен эталонный замер производительности системы в штатном режиме работы. Методика замера и результаты приведены в Приложении 3.

После определения исходного уровня производительности системы, была выполнена оценка изменения производительности при отказе удалённой системы хранения (Приложение 4), локальной системы хранения (Приложение 5) и дирижёра кластера (Quorum Server). С целью проверки выживаемости, в тестовую среду был мигрирован сервер СУБД Oracle DB (DEV03). Оценивалось влияние на работоспособность и доступность сервера  отказ одной из реплик хранилища. Результаты приведены в Приложении 6.

Следующим этапом стала оценка влияния на производительность и доступность системы использование MPIO-драйвера Huawei Ultrapath. В процессе подготовки стенда выяснилось, что драйвер существует только для версии VMware ESXi 6.7U3, а на стенде развёрнута VMware ESXi 7. Для проведения работ был подготовлен и подключен новый сервер с требуемой версией ESXi, описание стенда приведено в Приложении 7.

Поскольку среда поменялась, были проведены замеры производительности системы в штатном режиме (Приложение 8). Затем выполнены замеры производительности при отказе удалённого хранилища (Приложение 9) и локального (Приложение 10).

После проведения серии опытов по определению производительности работы и отказоустойчивости кластера, была выполнена оценка функционала виртуализации СХД (SmartVirualization) и сделаны замеры производительности работы системы при прямом подключении к серверу раздела СХД  EMC VNX5700 и подключении его через функцию виртуализации СХД Huawei Dorado 5000 V6. Схема стенда и результаты тестирования приведены в Приложении 11.

Дополнительно была выполнена оценка влияния процесса создания и удаления моментальных снимков (снапшотов, snapshots) виртуальных машин (ВМ) на производительность работы ВМ при использовании традиционных томов VMFS (Приложение 12), при использовании виртуальных томов VVOL (Приложение 13), а также влияние на производительность процедуры установки обновлений управляющего ПО СХД (Приложение 14).

Краткое резюме по этапам тестирования производительности приведено в таблице: Читать далее «Тестирование систем хранения данных Huawei Dorado V6 в кластере HyperMetro»

Тестирование СХД Lenovo ThinkSystem DE6000F по протоколу передачи NVMe over FC

Disclamer:  все дальнейшие рассуждения, настройки и выбранные методы тестирования могут быть ошибочны. Никакого отношения к компаниям Lenovo, NetApp, Broadcom мы не имеем.

Вступление

Осенью 2021 года в наши загребущие ручонки попала система хранения данных (СХД) Lenovo ThinkSystem DE6000F с внутренней поддержкой протокола передачи NVMe и установленными дисками SAS SSD. Система также позволяет использовать протокол NVMe в среде сети хранения данных (SAN, Storage Area Network). Поскольку это вторая система хранения такого типа в наших руках, то решено подключить её к SAN по протоколу NVMe over FC (NVMe/FC) и проверить, реализуются ли на практике теоретические преимущества протокола NVMe.  Чтобы переключить СХД на использование нового протокола, на сайте Lenovo FOD получена соответствующая лицензия. СХД не может одновременно использовать несколько протоколов в одной среде передачи, поэтому включение протокола NVMe/FC приводит к отключению возможности работы по протоколу FC. Соответственно, СХД пропадает из зоны доступности серверов, FC-адаптеры которых не могут работать с новым протоколом.  Из имеющихся для стендирования серверов поддержку NVMe over FC «из коробки» имеют серверы Lenovo ThinkServer SR650 c 32-гигабитными FC-адаптерами и серверы Lenovo ThinkServer SR630 с 16 -гигабитными FС-адаптерами после обновления прошивок и драйверов FC-адаптеров. Читать далее «Тестирование СХД Lenovo ThinkSystem DE6000F по протоколу передачи NVMe over FC»

Потеря доступности LUN-ов и VMFS-томов на хранилищах с прямым FC-подключением после обновления до vSphere 7.0 Update 3

После обновления хостов до ESXi 7.0 Update 3f получили замечательную вещь — диски и тома на них, подключенные к системе хранения данных напрямую (Direct-Attached FC) исчезли на серверах напрочь.

Диагностика проблемы выявила, как минимум, две возможных ситуации:

  1. Кривой драйвер в составе дистрибутива —  qlnativefc 4.1.14.0-26vmw.703.0.20.19193900. Пересобрали образ с самой новой версией 5.1.68.0-1OEM.703.0.0.18644231 и проблема у нас ушла.
  2. Начиная с версии vSphere 7.0 Update 3, драйвер brcmnvmefc больше не доступен. Функциональность NVMe over FC, ранее реализованная в  brcmnvmefc, теперь включена в драйвер lpfc.Чтобы включить поддержку только протокола SCSI в драйвере lpfc, установите lpfc_enable_fc4_type=1.
    Чтобы включить поддержку протоколов SCSI и NVMe, установите lpfc_enable_fc4_type=3.

    1. Переведите хост ESX в режим обслуживания
    2. Включите SSH-доступ к хосту ESX и подключитесь к хосту ESXi от имени root.
    3. Используйте следующую команду esxcli, чтобы отключить поддержку FC-NVMe в драйвере lpfc:
      esxcli system module parameters set -m lpfc -p lpfc_enable_fc4_type=1
    4. Перезагрузите хост ESXi для завершения изменений.

Мониторинг IBM Bladecenter AMM по протоколу SNMP в Zabbix 6

Мы несколько лет используем Zabbix для мониторинга различных операционных систем — Linux, Windows, vSphere.

Иногда приходится добавлять и железо. Пришла задачка замониторить лезвийное шасси IBM Bladecenter H.

Поиск выдал старый шаблон Template IBM BC_AMM SNMP Chassis Stats.xml в формате Zabbix 2.0. Мы его посмотрели и наваяли свой под Zabbix 6.0.

Скачать шаблон IBM Bladecenter AMM SNMP в формате Zabbix 6.

P.S. Дополнительно залил пропавший на просторах сети шаблон для Lenovo ThinkSystem XClarity Contoller (заменить USERNAME и PASSWORD в макросах).

Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager

В VMware vSphere 7.0 появился новый встроенный продукт для управления обновлениями Lifecycle Manager. Кратко я о нём упоминал в статье:

VMware ESXi 7.0 и неподдерживаемое оборудование

Данный менеджер умеет проверять HCL и даже, по слухам, обновлять прошивки оборудования!

После несколько обращений по поводу функционала и неполным пониманием собеседников как это работает настало время написать про интеграцию с экосистемой Lenovo. Читать далее «Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager»

VMware vSphere Quick (Re)Boot

В платформе VMware vSphere 6.7 появилась технология vSphere(ESXi) Quick Boot, предназначенная для быстрой перезагрузки ESXi хостов во время обновлений с помощью vSphere Update Manager.

Технология требует соблюдения нескольких условий, описанных в БЗ Understanding ESXi Quick Boot Compatibility (52477):

  1. Модель сервера находится в VMware HCL (функция QuickBoot для ESXi 7.0+)  либо хранится локально в ESXi 6.7 в текстовых файлах.
  2. Выключена технология TPM.
  3. Нет passthru-устройств, подключенных к ВМ с хоста.
  4. Не загружены vmklinux-драйверы на хосте.

В vSphere 7.0 третье ограничение снято, а четвертое отсутствует архитектурно.

Для проверки можно использовать локальный скрипт, выводящие информацию о совместимости модели сервера и драйверов:

Пример вывода на стендовом хосте:

Для быстрого обновления хостов технология включается в vSphere 7+ Menu->Lifecycle Manager-> Images/Baselines Remediation Settings->Quick Boot. Сокращение времени установки равно времени проверок UEFI при полной перезагрузке хоста.

Также меня заинтересовала возможность быстрой перезагрузки хостов без применения обновлений, поиск в интернете выявил два схожих варианта.

Вариант с Reddit:

Вариант от Jiří Viktorin:

Прошу проголосовать за добавление функционала в графический интерфейс на портале по сбору идей vSphere Ideas, авторизация стандартная от vmware.com.

Хождение по граблям VMware vSphere 7.0

Цикл статей о борьбе с VMware vSphere 7.0 продолжается. Читайте содержимое предыдущих серий:

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Обновление VMware vCenter с версии 6.7 до 7.0

VMware ESXi 7.0 и неподдерживаемое оборудование

Снимки ВМ и NetApp FAS ONTAP

Самая жёсткая проблема, с которой столкнулись — это переход LUN’ов на системе хранения NetApp FAS в режим Offline при попытке сделать снимок из-под vSphere 7.0 с ошибкой «Out of space».

Предположительно, проблема связана с All Flash LUN’ами, созданными в ONTAP версии 9.1 или 9.2. Проблема наблюдается в ONTAP 9.7P4, более поздние патчи не проверяли.

Для нас пока закончилось падением пары продуктивных баз данных при инициации резервного копирования.

Решение проблемы:

  1. Вернуть LUN в Online.
  2. Если при Rescan Storage не вернулось DataStore на хостах, то перезагрузить хосты.
  3. Смигрировать ВМ на другой LUN.
  4. Пересоздать проблемный LUN (*либо устранить корневую причину).
  5. Смигрировать ВМ обратно.

vLCM Image и Intel VMD NVMe Driver

Самая весёлая проблема, которая убила кучу времени.

При переводе кластеров с модели обновления Baseline на модель обновления Image поймали отличный конфликт компонентов там, где не ожидали.

Про драйвер читать в статье:

VMware ESXi, VSAN и Intel VMD-Enabled NVMe Driver

На текущий момент в VSAN HCL рекомендуется версия драйвера intel-nvme-vmd-2.0.0.1146, в стандартном же образе зашит другой драйвер iavmd 2.0.0.1055-3vmw.700.1.0.15843807. При попытке собрать образ, совместимый с VSAN HCL получаем невозможность установить компоненты HA. Валят скопом такие ошибки:

  • vSphere HA host status/Cannot find HA master agent
  • vSphere HA agent for this host has an error: vSphere HA agent cannot be installed or configured
  • Component vsphere-fdm cannot be found in depot
  • ‘vxd’ service, runnig on ‘cluster’, reported issue: The HA constraints in the image spec have version whereas the expected version is 7.0.0.-16386338

Решение проблемы:

  1. Отключить HA.
  2. Добавить в image драйвер intel-nvme-vmd-2.0.0.1146.
  3. Накатить на  хост image.
  4. Убрать из image intel-nvme-vmd-2.0.0.1146.
  5. Включить HA.

В итоге, проходим проверку на VSAN HCL и получаем Warning при проверке Image Compliance.

Update 11092020. 10.09.2020 драйвер iavmd 2.0.0.1055-3vmw.700 добавлен в VSAN HCL.

Image не накатывается на хосты

Ещё одна весёлая проблема, при попытке пройти проверку или накатить Image получаем шедевральную ошибку:

Unknown error occurred when invoking host API.

Самое тупое решение:

  1. Cделать сброс БД менеджера обновлений —  Resetting VMware Update Manager Database on a vCenter Server Appliance 6.5/6.7/7.0 (2147284).
  2. Перезагрузить хост.
  3. Запустить обновление снова.

Не работает vLCM Image Export

Для переноса сборки Image между кластерами или vCenter разработчики предусмотрели вариант выгрузки собранной вами конструкции.

Существует три варианта экспорта:

А теперь о проблеме: если вы используете свои сертификаты, то ни одна опция не работает, происходит ошибка браузера «ERR_SSL_PROTOCOL_ERROR».

Решение проблемы, конкурирующие с предыдущим по интеллектуальности и попахивает уязвимостью (неавторизованный доступ):

  1. Скопировать ссылку из адресной строки браузера.
  2. Открыть приватное окно.
  3. Вставить ссылку в адресную строку.
  4. Заменить протокол с https на http и получить ожидаемое.

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Семейство серверов IBM/LENOVO System X  серии M5 может иметь предустановленный Embedded Hypervisor на SD-карте с совместимой версией ESXi 6.x.

При попытке обновиться до версии ESXi 7.0 выходит ошибка:

Управление SD-картой осуществляется в интерфейсе IMM2. Анализ адаптера показывает, что в реальности используются 32 ГБ карты, но на заводе создан виртуальный диск на 1 ГБ. Расширение размеров не поддерживается.

Для установки ESXi 7.0 придётся прибегнуть к обходной схеме:

  1. Сделать резервную копию конфигурации ESXi — подробно описано в How to back up ESXi host configuration (2042141).
  2. Переформатировать SD-карту на 30 ГБ (максимально доступный размер).
  3. Установить чистый ESXi 6.x (версии, с которой снята резервная копия).
  4. Настроить сеть.
  5. Восстановить из резервной копии конфигурации по инструкции из пункта 1.
  6. Накатить обновление до ESXi 7.x.

P.S. Возможно, данная проблема встречается и на серверах других производителей с предустановленным гипервизором.

VMware ESXi 7.0 и неподдерживаемое оборудование

Disclamer:  все дальнейшие рассуждения и действия не соответствуют политике технической поддержки VMware. Любое использование оборудования вне VMware HCL может быть использовано только на свой страх и риск. В статье рассматривается только то оборудование, на котором возможен технический запуск ESXi 6.7U3.

В связи с выходом платформы VMware vSphere 7.0 виртуальные системные администраторы стали анализировать возможность обновления либо внедрения данного продукта.

Если проблемы с vCenter 7.0 вполне решаемы и описаны в нашей статье Обновление VMware vCenter с версии 6.7 до 7.0, то с ESXi 7.0 всё не так просто.

Для «упрощения» работы администраторов VMware расширила функциональность Update Manager (VUM) полуавтоматическим анализом оборудования: сверкой моделей серверов с HCL, проверкой версий прошивок и драйверов компонентов. Данная функциональность уже была частично представлена  в VSAN [Skyline] Health Hardware compatibility для дисковой подсистемы. Новая версия VUM стала называться vSphere Lifecycle Manager (vLCM). Для загрузки HCL следует в административном интерфейсе нажать ACTIONS->Sync HCL.

Мои ожидания от vLCM были примерно такие — запускаю на хосте Updates -> Hardware Compatibility и система пишет, что оборудование не в HCL, такие-то компоненты не имеют драйверов и не будут работать. В реальности, если сервер не в HCL, то на этом проверка останавливается:

Host model is not compatible with ESXi 7.0
Skipped checking host devices.

Что как бы нас совершенно не устраивает, так как наша цель — запуститься вне HCL, и хотелось бы понимать какие компоненты не имеют драйверов и поддержки.

Поэтому с компонентами придётся разбираться самостоятельно. Читать далее «VMware ESXi 7.0 и неподдерживаемое оборудование»

Релиз Stor2RRD 2.80

Вышла  версия 2.80 бесплатного мониторинга систем хранения Stor2RRD.

Поддержка новых систем хранения, ПО и функций: