Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager

В VMware vSphere 7.0 появился новый встроенный продукт для управления обновлениями Lifecycle Manager. Кратко я о нём упоминал в статье:

VMware ESXi 7.0 и неподдерживаемое оборудование

Данный менеджер умеет проверять HCL и даже, по слухам, обновлять прошивки оборудования!

После несколько обращений по поводу функционала и неполным пониманием собеседников как это работает настало время написать про интеграцию с экосистемой Lenovo. Читать далее «Обновляем серверы Lenovo Thinksystem/ThinkAgile VX с помощью VMware vSphere Lifecycle Manager»

VMware vSphere Quick (Re)Boot

В платформе VMware vSphere 6.7 появилась технология vSphere(ESXi) Quick Boot, предназначенная для быстрой перезагрузки ESXi хостов во время обновлений с помощью vSphere Update Manager.

Технология требует соблюдения нескольких условий, описанных в БЗ Understanding ESXi Quick Boot Compatibility (52477):

  1. Модель сервера находится в VMware HCL (функция QuickBoot для ESXi 7.0+)  либо хранится локально в ESXi 6.7 в текстовых файлах.
  2. Выключена технология TPM.
  3. Нет passthru-устройств, подключенных к ВМ с хоста.
  4. Не загружены vmklinux-драйверы на хосте.

В vSphere 7.0 третье ограничение снято, а четвертое отсутствует архитектурно.

Для проверки можно использовать локальный скрипт, выводящие информацию о совместимости модели сервера и драйверов:

/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py

Пример вывода на стендовом хосте:

LoadESX is not compatible with vmkLinux drivers.
This platform (IBM:System x3650 M2 -[794744G]-) is not compatible with loadESX.
Compatibility check failed: violating one or more strict requirements (loadESX is not supported on this machine)

Для быстрого обновления хостов технология включается в vSphere 7+ Menu->Lifecycle Manager-> Images/Baselines Remediation Settings->Quick Boot. Сокращение времени установки равно времени проверок UEFI при полной перезагрузке хоста.

Также меня заинтересовала возможность быстрой перезагрузки хостов без применения обновлений, поиск в интернете выявил два схожих варианта.

Вариант с Reddit:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESX.py
reboot

Вариант от Jiří Viktorin:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESXShutdown.sh prepare
reboot

Прошу проголосовать за добавление функционала в графический интерфейс на портале по сбору идей vSphere Ideas, авторизация стандартная от vmware.com.

Хождение по граблям VMware vSphere 7.0

Цикл статей о борьбе с VMware vSphere 7.0 продолжается. Читайте содержимое предыдущих серий:

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Обновление VMware vCenter с версии 6.7 до 7.0

VMware ESXi 7.0 и неподдерживаемое оборудование

Снимки ВМ и NetApp FAS ONTAP

Самая жёсткая проблема, с которой столкнулись — это переход LUN’ов на системе хранения NetApp FAS в режим Offline при попытке сделать снимок из-под vSphere 7.0 с ошибкой «Out of space».

Предположительно, проблема связана с All Flash LUN’ами, созданными в ONTAP версии 9.1 или 9.2. Проблема наблюдается в ONTAP 9.7P4, более поздние патчи не проверяли.

Для нас пока закончилось падением пары продуктивных баз данных при инициации резервного копирования.

Решение проблемы:

  1. Вернуть LUN в Online.
  2. Если при Rescan Storage не вернулось DataStore на хостах, то перезагрузить хосты.
  3. Смигрировать ВМ на другой LUN.
  4. Пересоздать проблемный LUN (*либо устранить корневую причину).
  5. Смигрировать ВМ обратно.

vLCM Image и Intel VMD NVMe Driver

Самая весёлая проблема, которая убила кучу времени.

При переводе кластеров с модели обновления Baseline на модель обновления Image поймали отличный конфликт компонентов там, где не ожидали.

Про драйвер читать в статье:

VMware ESXi, VSAN и Intel VMD-Enabled NVMe Driver

На текущий момент в VSAN HCL рекомендуется версия драйвера intel-nvme-vmd-2.0.0.1146, в стандартном же образе зашит другой драйвер iavmd 2.0.0.1055-3vmw.700.1.0.15843807. При попытке собрать образ, совместимый с VSAN HCL получаем невозможность установить компоненты HA. Валят скопом такие ошибки:

  • vSphere HA host status/Cannot find HA master agent
  • vSphere HA agent for this host has an error: vSphere HA agent cannot be installed or configured
  • Component vsphere-fdm cannot be found in depot
  • ‘vxd’ service, runnig on ‘cluster’, reported issue: The HA constraints in the image spec have version whereas the expected version is 7.0.0.-16386338

Решение проблемы:

  1. Отключить HA.
  2. Добавить в image драйвер intel-nvme-vmd-2.0.0.1146.
  3. Накатить на  хост image.
  4. Убрать из image intel-nvme-vmd-2.0.0.1146.
  5. Включить HA.

В итоге, проходим проверку на VSAN HCL и получаем Warning при проверке Image Compliance.

Update 11092020. 10.09.2020 драйвер iavmd 2.0.0.1055-3vmw.700 добавлен в VSAN HCL.

Image не накатывается на хосты

Ещё одна весёлая проблема, при попытке пройти проверку или накатить Image получаем шедевральную ошибку:

Unknown error occurred when invoking host API.

Самое тупое решение:

  1. Cделать сброс БД менеджера обновлений —  Resetting VMware Update Manager Database on a vCenter Server Appliance 6.5/6.7/7.0 (2147284).
  2. Перезагрузить хост.
  3. Запустить обновление снова.

Не работает vLCM Image Export

Для переноса сборки Image между кластерами или vCenter разработчики предусмотрели вариант выгрузки собранной вами конструкции.

Существует три варианта экспорта:

А теперь о проблеме: если вы используете свои сертификаты, то ни одна опция не работает, происходит ошибка браузера «ERR_SSL_PROTOCOL_ERROR».

Решение проблемы, конкурирующие с предыдущим по интеллектуальности и попахивает уязвимостью (неавторизованный доступ):

  1. Скопировать ссылку из адресной строки браузера.
  2. Открыть приватное окно.
  3. Вставить ссылку в адресную строку.
  4. Заменить протокол с https на http и получить ожидаемое.

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Семейство серверов IBM/LENOVO System X  серии M5 может иметь предустановленный Embedded Hypervisor на SD-карте с совместимой версией ESXi 6.x.

При попытке обновиться до версии ESXi 7.0 выходит ошибка:

The boot disk has a size of 1024MB, the minimum requirement of the upgrade image is 3814MB.

Управление SD-картой осуществляется в интерфейсе IMM2. Анализ адаптера показывает, что в реальности используются 32 ГБ карты, но на заводе создан виртуальный диск на 1 ГБ. Расширение размеров не поддерживается.

Для установки ESXi 7.0 придётся прибегнуть к обходной схеме:

  1. Сделать резервную копию конфигурации ESXi — подробно описано в How to back up ESXi host configuration (2042141).
  2. Переформатировать SD-карту на 30 ГБ (максимально доступный размер).
  3. Установить чистый ESXi 6.x (версии, с которой снята резервная копия).
  4. Настроить сеть.
  5. Восстановить из резервной копии конфигурации по инструкции из пункта 1.
  6. Накатить обновление до ESXi 7.x.

P.S. Возможно, данная проблема встречается и на серверах других производителей с предустановленным гипервизором.

VMware ESXi 7.0 и неподдерживаемое оборудование

Disclamer:  все дальнейшие рассуждения и действия не соответствуют политике технической поддержки VMware. Любое использование оборудования вне VMware HCL может быть использовано только на свой страх и риск. В статье рассматривается только то оборудование, на котором возможен технический запуск ESXi 6.7U3.

В связи с выходом платформы VMware vSphere 7.0 виртуальные системные администраторы стали анализировать возможность обновления либо внедрения данного продукта.

Если проблемы с vCenter 7.0 вполне решаемы и описаны в нашей статье Обновление VMware vCenter с версии 6.7 до 7.0, то с ESXi 7.0 всё не так просто.

Для «упрощения» работы администраторов VMware расширила функциональность Update Manager (VUM) полуавтоматическим анализом оборудования: сверкой моделей серверов с HCL, проверкой версий прошивок и драйверов компонентов. Данная функциональность уже была частично представлена  в VSAN [Skyline] Health Hardware compatibility для дисковой подсистемы. Новая версия VUM стала называться vSphere Lifecycle Manager (vLCM). Для загрузки HCL следует в административном интерфейсе нажать ACTIONS->Sync HCL.

Мои ожидания от vLCM были примерно такие — запускаю на хосте Updates -> Hardware Compatibility и система пишет, что оборудование не в HCL, такие-то компоненты не имеют драйверов и не будут работать. В реальности, если сервер не в HCL, то на этом проверка останавливается:

Host model is not compatible with ESXi 7.0
Skipped checking host devices.

Что как бы нас совершенно не устраивает, так как наша цель — запуститься вне HCL, и хотелось бы понимать какие компоненты не имеют драйверов и поддержки.

Поэтому с компонентами придётся разбираться самостоятельно. Читать далее «VMware ESXi 7.0 и неподдерживаемое оборудование»

Релиз Stor2RRD 2.80

Вышла  версия 2.80 бесплатного мониторинга систем хранения Stor2RRD.

Поддержка новых систем хранения, ПО и функций:

Настройка NVMe-oF подключения к RHEL 8.1

Dmitriy Shevchenko прислал продолжение цикла инструкций по настройке NVMe-oF. Сегодня речь пойдёт об операционной системе RHEL.

Перечень оборудования и ПО

Система хранения: Netapp AFF A320, версия ПО ONTAP Release 9.7P1.

Коммутаторы сети хранения данных: Switch Brocade 6505 16Gb 24 Port 2шт. FW 8.2.1c.

Серверы: Fujitsu PRIMERGY RX2530 M5 c FC адаптерами Broadcom (EMULEX) LPe32002 версия FW 12.6.240.22 (рекомендованная в матрице совместимости Netapp).

Операционная система: Red Hat Enterprise Linux release 8.1 (Ootpa) (Примечание: в 8.2 с установкой драйверов, были проблемы, нет ключа -n).


Предварительная подготовка

  1. Устанавливаем Red Hat Enterprise Linux release 8.1 (без установки обновлений):
# cat /etc/redhat-release
Red Hat Enterprise Linux release 8.1 (Ootpa)
  1. Скачиваем необходимые драйвера и ПО с сайта broadcom.com:
  1. Устанавливаем OneCommand Manager: Читать далее «Настройка NVMe-oF подключения к RHEL 8.1»

Настройка NVMe-oF подключения к VMware vSphere 7.0

В связи с выходом VMware vSphere 7.0 стала доступна технология NVMe over Fabric (NVMe-oF) для управления операциями с накопителями и передачи данных по протоколу NVMe вместо SCSI.

Dmitriy Shevchenko прислал инструкцию, которую мы сегодня и публикуем.

Перечень оборудования и ПО

Система хранения: Netapp AFF A320; версия ПО: ONTAP Release 9.7P1.

Коммутаторы сети хранения данных: Brocade 6505 16Gb 24 Port 2 шт. ; FOS FW 8.2.1c.

Сервер: Fujitsu PRIMERGY RX2530 M5 c FC-адаптерами Broadcom (EMULEX) LPe32002, версия FW 12.4.243.17 (рекомендованная в матрице совместимости Netapp).

Гипервизор: ESXi-7.0.0-15843807.

Схема подключения: Читать далее «Настройка NVMe-oF подключения к VMware vSphere 7.0»

Lenovo XClarity Administrator не может обновить прошивку

Столкнулись со странной проблемой — Lenovo XClarity Administrator (LXCA) не может обновить прошивку сетевой карты Intel, при это все остальные компоненты обновляет без проблем.

Решение не менее странное — нужно отключить SAN:

  1. На FC-коммутаторе отключаем порты, к которым подключены обновляемые серверы.
  2.  В LXCA запускаем обновление прошивок.

Lenovo ThinkSystem M.2 Mirror распадается на двое

Опыт эксплуатации серверов Lenovo ThinkSystem выявил одну болячку. При использовании M.2 Mirror комплекта для размещение гипервизора неожиданно виртуальный диск в RAID распадается на два — каждому накопителю свой виртуальный диск,  система сыпет ошибками.

Решение довольно простое — надо удалить второй дубликат в меню F1 Setup —> UEFI Setup —> System Settings —> Storage —> M.2 + Mirroring Kit Configuration Utility —> Virtual Disk Management и дождаться ребилда. Если диск не ребилдится, а пишет Foreign, то выбрать Import.

Проблеме уже года полтора, но только сейчас Lenovo официальное её признала, выпустив заметку в базе знаний M.2 + Mirror Kit RAID 1 splits into 2 foreign RAID 1 drives with possible rebuild failure — Lenovo ThinkSystem.

Для предупреждения необходимо обновить прошивку M.2 Mirror до версии v2.3.10.1194 (она же 2.3.10.1098).