Падучая ESXi или возвращение блудного хоста

И снова статья от участника телеграм-канала VMware User Group Rus.

Третьего дня в чат опять пришли коллеги с стандартной проблемой – хост отвалился от vCenter  — ШТО ДЕЛАТЬ?

Правильный ответ – писать сценарии отказа и отрабатывать их, это один из таких случаев, с которыми надо быть знакомыми до начала эксплуатации.

Вводные

Есть некий хост с VMware (разумеется, с последними патчами – а то было тут как-то PR 2412475: You see Sensor -1 type hardware health alarms on ESXi hosts and receive excessive mail alerts). Хост отвалился от VCenter (разумеется, тоже с последними патчами – особенно это касается линейки 7.0). Виртуальные машины на хосте продолжают работать, отказоустойчивости на уровне сервисов (Oracle real application clusters, database availability group, MS SQL Always On и так далее) нет, но и просто так перезагрузить хост – не вариант. Нет никаких гарантий, что хост поднимется, что есть ресурсы на других хостах.

В данном случае имеет смысл обратиться в поддержку — если, конечно, у вас система работает на поддерживаемой конфигурации, куплены лицензии и куплена эта самая поддержка. Поддержку можно купить «поштучно» — VMware Per Incident Support.

Шаг 1. Что было, то и будет; и что делалось, то и будет делаться, и нет ничего нового под солнцем

Читать далее «Падучая ESXi или возвращение блудного хоста»

Уязвимости в продуктах VMware

В VMware vCenter и VSAN обнаружены критические уязвимости — VMSA-2021-0010: What You Need to Know.

Всем клиентам рекомендовано немедленно обновиться до свежих версий ПО (хм, что же будут делать когда до z дойдут?):

Скрипт для проверки уязвимости h5-vsan через nmap доступен на гитхабе:

CVE-2021-21985 (Vulnerable Code)

P.S. PoC эксплойта тоже… ;(

Утилита самообслуживания VMware Skyline Health Diagnostic Tool

Осенью 2020 года компания VMware анонсировала утилиту сбора и разбора журналов событий с vSphere 6.5, 6.7, 7.0 — VMware Skyline Health Diagnostic Tool.

  1. Introducing VMware Skyline Health Diagnostic Tool
  2. Перевод на русский Новая утилита VMware Skyline Health Diagnostic Tool — для чего она?
  3. VMware Skyline Health Diagnostics for vSphere Documentation
  4. VMware Skyline Health Diagnostics Release Notes
  5. VMware Skyline Health Diagnostics Installation, Configuration and Operations Guide
  6. Скачать

Утилита довольно просто устанавливается в виде ВМ (с версии 2.0.5 распространяется в виде OVA и ISO) , после этого указывается vCenter/ESXi, выбираются объекты для сбора логов и, подождав несколько десятков минут или несколько часов, получаем отчёты с замечаниями и ссылками на БЗ VMware.

Примечание. Утилита имеет довольно убогий интерфейс — если вы вышли из админки, то не видно есть ли текущие задания. Обновление: с версии 2.5.0 отображение заданий исправлено, да и дизайн слегка причесали. Читать далее «Утилита самообслуживания VMware Skyline Health Diagnostic Tool»

Transport (VMDB) error -45: Failed to connect to peer process после обновления VMware ESXi

mr_orangeV прислал заметку о решение проблемы с VMDB transport.

После обновления ESXi до версии 6.7 сборка 17499825 и вывода хоста из режима обслуживания, виртуальные машины не мигрировали обратно на хост с ошибкой:

Transport (VMDB) error -45: Failed to connect to peer process

Поиск корневых причин привёл к нескольким вариантам:

  1. Опять кто-то где-то напутал в коде, такое уже было у HPE, можно поискать по фразе » had a bug that constantly wrote logs to the /tmp/vmware-root folder that eventually filled up the partition».
  2. Кончилось место, в том числе под swap.
  3. Mac OS Unlocker или в работе, или криво удален.

Как найти реальную причину?

Для начала прочитать все, что написано в комьюнити и БЗ: ссылка 01 и ссылка 02 kb 50113127.

Во второй KB указано, что  «Confirm the presence of the Unlocker installation on the ESXi host using one or more of the following commands».

В моём случае эти команды не показали ничего, а команды ls -l /bin/vmx в kb нет.

Подключаемся к хосту по SSH и GUI, смотрим:

  • Проверяем место: df –h
  • Проверяем Ramdisk: vdf –h
  • Проверяем snmp по kb 2040707 и inode: stat -f /vmfs/volumes
  • Проверяем что у нас с симлинками: ls -l /bin/vmx
  • Читаем (можно из GUI хоста) vmkernel и vpxd логи
    Ищем строки вида «vmx: Error in initial cartel setup: Failed to open /bin/vmx: Operation not permitted»

В моем случае, это оказался неудаленный полностью Unlocker.

Шаги решения

  • cd /bin
  • ls -l /bin/vmx и посмотреть куда он ведет
  • cd /куда ведет симлинк и
  • ls посмотреть на наличие vmx и unlocker
  • cd /bin
  • rm vmx – удалилить симлинк
  • cp /откуда)/vmx  /bin

Материалы для внеклассного чтения Читать далее «Transport (VMDB) error -45: Failed to connect to peer process после обновления VMware ESXi»

Обновление VMware vCenter путем его замены

mr_orangeV прислал статью о своём опыте замены VMware vCenter.  С небольшой редактурой публикую. Юмор автора местами сохранён.

В последнее время читаю много однотипных историй «у нас ESXi 5.1/5.5 /6 — как нам жить дальше или  на что-то переехать?» Расскажу свою историю, может кому-то поможет.
Нам достался подряд на обследование и модернизацию инфрастуктуры одной организации. Беглый осмотр показал следующее:

  • десяток разных серверов (с разными процессорами) на ESXi 6.0/6.5/6.7;
  • некая СХД, работающая по протоколам NFS/iSCSI;
  • невнятная сеть почти без деления (лучше бы было совсем без деления, так как я такого ужаса еще не видел).
  • VMware vCenter 6.5 на Windows, обновленный последний раз очень давно;
  • полное отсутствие документации «что, где, куда и почему»;
  • под сотню виртуальных машин, которые, конечно же, все очень важные и нужные. И тоже без обновлений! Настоящие админы до второго сервис пака не обновляют, но с Windows Server 2016/2019 есть проблема при таком подходе.
  • cостояние резервного копирования неочевидно.

Для ликвидация хаоса были предприняты следующие шаги: Читать далее «Обновление VMware vCenter путем его замены»

VMware vSphere Quick (Re)Boot

В платформе VMware vSphere 6.7 появилась технология vSphere(ESXi) Quick Boot, предназначенная для быстрой перезагрузки ESXi хостов во время обновлений с помощью vSphere Update Manager.

Технология требует соблюдения нескольких условий, описанных в БЗ Understanding ESXi Quick Boot Compatibility (52477):

  1. Модель сервера находится в VMware HCL (функция QuickBoot для ESXi 7.0+)  либо хранится локально в ESXi 6.7 в текстовых файлах.
  2. Выключена технология TPM.
  3. Нет passthru-устройств, подключенных к ВМ с хоста.
  4. Не загружены vmklinux-драйверы на хосте.

В vSphere 7.0 третье ограничение снято, а четвертое отсутствует архитектурно.

Для проверки можно использовать локальный скрипт, выводящие информацию о совместимости модели сервера и драйверов:

/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py

Пример вывода на стендовом хосте:

LoadESX is not compatible with vmkLinux drivers.
This platform (IBM:System x3650 M2 -[794744G]-) is not compatible with loadESX.
Compatibility check failed: violating one or more strict requirements (loadESX is not supported on this machine)

Для быстрого обновления хостов технология включается в vSphere 7+ Menu->Lifecycle Manager-> Images/Baselines Remediation Settings->Quick Boot. Сокращение времени установки равно времени проверок UEFI при полной перезагрузке хоста.

Также меня заинтересовала возможность быстрой перезагрузки хостов без применения обновлений, поиск в интернете выявил два схожих варианта.

Вариант с Reddit:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESX.py
reboot

Вариант от Jiří Viktorin:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESXShutdown.sh prepare
reboot

Прошу проголосовать за добавление функционала в графический интерфейс на портале по сбору идей vSphere Ideas, авторизация стандартная от vmware.com.

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Семейство серверов IBM/LENOVO System X  серии M5 может иметь предустановленный Embedded Hypervisor на SD-карте с совместимой версией ESXi 6.x.

При попытке обновиться до версии ESXi 7.0 выходит ошибка:

The boot disk has a size of 1024MB, the minimum requirement of the upgrade image is 3814MB.

Управление SD-картой осуществляется в интерфейсе IMM2. Анализ адаптера показывает, что в реальности используются 32 ГБ карты, но на заводе создан виртуальный диск на 1 ГБ. Расширение размеров не поддерживается.

Для установки ESXi 7.0 придётся прибегнуть к обходной схеме:

  1. Сделать резервную копию конфигурации ESXi — подробно описано в How to back up ESXi host configuration (2042141).
  2. Переформатировать SD-карту на 30 ГБ (максимально доступный размер).
  3. Установить чистый ESXi 6.x (версии, с которой снята резервная копия).
  4. Настроить сеть.
  5. Восстановить из резервной копии конфигурации по инструкции из пункта 1.
  6. Накатить обновление до ESXi 7.x.

P.S. Возможно, данная проблема встречается и на серверах других производителей с предустановленным гипервизором.

Релиз RVTools 4.0.4

Rob de Veij выпустил обновление своей отличной утилиты инвентаризации VMware vSphere — RVTools версии 4.0.4.

В этой версии появились новые функции:

  • Обновлен VMware vSphere Management SDK до версии 7.0
  • Используется CIS REST API для получения информации о тегах с vSphere 6.5+
  • в vInfo новые колонки: Virtual machine tags и min Required EVC Mode
    Key
  • в vCPU новая колонка: Virtual machine tags
  • в vMemory новые колонки: Virtual machine tags и Memory Reservation
    Locked To Max
  • в vDisk новая колонка: Virtual machine tags
  • в vPartition новая колонка: Virtual machine tags
  • в vCD новая колонка: Virtual machine tags
  • в vFloppy новая колонка: Virtual machine tags
  • в vNetwork новая колонка: Virtual machine tags
  • в vSnapshot новая колонка: Virtual machine tags
  • в vTools новая колонка: Virtual machine tags
  • в vRP новые колонки: Resource Pool tags и object ID
  • в vCluster новые колонки: Cluster tags, custom attributes и object ID
  • в vHost новые колонки: Host tags, in Maintenance Mode и in Quarantine
    Mode
  • в dvSwitch новые колонки: Distributed VirtualSwitch tags, custom attributes
    и object ID
  • в dvPort новые колонки: Distributed VirtualSwitch Port Group tags и
    object ID
  • в vDatastore новые колонки: Datastore tags, custom attributes и object
    ID
  • Опция в настройках «Exclude tags»
  • в CLI новый параметр -ExcludeTags
  • Исправлены ошибки.

Известная проблема: Теги видны только при явном указании имени и пароля, при использовании SSO не работает!

Замена сертификата на VMware vCSA 6.x

Статей по замене сертификата на vCSA 6.5/6.7 достаточно много (навскидку раз, два).

Решил поделиться нашим корпоративным опытом на основе статьи из Wiki от Артема. Данная статья покрывает замену сертификата для самого vCenter Server (machine certificate). Остальные сертификаты остаются неизменными!

Читать далее «Замена сертификата на VMware vCSA 6.x»

Политика ротации резервных копий vCenter не работает

В последнее время VMware часто озвучивает новый функционал VCSA VAMI — создание резервных копий конфигурации vCenter на разные хранилища по протоколам FTP/FTPS, HTTP/HTTPS, SCP,  NFS, SMB.

Мы сразу после внедрения VCSA 6.7 настроили резервные копии на FTP, время от времени удаляя копии с хранилище.

После реализации поддержки SMB перенастроили на новый протокол, но с удивлением обнаружили, что ротация резервных копий так и не работает.

Поиск в БЗ VMware подсказал ответ — VCSA VAMI backup is failing to delete old backups according to retention policy (70823). То есть проблема нам не померещилась и когда-нибудь будет исправлена, а пока чистим руками…