Падучая ESXi или возвращение блудного хоста

И снова статья от участника телеграм-канала VMware User Group Rus.

Третьего дня в чат опять пришли коллеги с стандартной проблемой – хост отвалился от vCenter  — ШТО ДЕЛАТЬ?

Правильный ответ – писать сценарии отказа и отрабатывать их, это один из таких случаев, с которыми надо быть знакомыми до начала эксплуатации.

Вводные

Есть некий хост с VMware (разумеется, с последними патчами – а то было тут как-то PR 2412475: You see Sensor -1 type hardware health alarms on ESXi hosts and receive excessive mail alerts). Хост отвалился от VCenter (разумеется, тоже с последними патчами – особенно это касается линейки 7.0). Виртуальные машины на хосте продолжают работать, отказоустойчивости на уровне сервисов (Oracle real application clusters, database availability group, MS SQL Always On и так далее) нет, но и просто так перезагрузить хост – не вариант. Нет никаких гарантий, что хост поднимется, что есть ресурсы на других хостах.

В данном случае имеет смысл обратиться в поддержку — если, конечно, у вас система работает на поддерживаемой конфигурации, куплены лицензии и куплена эта самая поддержка. Поддержку можно купить «поштучно» — VMware Per Incident Support.

Шаг 1. Что было, то и будет; и что делалось, то и будет делаться, и нет ничего нового под солнцем

Читать далее «Падучая ESXi или возвращение блудного хоста»

Уязвимости в продуктах VMware

В VMware vCenter и VSAN обнаружены критические уязвимости — VMSA-2021-0010: What You Need to Know.

Всем клиентам рекомендовано немедленно обновиться до свежих версий ПО (хм, что же будут делать когда до z дойдут?):

Скрипт для проверки уязвимости h5-vsan через nmap доступен на гитхабе:

CVE-2021-21985 (Vulnerable Code)

P.S. PoC эксплойта тоже… ;(

Утилита самообслуживания VMware Skyline Health Diagnostic Tool

Осенью 2020 года компания VMware анонсировала утилиту сбора и разбора журналов событий с vSphere 6.5, 6.7, 7.0 — VMware Skyline Health Diagnostic Tool.

  1. Introducing VMware Skyline Health Diagnostic Tool
  2. Перевод на русский Новая утилита VMware Skyline Health Diagnostic Tool — для чего она?
  3. VMware Skyline Health Diagnostics for vSphere Documentation
  4. VMware Skyline Health Diagnostics Release Notes
  5. VMware Skyline Health Diagnostics Installation, Configuration and Operations Guide
  6. Скачать

Утилита довольно просто устанавливается в виде ВМ (с версии 2.0.5 распространяется в виде OVA и ISO) , после этого указывается vCenter/ESXi, выбираются объекты для сбора логов и, подождав несколько десятков минут или несколько часов, получаем отчёты с замечаниями и ссылками на БЗ VMware.

Примечание. Утилита имеет довольно убогий интерфейс — если вы вышли из админки, то не видно есть ли текущие задания. Обновление: с версии 2.5.0 отображение заданий исправлено, да и дизайн слегка причесали. Читать далее «Утилита самообслуживания VMware Skyline Health Diagnostic Tool»

Обновление VMware vCenter путем его замены

mr_orangeV прислал статью о своём опыте замены VMware vCenter.  С небольшой редактурой публикую. Юмор автора местами сохранён.

В последнее время читаю много однотипных историй «у нас ESXi 5.1/5.5 /6 — как нам жить дальше или  на что-то переехать?» Расскажу свою историю, может кому-то поможет.
Нам достался подряд на обследование и модернизацию инфрастуктуры одной организации. Беглый осмотр показал следующее:

  • десяток разных серверов (с разными процессорами) на ESXi 6.0/6.5/6.7;
  • некая СХД, работающая по протоколам NFS/iSCSI;
  • невнятная сеть почти без деления (лучше бы было совсем без деления, так как я такого ужаса еще не видел).
  • VMware vCenter 6.5 на Windows, обновленный последний раз очень давно;
  • полное отсутствие документации «что, где, куда и почему»;
  • под сотню виртуальных машин, которые, конечно же, все очень важные и нужные. И тоже без обновлений! Настоящие админы до второго сервис пака не обновляют, но с Windows Server 2016/2019 есть проблема при таком подходе.
  • cостояние резервного копирования неочевидно.

Для ликвидация хаоса были предприняты следующие шаги: Читать далее «Обновление VMware vCenter путем его замены»

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Семейство серверов IBM/LENOVO System X  серии M5 может иметь предустановленный Embedded Hypervisor на SD-карте с совместимой версией ESXi 6.x.

При попытке обновиться до версии ESXi 7.0 выходит ошибка:

The boot disk has a size of 1024MB, the minimum requirement of the upgrade image is 3814MB.

Управление SD-картой осуществляется в интерфейсе IMM2. Анализ адаптера показывает, что в реальности используются 32 ГБ карты, но на заводе создан виртуальный диск на 1 ГБ. Расширение размеров не поддерживается.

Для установки ESXi 7.0 придётся прибегнуть к обходной схеме:

  1. Сделать резервную копию конфигурации ESXi — подробно описано в How to back up ESXi host configuration (2042141).
  2. Переформатировать SD-карту на 30 ГБ (максимально доступный размер).
  3. Установить чистый ESXi 6.x (версии, с которой снята резервная копия).
  4. Настроить сеть.
  5. Восстановить из резервной копии конфигурации по инструкции из пункта 1.
  6. Накатить обновление до ESXi 7.x.

P.S. Возможно, данная проблема встречается и на серверах других производителей с предустановленным гипервизором.

Релиз RVTools 4.0.4

Rob de Veij выпустил обновление своей отличной утилиты инвентаризации VMware vSphere — RVTools версии 4.0.4.

В этой версии появились новые функции:

  • Обновлен VMware vSphere Management SDK до версии 7.0
  • Используется CIS REST API для получения информации о тегах с vSphere 6.5+
  • в vInfo новые колонки: Virtual machine tags и min Required EVC Mode
    Key
  • в vCPU новая колонка: Virtual machine tags
  • в vMemory новые колонки: Virtual machine tags и Memory Reservation
    Locked To Max
  • в vDisk новая колонка: Virtual machine tags
  • в vPartition новая колонка: Virtual machine tags
  • в vCD новая колонка: Virtual machine tags
  • в vFloppy новая колонка: Virtual machine tags
  • в vNetwork новая колонка: Virtual machine tags
  • в vSnapshot новая колонка: Virtual machine tags
  • в vTools новая колонка: Virtual machine tags
  • в vRP новые колонки: Resource Pool tags и object ID
  • в vCluster новые колонки: Cluster tags, custom attributes и object ID
  • в vHost новые колонки: Host tags, in Maintenance Mode и in Quarantine
    Mode
  • в dvSwitch новые колонки: Distributed VirtualSwitch tags, custom attributes
    и object ID
  • в dvPort новые колонки: Distributed VirtualSwitch Port Group tags и
    object ID
  • в vDatastore новые колонки: Datastore tags, custom attributes и object
    ID
  • Опция в настройках «Exclude tags»
  • в CLI новый параметр -ExcludeTags
  • Исправлены ошибки.

Известная проблема: Теги видны только при явном указании имени и пароля, при использовании SSO не работает!

Замена сертификата на VMware vCSA 6.x

Статей по замене сертификата на vCSA 6.5/6.7 достаточно много (навскидку раз, два).

Решил поделиться нашим корпоративным опытом на основе статьи из Wiki от Артема. Данная статья покрывает замену сертификата для самого vCenter Server (machine certificate). Остальные сертификаты остаются неизменными!

Читать далее «Замена сертификата на VMware vCSA 6.x»

Windows VMware vSphere: UEFI или BIOS

На днях я сконвертировал несколько виртуальных серверов Hyper-V 2012R2 в VMware vSphere 6.5, и тут коллеги заметили, что VMRC как-то странно ругается.

Опытным путем было выяснено, что он ругается на включенный UEFI в их серверах. Коллеги подтвердили, что сервера были развернуты с системой UEFI и режимом SecureBoot, который после конвертации на VMware был отключен. Причем они сказали, что в Hyper-V GEN2-машинах UEFI включается автоматически.

Я проверил настройку по умолчанию для Windows 2012/2016 в VMware — там рекомендуемый режим — BIOS.

Пойдемте разбираться вместе, кто прав 😉

Читать далее «Windows VMware vSphere: UEFI или BIOS»

Список проверок vSphere Health

При подключении к Программе повышения эффективности работы заказчиков (Customer Experience Improvement Program, CEIP), вы может проверить здоровье вашей vSphere через онлайн-анализатор.

Проверки с проблемами пишутся все, а вот беспроблемные только частично. Меня интересовало — что ещё проверяется?

Итак список проверок на момент публикации статьи:

  1. ESXi host with i40e driver and TCP Segmentation Offload
    (TSO) enabled KB 2126909
  2. ESXi with HP ILO driver version 10.0.1-24 KB 2148123
  3. Intel IOMMU interrupt remapper is disabled for ESXi hosts on
    HP ProLiant Gen8 servers KB 2149043
  4. ESXi host dvfilter vmci socket deregistration KB 2149242
  5. ESXi 6.0 Update 2 when hardware Large Receive Offload
    (LRO) is ‘enabled KB 2144968
  6. Network redundancy check when configuring VMware High
    Availability in vCenter Server KB 1004700
  7. ESXi 6.5.x has 10Gb Physical Nic and NetQueue is enabled KB 2151749
  8. ScratchConfig.CurrentScratchLocation is set to «/scratch» on
    ESXi version 6.0.0 and 6.5.0 KB 2151209
  9. ESXi maximum number of supported storage devices KB 2150280
  10. ESXi 6.5 or 6.7 host with IPv6 disabled KB 2150794
  11. ESXi system logs on vSAN datastore KB 2147541
  12. ESXi host with native Intel X710 driver and VLAN tagging KB 2149781
  13. ESXi with bad brcmfcoe or lpfc driver versions KB 2151391
  14. SearchLow I/O performance using intel-nvme drivers 1.3.2.8-
    1OEM and 1.3.2.4-1OEM with block sizes larger than 4K KB 55693
  15. Host experiences PF Exception 14 with
    bnx2x_netq_free_rx_queue_single in backtrace KB 53353
  16. Virtual machine operations on an ESXi 6.0 host fails KB 2113450
  17. Sequential-context attack vector vulnerability in Intel
    processors KB 55806
  18. Concurrent-context attack vector vulnerability in Intel
    processors KB 55806
  19. ESXi unable to save hostd service state to /bootbank KB 2057826
  20. VMDK corruption after canceling a snapshot removal task KB 2146319
  21. Disk space check for VMware vCenter Server Appliance KB 2145603
  22. vMotion network configuration check for vSphere Standard
    Switch KB 2120640
  23. vMotion network configuration check for vSphere Distributed
    Switch KB 2120640
  24. Selective deletion of tasks, events, and historical performance
    data in vSphere 5.x and 6.x KB 2110031
  25. Host participating in VM-based replication KB 55650
  26. ESXi on host with AMD EPYC 7xx1 CPU KB 52045
  27. vMotion of virtual machines from ESXi 6.0 to 6.5 KB 59723
  28. End of General Support for vSphere 6.0 KB 66977
  29. Deprecation of the external Platform Services Controller
    deployment model KB 60229
  30. Maximum number of ESXi hosts per cluster Max Config
  31. ESXi host connectivity with vCenter Server KB 1005757
  32. Enable SCAv2 for optimal hyperthreading performance KB 55806
  33. Unsupported address family with dvSwitch in ESXi 6.0 KB 2117308
  34. Host PSOD on QFLE3I driver on QLogic 57840 10/20 Gigabit
    Ethernet Adapter KB 56357
  35. vCenter Server version compatibility check KB 68174

HPE Superdom установка в режиме Boot from SAN

Коллеги поделились решением проблемы установки ESXi на HPE Superdom в режиме Boot from SAN.

У нас есть партиция Superdom из двух лезвий gen8, процессоры серии Intel Xeon E7-2800 v2 и HBA Qlogic HP QMH2672 16Gb с версией fw 8.07.16.

Я хотел установить туда HPE ESXi 6.0u3 (preGen9), так как именно она является последней поддерживаемой версией по данным матриц совместимости HPE и VMware.

При установке столкнулся с тем, что Wizard не видит презентованный диск для установки в режиме Boot from FC SAN.

Рядом стоит точно такая же партиция, состоящая из одного лезвия с такой же HBA. Проблем при установке ESXi там не было.

В поисках решения я перепробовал все сборки HPE’шных образов ESXi (а также оригинальных) – только HPE 6.7U1 увидел диск для установки, но его поставить нельзя 🙂

Я начал сравнивать драйверы для QMH2672 в различных образах ESXi и выяснил, что:

  • в 6.7 U1 драйвер версии 3.1.16;
  • в 6.5 U2 — 2.1.81;
  • в 6.0 U3 — 2.1.50.

В VMware HCL написано, при HBA с прошивкой 8.07.xx в ESXi 6.0U3 должны работать версии драйвера от 2.1.63 до 2.1.70.

Странно — на первую патрицию успешно установился ESXi с версией драйвера 2.1.50, которая отсутствует в HCL 🙂

Затем я попробовал собрать свой образ с драйвером 3.1.16 из offline bundle, но при сборке получил ошибку зависимости, которой нет в 6.0. Не зря этот драйвер входит только в дистрибутив 6.7 😉

На всякий случай, для чистоты эксперимента я снес все зоны и сделал только зонинг только на одну систему хранения, где расположен загрузочный LUN.

УРА! После перезагрузки хост успешно увидел LUN для установки 🙂

Продолжив эксперименты, я нашел причину такого поведения — HPE StoreOnce!!!111

В ESXi до версии 6.7 существует ограничение в 1024 пути. Catalyst, расположенный на StoreOnce, с лихвой переполнял это ограничение.

И только в ESXi 6.7 количество возможных путей увеличено до 4096, вследствие чего хост нормально видел загрузочный лун!