Обновление VMware vCenter путем его замены

mr_orangeV прислал статью о своём опыте замены VMware vCenter.  С небольшой редактурой публикую. Юмор автора местами сохранён.

В последнее время читаю много однотипных историй «у нас ESXi 5.1/5.5 /6 — как нам жить дальше или  на что-то переехать?» Расскажу свою историю, может кому-то поможет.
Нам достался подряд на обследование и модернизацию инфрастуктуры одной организации. Беглый осмотр показал следующее:

  • десяток разных серверов (с разными процессорами) на ESXi 6.0/6.5/6.7;
  • некая СХД, работающая по протоколам NFS/iSCSI;
  • невнятная сеть почти без деления (лучше бы было совсем без деления, так как я такого ужаса еще не видел).
  • VMware vCenter 6.5 на Windows, обновленный последний раз очень давно;
  • полное отсутствие документации «что, где, куда и почему»;
  • под сотню виртуальных машин, которые, конечно же, все очень важные и нужные. И тоже без обновлений! Настоящие админы до второго сервис пака не обновляют, но с Windows Server 2016/2019 есть проблема при таком подходе.
  • cостояние резервного копирования неочевидно.

Для ликвидация хаоса были предприняты следующие шаги: Читать далее «Обновление VMware vCenter путем его замены»

Обновление IBM/LENOVO System X M5 Embedded Hypervisor on SD-card до версии ESXi 7.0

Семейство серверов IBM/LENOVO System X  серии M5 может иметь предустановленный Embedded Hypervisor на SD-карте с совместимой версией ESXi 6.x.

При попытке обновиться до версии ESXi 7.0 выходит ошибка:

The boot disk has a size of 1024MB, the minimum requirement of the upgrade image is 3814MB.

Управление SD-картой осуществляется в интерфейсе IMM2. Анализ адаптера показывает, что в реальности используются 32 ГБ карты, но на заводе создан виртуальный диск на 1 ГБ. Расширение размеров не поддерживается.

Для установки ESXi 7.0 придётся прибегнуть к обходной схеме:

  1. Сделать резервную копию конфигурации ESXi — подробно описано в How to back up ESXi host configuration (2042141).
  2. Переформатировать SD-карту на 30 ГБ (максимально доступный размер).
  3. Установить чистый ESXi 6.x (версии, с которой снята резервная копия).
  4. Настроить сеть.
  5. Восстановить из резервной копии конфигурации по инструкции из пункта 1.
  6. Накатить обновление до ESXi 7.x.

P.S. Возможно, данная проблема встречается и на серверах других производителей с предустановленным гипервизором.

Замена сертификата на VMware vCSA 6.x

Статей по замене сертификата на vCSA 6.5/6.7 достаточно много (навскидку раз, два).

Решил поделиться нашим корпоративным опытом на основе статьи из Wiki от Артема. Данная статья покрывает замену сертификата для самого vCenter Server (machine certificate). Остальные сертификаты остаются неизменными!

Читать далее «Замена сертификата на VMware vCSA 6.x»

Список проверок vSphere Health

При подключении к Программе повышения эффективности работы заказчиков (Customer Experience Improvement Program, CEIP), вы может проверить здоровье вашей vSphere через онлайн-анализатор.

Проверки с проблемами пишутся все, а вот беспроблемные только частично. Меня интересовало — что ещё проверяется?

Итак список проверок на момент публикации статьи:

  1. ESXi host with i40e driver and TCP Segmentation Offload
    (TSO) enabled KB 2126909
  2. ESXi with HP ILO driver version 10.0.1-24 KB 2148123
  3. Intel IOMMU interrupt remapper is disabled for ESXi hosts on
    HP ProLiant Gen8 servers KB 2149043
  4. ESXi host dvfilter vmci socket deregistration KB 2149242
  5. ESXi 6.0 Update 2 when hardware Large Receive Offload
    (LRO) is ‘enabled KB 2144968
  6. Network redundancy check when configuring VMware High
    Availability in vCenter Server KB 1004700
  7. ESXi 6.5.x has 10Gb Physical Nic and NetQueue is enabled KB 2151749
  8. ScratchConfig.CurrentScratchLocation is set to «/scratch» on
    ESXi version 6.0.0 and 6.5.0 KB 2151209
  9. ESXi maximum number of supported storage devices KB 2150280
  10. ESXi 6.5 or 6.7 host with IPv6 disabled KB 2150794
  11. ESXi system logs on vSAN datastore KB 2147541
  12. ESXi host with native Intel X710 driver and VLAN tagging KB 2149781
  13. ESXi with bad brcmfcoe or lpfc driver versions KB 2151391
  14. SearchLow I/O performance using intel-nvme drivers 1.3.2.8-
    1OEM and 1.3.2.4-1OEM with block sizes larger than 4K KB 55693
  15. Host experiences PF Exception 14 with
    bnx2x_netq_free_rx_queue_single in backtrace KB 53353
  16. Virtual machine operations on an ESXi 6.0 host fails KB 2113450
  17. Sequential-context attack vector vulnerability in Intel
    processors KB 55806
  18. Concurrent-context attack vector vulnerability in Intel
    processors KB 55806
  19. ESXi unable to save hostd service state to /bootbank KB 2057826
  20. VMDK corruption after canceling a snapshot removal task KB 2146319
  21. Disk space check for VMware vCenter Server Appliance KB 2145603
  22. vMotion network configuration check for vSphere Standard
    Switch KB 2120640
  23. vMotion network configuration check for vSphere Distributed
    Switch KB 2120640
  24. Selective deletion of tasks, events, and historical performance
    data in vSphere 5.x and 6.x KB 2110031
  25. Host participating in VM-based replication KB 55650
  26. ESXi on host with AMD EPYC 7xx1 CPU KB 52045
  27. vMotion of virtual machines from ESXi 6.0 to 6.5 KB 59723
  28. End of General Support for vSphere 6.0 KB 66977
  29. Deprecation of the external Platform Services Controller
    deployment model KB 60229
  30. Maximum number of ESXi hosts per cluster Max Config
  31. ESXi host connectivity with vCenter Server KB 1005757
  32. Enable SCAv2 for optimal hyperthreading performance KB 55806
  33. Unsupported address family with dvSwitch in ESXi 6.0 KB 2117308
  34. Host PSOD on QFLE3I driver on QLogic 57840 10/20 Gigabit
    Ethernet Adapter KB 56357
  35. vCenter Server version compatibility check KB 68174

HPE Superdom установка в режиме Boot from SAN

Коллеги поделились решением проблемы установки ESXi на HPE Superdom в режиме Boot from SAN.

У нас есть партиция Superdom из двух лезвий gen8, процессоры серии Intel Xeon E7-2800 v2 и HBA Qlogic HP QMH2672 16Gb с версией fw 8.07.16.

Я хотел установить туда HPE ESXi 6.0u3 (preGen9), так как именно она является последней поддерживаемой версией по данным матриц совместимости HPE и VMware.

При установке столкнулся с тем, что Wizard не видит презентованный диск для установки в режиме Boot from FC SAN.

Рядом стоит точно такая же партиция, состоящая из одного лезвия с такой же HBA. Проблем при установке ESXi там не было.

В поисках решения я перепробовал все сборки HPE’шных образов ESXi (а также оригинальных) – только HPE 6.7U1 увидел диск для установки, но его поставить нельзя 🙂

Я начал сравнивать драйверы для QMH2672 в различных образах ESXi и выяснил, что:

  • в 6.7 U1 драйвер версии 3.1.16;
  • в 6.5 U2 — 2.1.81;
  • в 6.0 U3 — 2.1.50.

В VMware HCL написано, при HBA с прошивкой 8.07.xx в ESXi 6.0U3 должны работать версии драйвера от 2.1.63 до 2.1.70.

Странно — на первую патрицию успешно установился ESXi с версией драйвера 2.1.50, которая отсутствует в HCL 🙂

Затем я попробовал собрать свой образ с драйвером 3.1.16 из offline bundle, но при сборке получил ошибку зависимости, которой нет в 6.0. Не зря этот драйвер входит только в дистрибутив 6.7 😉

На всякий случай, для чистоты эксперимента я снес все зоны и сделал только зонинг только на одну систему хранения, где расположен загрузочный LUN.

УРА! После перезагрузки хост успешно увидел LUN для установки 🙂

Продолжив эксперименты, я нашел причину такого поведения — HPE StoreOnce!!!111

В ESXi до версии 6.7 существует ограничение в 1024 пути. Catalyst, расположенный на StoreOnce, с лихвой переполнял это ограничение.

И только в ESXi 6.7 количество возможных путей увеличено до 4096, вследствие чего хост нормально видел загрузочный лун!

Доступность инструкций процессора в зависимости от версии vHW

Ранее на бложике публиковались две статьи о разном поведении виртуальных машин при разном vHW и EVC

  1. Минимальная рекомендуемая версия vHW
  2. EVC Mode и vHW

Один из участников сообщества VMUG провел анализ доступных инструкций процессора в зависимости от версии виртуального железа с помощью утилиты /proc/cpuinfo. В результат появилась занимательная таблица:
vHW CPU flags Исходник в Google Таблицы.

P.S. Комментарий автора:

После обсуждения CPUID решил проверить зависимость доступных инструкций от vHW, но основной вывод уже был сделан в КВ по процессорным уязвимостям: «безопасной» версией является 9, а тормозить оно перестаёт на 11. Также выяснилось:
1. vHW режет флаги не так сильно, как EVC. Например, на vHW=8 доступны fma и movbe (Haswell), а на vHW=13 доступны xsavec и xsaves (Skylake).
2. Между 13-16 версиями без NVDIMM и гостевой виртуализации нет разницы.

Проблемы с VMware HA после обновления vCenter

Майское обновление vCenter 6.0 (U3i) и 6.5 (U2d) вывело из строя несколько кластеров vSphere HA. Симптомы были одинаковые: часть узлов кластера не может связаться с мастером. Лечение, увы, отличалось:

  • части узлов хватило переконфигурировать HA-агента;
  • часть узлов пришлось выводить в режим обслуживания и перезагружать.

Увидеть ситуацию помогли Alarms, сработавшие на хостах.

P.S. Не все обновления одинаково полезны…

Настройка разрешений на vCenter

Как-то потребовалось мне решить задачу «сосуществования» в рамках vCenter нескольких команд администраторов, обслуживающих свои кластера vSphere.

В vSphere есть достаточно гибкий механизм предоставления полномочий вплоть до отдельной виртуальной машины, однако выяснилось, что есть ряд полномочий, задающихся не на уровне кластера хостов или папки виртуальных машин.

Читать далее «Настройка разрешений на vCenter»

VMware PSC replication

Компонент Single Sign On, выполняющий проверку подлинности, появился в VMware vSphere 5.1. К vSphere 5.5 он стал «адекватнее» и стабильнее.

Его можно было поставить как на отдельный сервер, так и совместить вместе с vCenter Server.

В vSphere 6 этот компонент был объединен с другими сервисами в роли Platform Service Controller.

С тех пор и до vSphere 6.7 (или 6.7 Update 1) рекомендуемой схемой высокодоступного размещения PSC была следующая:

  1. Несколько внешних/отдельных PSC-серверов. Размещать PSC совместно с vCenter и реплицировать данные не некомендовалось.
  2. Требовался балансировщик между PSC и vCenter-серверами (хотя я видел скрипты, переключающие vCenter на резервный psc при недоступности основного).

Наверное, особенно круто было заниматься обновлением этого зоопарка из 4+ систем.

Особенно я прослезился со следующего KB — правила репликации PSC, рассказавшего о том, что репликация происходит в том порядке, в каком ранее добавлялись PSC (если развернули первый, на него нацелили второй, на второй — третий, то и репликация пойдет по такой схеме). Все связи между SSO-службами добавляются и удаляются только вручную.

Попутно узнал, что рекомендуемая топология — c центральным PSC.

Еще несколько KB:

А теперь к хорошим новостям: забудьте все, что только что прочитали 🙂

Начиная с vCenter 6.7 рекомендуемой топологией является встроенный PSC для любой топологии. Вы даже можете сделать vCenter HA (vCenter High Availability) для встроенного PSC, если хотите его защитить.

Ну и к вопросу резервной копии — в v6.7 появился ручной File-Based Backup, позволяющий сделать бэкап системы vCenter+PSC, восстанавливаемой с нуля с помощью этих файлов.

А в v6.7 Update 1 — возможность запуска бэкапа по расписанию.

В общем, администрирование нескольких vCenter-серверов в v6.7 стало значительно легче.

VMFS vs NFS in vSphere

Как-то Diz задал вопрос: «правда ли, что NFS гораздо лучше, чем SCSI для хранилищ в случае одного большого хранилища? Как ситуация изменилась в 6.x?»

Наше путешествие будет включать в себя следующие пункты:

  • SCSI-очереди.
  • А что там с NFS?
  • Решает ли скорость протокола?
  • vSphere 6.x?
  • Рекомендации.

SCSI-очереди

Отлично тема очередей раскрыта тут. Читать далее «VMFS vs NFS in vSphere»