Список проверок vSphere Health

При подключении к Программе повышения эффективности работы заказчиков (Customer Experience Improvement Program, CEIP), вы может проверить здоровье вашей vSphere через онлайн-анализатор.

Проверки с проблемами пишутся все, а вот беспроблемные только частично. Меня интересовало – что ещё проверяется?

Итак список проверок на момент публикации статьи:

  1. ESXi host with i40e driver and TCP Segmentation Offload
    (TSO) enabled KB 2126909
  2. ESXi with HP ILO driver version 10.0.1-24 KB 2148123
  3. Intel IOMMU interrupt remapper is disabled for ESXi hosts on
    HP ProLiant Gen8 servers KB 2149043
  4. ESXi host dvfilter vmci socket deregistration KB 2149242
  5. ESXi 6.0 Update 2 when hardware Large Receive Offload
    (LRO) is ‘enabled KB 2144968
  6. Network redundancy check when configuring VMware High
    Availability in vCenter Server KB 1004700
  7. ESXi 6.5.x has 10Gb Physical Nic and NetQueue is enabled KB 2151749
  8. ScratchConfig.CurrentScratchLocation is set to “/scratch” on
    ESXi version 6.0.0 and 6.5.0 KB 2151209
  9. ESXi maximum number of supported storage devices KB 2150280
  10. ESXi 6.5 or 6.7 host with IPv6 disabled KB 2150794
  11. ESXi system logs on vSAN datastore KB 2147541
  12. ESXi host with native Intel X710 driver and VLAN tagging KB 2149781
  13. ESXi with bad brcmfcoe or lpfc driver versions KB 2151391
  14. SearchLow I/O performance using intel-nvme drivers 1.3.2.8-
    1OEM and 1.3.2.4-1OEM with block sizes larger than 4K KB 55693
  15. Host experiences PF Exception 14 with
    bnx2x_netq_free_rx_queue_single in backtrace KB 53353
  16. Virtual machine operations on an ESXi 6.0 host fails KB 2113450
  17. Sequential-context attack vector vulnerability in Intel
    processors KB 55806
  18. Concurrent-context attack vector vulnerability in Intel
    processors KB 55806
  19. ESXi unable to save hostd service state to /bootbank KB 2057826
  20. VMDK corruption after canceling a snapshot removal task KB 2146319
  21. Disk space check for VMware vCenter Server Appliance KB 2145603
  22. vMotion network configuration check for vSphere Standard
    Switch KB 2120640
  23. vMotion network configuration check for vSphere Distributed
    Switch KB 2120640
  24. Selective deletion of tasks, events, and historical performance
    data in vSphere 5.x and 6.x KB 2110031
  25. Host participating in VM-based replication KB 55650
  26. ESXi on host with AMD EPYC 7xx1 CPU KB 52045
  27. vMotion of virtual machines from ESXi 6.0 to 6.5 KB 59723
  28. End of General Support for vSphere 6.0 KB 66977
  29. Deprecation of the external Platform Services Controller
    deployment model KB 60229
  30. Maximum number of ESXi hosts per cluster Max Config
  31. ESXi host connectivity with vCenter Server KB 1005757
  32. Enable SCAv2 for optimal hyperthreading performance KB 55806
  33. Unsupported address family with dvSwitch in ESXi 6.0 KB 2117308
  34. Host PSOD on QFLE3I driver on QLogic 57840 10/20 Gigabit
    Ethernet Adapter KB 56357
  35. vCenter Server version compatibility check KB 68174

Останов VCSA при нехватке места

У нас неожиданно стал прекращать работать VCSA, а конкретно сервис VPXD.

Стартнёшь ручонками – работает то десяток часов, то 20 минут. Из warning’ов – мало места для базы данных (List of VMDKs/Partitions for a vCenter Server Appliance 6.7 – Size Mount point and Purpose (70625)). VAMI показывает, что места в SEAT занято 90%. Также не работает Update Manager даже при запущенном VPXD. Все логи vpxd.log перебрали – ничего не заметили, как будто штатный останов.

Написали в техподдержку – те попросили логи собрать, а как их соберёшь, если vCenter то потухнет, то погаснет. Кое-как собрали через VAMI, да и те оказались не полные, пришлось ручонками скопировать с помощью WinSCP папку логов VPXD.

Поддержка логи смотрела внимательнее и нашла:

Действительно, места не хватает и VPXD сам себя отправляет отдыхать.  Описание поведения vCenter есть КБ-шечке “Shutting down the VC as there is not enough free space for the Database” error (67017).  Вот только она про /storage/db, а про /storage/seat умалчивает.

Добавили место у диска SEAT по инструкции Increasing the disk space for the VMware vCenter Server Appliance in vSphere 6.5 and 6.7 (2145603). Перезагрузили VCSA и всё заработало.

P.S. Так и не понял – с каких пор 90%=>95%?

P.P.S. Андрей подсказал откуда разница в процентах (данные после увеличения диска):

Вывод в VAMI: seat Total space 54.0 GB  Used space 32.4 GB Available space 21.6 GB 60.1% of 54.0 GB

Вывод в df -h: /dev/mapper/seat_vg-seat 55G 33G 19G 64% /storage/seat

Данные о ВМ в vMotion Wizard

Про полезняшки в новых версиях vSphere мы уже писали ранее: о флешовом клиенте в статье  Фильтры, задания и снимки в VMware vSphere 6.7, о ESXi-ом клиенте в Просмотр логов на ESXi.

Сегодня заметка о новой фишке vMotion Wizard – VM origin.

Часто бывает, что запустил перемещение виртуальной машины со сменой хоста и хранилища и тут приходит мысль “а сейчас-то как машина размещена?”.

Разработчики HTML5-клиента решили это дело упростить и сделали подсказку – достаточно щёлкнуть VM origin:

Изменение имени хоста VMware ESXi

Иногда возникают простые задачи, при решении которых возникают странные эффекты.

В нашей организации есть требование именовать все серверы по FQDN имени с указанием суффикса домена.

Но, как обычно, часть работничков на это дело забивает.

При инвентаризации хостов ESXi несколько таких замечаний было обнаружено. Для переименования воспользовались заметкой Changing the name of an ESX or ESXi host (1010821) и подали команды в SSH:

В результате получили esxi-01.domain.local.domain.local ;). Ошибка была простая – указали параметру host имя с суффиксом домена.

Проверить каждый параметр можно одной командой:

Исправить ошибку можно двумя способами – задать fqdn или домен:

Lenovo ThinkSystem M.2 Mirror распадается на двое

Опыт эксплуатации серверов Lenovo ThinkSystem выявил одну болячку. При использовании M.2 Mirror комплекта для размещение гипервизора неожиданно виртуальный диск в RAID распадается на два – каждому накопителю свой виртуальный диск,  система сыпет ошибками.

Решение довольно простое – надо удалить второй дубликат в меню F1 Setup –> UEFI Setup –> System Settings –> Storage –> M.2 + Mirroring Kit Configuration Utility –> Virtual Disk Management и дождаться ребилда. Если диск не ребилдится, а пишет Foreign, то выбрать Import.

Проблеме уже года полтора, но только сейчас Lenovo официальное её признала, выпустив заметку в базе знаний M.2 + Mirror Kit RAID 1 splits into 2 foreign RAID 1 drives with possible rebuild failure – Lenovo ThinkSystem.

Для предупреждения необходимо обновить прошивку M.2 Mirror до версии v2.3.10.1194 (она же 2.3.10.1098).

Не работает мониторинг в vCenter Server Appliance

Встретилась проблема – раздел Monitor в VCSA не показывает новых данных. При этом в разделе Services служба VMware Appliance Monitoring Service находится в состоянии Stopped либо в консоли проверить статус службы vmware-statsmonitor:

Гугление подсказало решение – выставить время ожидания старта службы в 10 минут (предварительно сделать снимок VCSA – после проверки удалить):

  1. Подключиться по  SSH к VCSA, используя root.
  2. Изменить время ожидания:
  3. Убить процесс
  4. Принудительно выполнить перезапуск сервиса
  5. Перезапустить VCSA и проверить через 15 минут, что VMware Appliance Monitoring Service запущен.

Минимальная рекомендуемая версия vHW

На днях озадачился проблемой с минимальной версией vHW в ESXi.

Текущая ситуация с ESXi такова:

  1. ESXi 6.7 поддерживает vHW версий с 4 по 14 – Virtual machine hardware versions.
  2. vSphere 5.5 сошла с дистанции.
  3. В связи с Чипокалипсом минимальная рекомендуемая версия – 9, сильно рекомендуемая – 11: Hypervisor-Assisted Guest Mitigation for Branch Target injectionPerformance impact on VMware appliances after patching for Spectre/Meltdown.
  4. VCSA 6.7u1 использует Photon OS 1.0, который у нас не работает, если поднять версию старше 11.
  5. Есть непонятки с EVC Mode и vHW.
  6. UNMAP в тонких дисках поддерживается с версии vHW 11, для Linux с версии vHW 13.
  7. Поддержка Per-VM EVC требует vHW версии 14.
  8. Поддержка Secure Boot требует vHW версии 13.
  9. Поддержка Dynamic DirectPath требует vHW версии 17.
  10. Поддержка Virtual NUMA Topology и Virtual HT требует vHW версии 20.

В итоге мы ориентируемся на следующие версии (предварительно делается копия *.vmx либо бэкап ВМ, после повышения проверка, Upgrading a virtual machine to the latest hardware version (multiple versions)):

  1. Готовые Virtual Appliances и шаблоны виртуальных машин повышаются до версии 11 либо 14.
  2. Целевая версия для Linux с тонкими дисками – 14 либо 17.
  3. Целевая версия для ПО, требующего новых инструкций CPU – 14 либо 17.
  4. В частных случаях смотрим на фунционал Hardware Features Available with Virtual Machine Compatibility Settings и  Hardware Features Available with Virtual Machine Compatibility Settings.

Обновление версии VCSA с 6.7 до 6.7 update 1

Ранее в бложике были описаны два сценария установки обновлений на VCSA 6.7:

Но, чтобы админы на работе не скучали, компания VMware стремится разнообразить способы обновления.

Для обновления VCSA 6.7  в режиме HA до версии 6.7 update 1 опубликована отдельная статья в БЗ VMware Changes in patching VCHA enabled vSphere 6.7 systems to any 6.7 update/patch release:

  1. Зайдите vSphere Client.
  2. Перейдите в Configure > vCHA.
  3. Нажмите Edit.
  4. Выберите “Remove vCenter HA”.
  5. Обновите vCenter Server.
  6. Заново создайте vCHA.

После пары матюков в адрес разработчиков были выполнены данные рекомендации и осуществлена попытка обновить vCenter через VAMI (по инструкции для одиночного сервера), но установщик вставал на 73% и заваливал vCenter. После этого запущено обновление через CLI (один цикл из инструкции по обновление в конфигурации HA), которое прошло без сбоев.

EVC Mode и vHW

Заметил странный факт, что на процессорах Skylake и гипервизоре ESXi 6.7u1 “не отрабатывает” EVC Mode, выставленный в  Skylake – все машины стоят в режиме Broadwell.

Обратил внимание, что у нас 80% виртуальных машин работают на virtual hardware(vHW)  версии 11, он же Compatibility: ESXi 6.0 and later (VM version 11).

Предположил, что данный уровень дополнительно ограничивает уровень ЦПУ, хотя в EVC and CPU Compatibility FAQ и Enhanced vMotion Compatibility (EVC) processor support ничего про такое поведение не заметил.

Решил пойти опытным путём – создал ВМ и прогнал все версии vHW c 4 до 14. В результате выявилось, что ВМ с vHW от 4 до 12 имеют максимальный EVC Mode -Broadwell, а ВМ с vHW равным 13 или 14 могут быть в режиме Skylake.

Ошибка при обновлении Custom Image VMware ESXi “The upgrade has VIBs that are missing dependencies”

Для большей совместимости со своим оборудованием производители серверов выпускают преднастроенные образы ESXi.

Проблемы возникают при попытке перейти с версии на версию ESXi с помощью Update Manager – вылазят ошибки с таким текстом:

При попытке заменить образ ESXi 6.0 от IBM на образ ESXi 6.7 от Lenovo получил охапку конфликтов с различными утилитами для железяк: Continue reading “Ошибка при обновлении Custom Image VMware ESXi “The upgrade has VIBs that are missing dependencies””