Видеозаписи докладов с VMworld 2019 EU

Видеозаписи докладов с VMworld 2019 EU доступны на страницах:

  1. vmworld-eu-playback-urls
  2. vmworld-eu-vmc-playback-urls
Рубрика: Horizon, VMware, vSphere, Новости | Оставить комментарий

Epic fail story

Всем привет!

Пятница, вечер, дождик…

1) В одной компании вышел из строя RAID6 на HP Proliant Gen6, виртуальные машины на VMware ESXi стали частично недоступны.

Пошли за бэкапами на систему хранения QNAP — оказалось, что она тоже потеряла два диска в RAID5, вследствие чего бэкапов тоже нет.

Владелец взял где-то два брендовых SATA-диска IBM, объединил их в программное зеркало (динамический диск MS Windows) и скинул туда данные с сервера Hyper-V. Сервер Hyper-V был переформатирован под ESXi.

Когда через месяц-два он раздобыл новый сервер под Hyper-V, оказалось, что оба IBM-диска неживые.

Я не уточнял у него, как он вышел из этой ситуации.

2) В другой компании внезапно стали недоступными виртуальные машины, находящиеся на одном из RAID-массивов. Как оказалось, LUN3, состоящий из двух SSD-дисков в зеркала, решил что ну его…

У нас же есть бэкапы, заявил мой тезка. Угу-угу, VMware Data Protection 6.1.2 не загружался, в консоли висела надпись:

/usr/local/vdr/configure/bin/checkforddrpreset.pl", exit status=0

Перезагрузка не помогла, через час все было точно также.

vDP пытались оживить сначала вручную, потом через техподдержку VMware. Третий по счету инженер из EMC смог оживить бэкапы и мы узнали… что последний бэкап сделан год назад. Так как «Retention Policy» требует хранить бэкапы за последние 90 дней…

Тут мой тезка и говорит «у меня есть еще одна система резервного копирования, сохраняющая файлы на сервер в Amazon. Но я залогиниться туда не могу 🙁

В общем, сервер с бэкапами на Amazon оказался заражен каким-то ransomware…

Параллельно была сделана попытка выключить и включить система храения с выдергиванием/втыканием SSD-дисков (потому что она еще и на RAID-контроллер ругалась)…

После включения массива сдохло еще 4 SAS-диска (2 уже не работали), вследствие чего Lun2 ушел следом за Lun3. Как оказалось, MD3220i более 7 лет.

Какие выводы (кроме настройки уведомлений) вы бы сделали из обоих историй?

Какие epic fail были у вас?

Рубрика: Hardware, HP, Hyper-V, Microsoft, VMware, vSphere, Статьи | Метки: | 13 комментариев

Политика ротации резервных копий vCenter не работает

В последнее время VMware часто озвучивает новый функционал VCSA VAMI — создание резервных копий конфигурации vCenter на разные хранилища по протоколам FTP/FTPS, HTTP/HTTPS, SCP,  NFS, SMB.

Мы сразу после внедрения VCSA 6.7 настроили резервные копии на FTP, время от времени удаляя копии с хранилище.

После реализации поддержки SMB перенастроили на новый протокол, но с удивлением обнаружили, что ротация резервных копий так и не работает.

Поиск в БЗ VMware подсказал ответ — VCSA VAMI backup is failing to delete old backups according to retention policy (70823). То есть проблема нам не померещилась и когда-нибудь будет исправлена, а пока чистим руками…

Рубрика: 6.7, VMware, vSphere, Советы | Метки: | Оставить комментарий

Windows VMware vSphere: UEFI или BIOS

На днях я сконвертировал несколько виртуальных серверов Hyper-V 2012R2 в VMware vSphere 6.5, и тут коллеги заметили, что VMRC как-то странно ругается.

Опытным путем было выяснено, что он ругается на включенный UEFI в их серверах. Коллеги подтвердили, что сервера были развернуты с системой UEFI и режимом SecureBoot, который после конвертации на VMware был отключен. Причем они сказали, что в Hyper-V GEN2-машинах UEFI включается автоматически.

Я проверил настройку по умолчанию для Windows 2012/2016 в VMware — там рекомендуемый режим — BIOS.

Пойдемте разбираться вместе, кто прав 😉

Читать далее

Рубрика: 6.5, 6.7, VMware, vSphere | Оставить комментарий

HPE 3PAR VSP сброс пароля cpmaint и настройка Proxy

Однажды мы решили закопать стюардессу поменять наш прокси-сервер Microsoft TMG на что-то более новое. И вот как-то ночью звонит инженер из HPE и срывающимся голосом сообщает, что наша система хранения данных HPE 3PAR перестала отсылать отчеты о своем самочувствии. Так как звонил не круглосуточный диспетчер, было ясно, что это фигня!

На следующий же день я зашел на веб-интерфейс Virtual Service Processor (далее VSP) и выполнил операцию SPmaint -> 2. Network Configuration -> 7. Test 3PAR Secure Service Collector Server.

Ошибка HTTP 407 намекает, что текущий прокси-сервер перестал принимать учетные данные с HPE 3PAR VSP.

Читать далее

Рубрика: Hardware, HP | Оставить комментарий

Список проверок vSphere Health

При подключении к Программе повышения эффективности работы заказчиков (Customer Experience Improvement Program, CEIP), вы может проверить здоровье вашей vSphere через онлайн-анализатор.

Проверки с проблемами пишутся все, а вот беспроблемные только частично. Меня интересовало — что ещё проверяется?

Итак список проверок на момент публикации статьи:

  1. ESXi host with i40e driver and TCP Segmentation Offload
    (TSO) enabled KB 2126909
  2. ESXi with HP ILO driver version 10.0.1-24 KB 2148123
  3. Intel IOMMU interrupt remapper is disabled for ESXi hosts on
    HP ProLiant Gen8 servers KB 2149043
  4. ESXi host dvfilter vmci socket deregistration KB 2149242
  5. ESXi 6.0 Update 2 when hardware Large Receive Offload
    (LRO) is ‘enabled KB 2144968
  6. Network redundancy check when configuring VMware High
    Availability in vCenter Server KB 1004700
  7. ESXi 6.5.x has 10Gb Physical Nic and NetQueue is enabled KB 2151749
  8. ScratchConfig.CurrentScratchLocation is set to «/scratch» on
    ESXi version 6.0.0 and 6.5.0 KB 2151209
  9. ESXi maximum number of supported storage devices KB 2150280
  10. ESXi 6.5 or 6.7 host with IPv6 disabled KB 2150794
  11. ESXi system logs on vSAN datastore KB 2147541
  12. ESXi host with native Intel X710 driver and VLAN tagging KB 2149781
  13. ESXi with bad brcmfcoe or lpfc driver versions KB 2151391
  14. SearchLow I/O performance using intel-nvme drivers 1.3.2.8-
    1OEM and 1.3.2.4-1OEM with block sizes larger than 4K KB 55693
  15. Host experiences PF Exception 14 with
    bnx2x_netq_free_rx_queue_single in backtrace KB 53353
  16. Virtual machine operations on an ESXi 6.0 host fails KB 2113450
  17. Sequential-context attack vector vulnerability in Intel
    processors KB 55806
  18. Concurrent-context attack vector vulnerability in Intel
    processors KB 55806
  19. ESXi unable to save hostd service state to /bootbank KB 2057826
  20. VMDK corruption after canceling a snapshot removal task KB 2146319
  21. Disk space check for VMware vCenter Server Appliance KB 2145603
  22. vMotion network configuration check for vSphere Standard
    Switch KB 2120640
  23. vMotion network configuration check for vSphere Distributed
    Switch KB 2120640
  24. Selective deletion of tasks, events, and historical performance
    data in vSphere 5.x and 6.x KB 2110031
  25. Host participating in VM-based replication KB 55650
  26. ESXi on host with AMD EPYC 7xx1 CPU KB 52045
  27. vMotion of virtual machines from ESXi 6.0 to 6.5 KB 59723
  28. End of General Support for vSphere 6.0 KB 66977
  29. Deprecation of the external Platform Services Controller
    deployment model KB 60229
  30. Maximum number of ESXi hosts per cluster Max Config
  31. ESXi host connectivity with vCenter Server KB 1005757
  32. Enable SCAv2 for optimal hyperthreading performance KB 55806
  33. Unsupported address family with dvSwitch in ESXi 6.0 KB 2117308
  34. Host PSOD on QFLE3I driver on QLogic 57840 10/20 Gigabit
    Ethernet Adapter KB 56357
  35. vCenter Server version compatibility check KB 68174
Рубрика: 6.0, 6.5, 6.7, VMware, vSphere, Советы | Оставить комментарий

HPE Superdom установка в режиме Boot from SAN

Коллеги поделились решением проблемы установки ESXi на HPE Superdom в режиме Boot from SAN.

У нас есть партиция Superdom из двух лезвий gen8, процессоры серии Intel Xeon E7-2800 v2 и HBA Qlogic HP QMH2672 16Gb с версией fw 8.07.16.

Я хотел установить туда HPE ESXi 6.0u3 (preGen9), так как именно она является последней поддерживаемой версией по данным матриц совместимости HPE и VMware.

При установке столкнулся с тем, что Wizard не видит презентованный диск для установки в режиме Boot from FC SAN.

Рядом стоит точно такая же партиция, состоящая из одного лезвия с такой же HBA. Проблем при установке ESXi там не было.

В поисках решения я перепробовал все сборки HPE’шных образов ESXi (а также оригинальных) – только HPE 6.7U1 увидел диск для установки, но его поставить нельзя 🙂

Я начал сравнивать драйверы для QMH2672 в различных образах ESXi и выяснил, что:

  • в 6.7 U1 драйвер версии 3.1.16;
  • в 6.5 U2 — 2.1.81;
  • в 6.0 U3 — 2.1.50.

В VMware HCL написано, при HBA с прошивкой 8.07.xx в ESXi 6.0U3 должны работать версии драйвера от 2.1.63 до 2.1.70.

Странно — на первую патрицию успешно установился ESXi с версией драйвера 2.1.50, которая отсутствует в HCL 🙂

Затем я попробовал собрать свой образ с драйвером 3.1.16 из offline bundle, но при сборке получил ошибку зависимости, которой нет в 6.0. Не зря этот драйвер входит только в дистрибутив 6.7 😉

На всякий случай, для чистоты эксперимента я снес все зоны и сделал только зонинг только на одну систему хранения, где расположен загрузочный LUN.

УРА! После перезагрузки хост успешно увидел LUN для установки 🙂

Продолжив эксперименты, я нашел причину такого поведения — HPE StoreOnce!!!111

В ESXi до версии 6.7 существует ограничение в 1024 пути. Catalyst, расположенный на StoreOnce, с лихвой переполнял это ограничение.

И только в ESXi 6.7 количество возможных путей увеличено до 4096, вследствие чего хост нормально видел загрузочный лун!

Рубрика: 6.0, 6.5, 6.7, Hardware, HP, VMware, vSphere | 2 комментария

Видеозаписи докладов с VMworld 2019 US

Видеозаписи докладов с VMworld 2019 доступны на страницах:

  1. VMworld US 2019 Breakout Sessions Playback & Download URLs
  2. vmworld-us-vmc-playback-urls
Рубрика: Veeam, VMware, Новости | Оставить комментарий

VMware vSphere 6.7 Update 3 Alarm ‘Host hardware sensor state’

У VMware есть привычка в практически каждый релиз заложить какую-нибудь граблю. Вот и в vSphere 6.7 Update 3 отличились.

Выражается в виде массовых событий типа error в vCenter Events:

 Alarm 'Host hardware sensor state' on [hostname] triggered by event [number] 'Sensor -1 type , Description [device] state assert for . Part Name/Number N/A N/A Manufacturer N/A'.

Функционал вроде бы не нарушен, проявляется на оборудовании разных производителей,  но эти же события имеют тип info в ESXi.

Проблема в том, что данные события переполняют логи vCenter и систем мониторинга.

Участник Reddit пишет:

Our vCenter daily log is usally something like 15-20KB, but it has blown up to 1.7-2.3 GB since the 10-node upgrade.

То есть рост логов в сутки составил всего-то сто тысяч(!) раз.

А что поддержка? Ничего — ещё не признали проблему! Видать, все на VMWorld уехали.

Update

VMware признала проблему и предложила пару обходных решений в базе знаний — Excessive Hardware health alarms being triggered for «Sensor -1 type» on ESXi hosts running vSphere 6.7 U3 (74607).

Рубрика: 6.7, VMware, vSphere, Новости | 3 комментария

Останов VCSA при нехватке места

У нас неожиданно стал прекращать работать VCSA, а конкретно сервис VPXD.

Стартнёшь ручонками — работает то десяток часов, то 20 минут. Из warning’ов — мало места для базы данных (List of VMDKs/Partitions for a vCenter Server Appliance 6.7 — Size Mount point and Purpose (70625)). VAMI показывает, что места в SEAT занято 90%. Также не работает Update Manager даже при запущенном VPXD. Все логи vpxd.log перебрали — ничего не заметили, как будто штатный останов.

Написали в техподдержку — те попросили логи собрать, а как их соберёшь, если vCenter то потухнет, то погаснет. Кое-как собрали через VAMI, да и те оказались не полные, пришлось ручонками скопировать с помощью WinSCP папку логов VPXD.

Поддержка логи смотрела внимательнее и нашла:

2019-08-27T06:50:34.343Z error vpxd[102197] [Originator@6876 sub=vpxdVdb] Shutting down the VC as there is not enough free space for the Database(used: 95%; threshold: 95%).
2019-08-27T06:50:34.343Z info vpxd[102197] [Originator@6876 sub=Default] Initiating VMware VirtualCenter shutdown
2019-08-27T06:50:35.412Z error vpxd[102111] [Originator@6876 sub=vpxdVdb] Insufficient free space for the Database (used: 95%; threshold: 95%)

Действительно, места не хватает и VPXD сам себя отправляет отдыхать.  Описание поведения vCenter есть КБ-шечке «Shutting down the VC as there is not enough free space for the Database» error (67017).  Вот только она про /storage/db, а про /storage/seat умалчивает.

Добавили место у диска SEAT по инструкции Increasing the disk space for the VMware vCenter Server Appliance in vSphere 6.5 and 6.7 (2145603). Перезагрузили VCSA и всё заработало.

P.S. Так и не понял — с каких пор 90%=>95%?

P.P.S. Андрей подсказал откуда разница в процентах (данные после увеличения диска):

Вывод в VAMI: seat Total space 54.0 GB  Used space 32.4 GB Available space 21.6 GB 60.1% of 54.0 GB

Вывод в df -h: /dev/mapper/seat_vg-seat 55G 33G 19G 64% /storage/seat

Рубрика: 6.5, 6.7, VMware, vSphere, Советы | 2 комментария