Видеозаписи докладов с VMworld 2019 EU доступны на страницах:
Epic fail story
Всем привет!
Пятница, вечер, дождик…
1) В одной компании вышел из строя RAID6 на HP Proliant Gen6, виртуальные машины на VMware ESXi стали частично недоступны.
Пошли за бэкапами на систему хранения QNAP – оказалось, что она тоже потеряла два диска в RAID5, вследствие чего бэкапов тоже нет.
Владелец взял где-то два брендовых SATA-диска IBM, объединил их в программное зеркало (динамический диск MS Windows) и скинул туда данные с сервера Hyper-V. Сервер Hyper-V был переформатирован под ESXi.
Когда через месяц-два он раздобыл новый сервер под Hyper-V, оказалось, что оба IBM-диска неживые.
Я не уточнял у него, как он вышел из этой ситуации.
2) В другой компании внезапно стали недоступными виртуальные машины, находящиеся на одном из RAID-массивов. Как оказалось, LUN3, состоящий из двух SSD-дисков в зеркала, решил что ну его…
У нас же есть бэкапы, заявил мой тезка. Угу-угу, VMware Data Protection 6.1.2 не загружался, в консоли висела надпись:
1 |
/usr/local/vdr/configure/bin/checkforddrpreset.pl", exit status=0 |
Перезагрузка не помогла, через час все было точно также.
vDP пытались оживить сначала вручную, потом через техподдержку VMware. Третий по счету инженер из EMC смог оживить бэкапы и мы узнали… что последний бэкап сделан год назад. Так как “Retention Policy” требует хранить бэкапы за последние 90 дней…
Тут мой тезка и говорит “у меня есть еще одна система резервного копирования, сохраняющая файлы на сервер в Amazon. Но я залогиниться туда не могу 🙁
В общем, сервер с бэкапами на Amazon оказался заражен каким-то ransomware…
Параллельно была сделана попытка выключить и включить система храения с выдергиванием/втыканием SSD-дисков (потому что она еще и на RAID-контроллер ругалась)…
После включения массива сдохло еще 4 SAS-диска (2 уже не работали), вследствие чего Lun2 ушел следом за Lun3. Как оказалось, MD3220i более 7 лет.
Какие выводы (кроме настройки уведомлений) вы бы сделали из обоих историй?
Какие epic fail были у вас?
Политика ротации резервных копий vCenter не работает
В последнее время VMware часто озвучивает новый функционал VCSA VAMI – создание резервных копий конфигурации vCenter на разные хранилища по протоколам FTP/FTPS, HTTP/HTTPS, SCP, NFS, SMB.
Мы сразу после внедрения VCSA 6.7 настроили резервные копии на FTP, время от времени удаляя копии с хранилище.
После реализации поддержки SMB перенастроили на новый протокол, но с удивлением обнаружили, что ротация резервных копий так и не работает.
Поиск в БЗ VMware подсказал ответ – VCSA VAMI backup is failing to delete old backups according to retention policy (70823). То есть проблема нам не померещилась и когда-нибудь будет исправлена, а пока чистим руками…
Windows VMware vSphere: UEFI или BIOS
На днях я сконвертировал несколько виртуальных серверов Hyper-V 2012R2 в VMware vSphere 6.5, и тут коллеги заметили, что VMRC как-то странно ругается.
Опытным путем было выяснено, что он ругается на включенный UEFI в их серверах. Коллеги подтвердили, что сервера были развернуты с системой UEFI и режимом SecureBoot, который после конвертации на VMware был отключен. Причем они сказали, что в Hyper-V GEN2-машинах UEFI включается автоматически.
Я проверил настройку по умолчанию для Windows 2012/2016 в VMware – там рекомендуемый режим – BIOS.
Пойдемте разбираться вместе, кто прав 😉
HPE 3PAR VSP сброс пароля cpmaint и настройка Proxy
Однажды мы решили закопать стюардессу поменять наш прокси-сервер Microsoft TMG на что-то более новое. И вот как-то ночью звонит инженер из HPE и срывающимся голосом сообщает, что наша система хранения данных HPE 3PAR перестала отсылать отчеты о своем самочувствии. Так как звонил не круглосуточный диспетчер, было ясно, что это фигня!
На следующий же день я зашел на веб-интерфейс Virtual Service Processor (далее VSP) и выполнил операцию SPmaint -> 2. Network Configuration -> 7. Test 3PAR Secure Service Collector Server.
Ошибка HTTP 407 намекает, что текущий прокси-сервер перестал принимать учетные данные с HPE 3PAR VSP.
Continue reading “HPE 3PAR VSP сброс пароля cpmaint и настройка Proxy”
Список проверок vSphere Health
При подключении к Программе повышения эффективности работы заказчиков (Customer Experience Improvement Program, CEIP), вы может проверить здоровье вашей vSphere через онлайн-анализатор.
Проверки с проблемами пишутся все, а вот беспроблемные только частично. Меня интересовало – что ещё проверяется?
Итак список проверок на момент публикации статьи:
- ESXi host with i40e driver and TCP Segmentation Offload
(TSO) enabled KB 2126909 - ESXi with HP ILO driver version 10.0.1-24 KB 2148123
- Intel IOMMU interrupt remapper is disabled for ESXi hosts on
HP ProLiant Gen8 servers KB 2149043 - ESXi host dvfilter vmci socket deregistration KB 2149242
- ESXi 6.0 Update 2 when hardware Large Receive Offload
(LRO) is ‘enabled KB 2144968 - Network redundancy check when configuring VMware High
Availability in vCenter Server KB 1004700 - ESXi 6.5.x has 10Gb Physical Nic and NetQueue is enabled KB 2151749
- ScratchConfig.CurrentScratchLocation is set to “/scratch” on
ESXi version 6.0.0 and 6.5.0 KB 2151209 - ESXi maximum number of supported storage devices KB 2150280
- ESXi 6.5 or 6.7 host with IPv6 disabled KB 2150794
- ESXi system logs on vSAN datastore KB 2147541
- ESXi host with native Intel X710 driver and VLAN tagging KB 2149781
- ESXi with bad brcmfcoe or lpfc driver versions KB 2151391
- SearchLow I/O performance using intel-nvme drivers 1.3.2.8-
1OEM and 1.3.2.4-1OEM with block sizes larger than 4K KB 55693 - Host experiences PF Exception 14 with
bnx2x_netq_free_rx_queue_single in backtrace KB 53353 - Virtual machine operations on an ESXi 6.0 host fails KB 2113450
- Sequential-context attack vector vulnerability in Intel
processors KB 55806 - Concurrent-context attack vector vulnerability in Intel
processors KB 55806 - ESXi unable to save hostd service state to /bootbank KB 2057826
- VMDK corruption after canceling a snapshot removal task KB 2146319
- Disk space check for VMware vCenter Server Appliance KB 2145603
- vMotion network configuration check for vSphere Standard
Switch KB 2120640 - vMotion network configuration check for vSphere Distributed
Switch KB 2120640 - Selective deletion of tasks, events, and historical performance
data in vSphere 5.x and 6.x KB 2110031 - Host participating in VM-based replication KB 55650
- ESXi on host with AMD EPYC 7xx1 CPU KB 52045
- vMotion of virtual machines from ESXi 6.0 to 6.5 KB 59723
- End of General Support for vSphere 6.0 KB 66977
- Deprecation of the external Platform Services Controller
deployment model KB 60229 - Maximum number of ESXi hosts per cluster Max Config
- ESXi host connectivity with vCenter Server KB 1005757
- Enable SCAv2 for optimal hyperthreading performance KB 55806
- Unsupported address family with dvSwitch in ESXi 6.0 KB 2117308
- Host PSOD on QFLE3I driver on QLogic 57840 10/20 Gigabit
Ethernet Adapter KB 56357 - vCenter Server version compatibility check KB 68174
HPE Superdom установка в режиме Boot from SAN
Коллеги поделились решением проблемы установки ESXi на HPE Superdom в режиме Boot from SAN.
—
У нас есть партиция Superdom из двух лезвий gen8, процессоры серии Intel Xeon E7-2800 v2 и HBA Qlogic HP QMH2672 16Gb с версией fw 8.07.16.
Я хотел установить туда HPE ESXi 6.0u3 (preGen9), так как именно она является последней поддерживаемой версией по данным матриц совместимости HPE и VMware.
При установке столкнулся с тем, что Wizard не видит презентованный диск для установки в режиме Boot from FC SAN.
Рядом стоит точно такая же партиция, состоящая из одного лезвия с такой же HBA. Проблем при установке ESXi там не было.
В поисках решения я перепробовал все сборки HPE’шных образов ESXi (а также оригинальных) – только HPE 6.7U1 увидел диск для установки, но его поставить нельзя 🙂
Я начал сравнивать драйверы для QMH2672 в различных образах ESXi и выяснил, что:
- в 6.7 U1 драйвер версии 3.1.16;
- в 6.5 U2 – 2.1.81;
- в 6.0 U3 – 2.1.50.
В VMware HCL написано, при HBA с прошивкой 8.07.xx в ESXi 6.0U3 должны работать версии драйвера от 2.1.63 до 2.1.70.
Странно – на первую патрицию успешно установился ESXi с версией драйвера 2.1.50, которая отсутствует в HCL 🙂
Затем я попробовал собрать свой образ с драйвером 3.1.16 из offline bundle, но при сборке получил ошибку зависимости, которой нет в 6.0. Не зря этот драйвер входит только в дистрибутив 6.7 😉
На всякий случай, для чистоты эксперимента я снес все зоны и сделал только зонинг только на одну систему хранения, где расположен загрузочный LUN.
УРА! После перезагрузки хост успешно увидел LUN для установки 🙂
Продолжив эксперименты, я нашел причину такого поведения – HPE StoreOnce!!!111
В ESXi до версии 6.7 существует ограничение в 1024 пути. Catalyst, расположенный на StoreOnce, с лихвой переполнял это ограничение.
И только в ESXi 6.7 количество возможных путей увеличено до 4096, вследствие чего хост нормально видел загрузочный лун!
Видеозаписи докладов с VMworld 2019 US
Видеозаписи докладов с VMworld 2019 доступны на страницах:
VMware vSphere 6.7 Update 3 Alarm ‘Host hardware sensor state’
У VMware есть привычка в практически каждый релиз заложить какую-нибудь граблю. Вот и в vSphere 6.7 Update 3 отличились.
Выражается в виде массовых событий типа error в vCenter Events:
1 |
Alarm 'Host hardware sensor state' on [hostname] triggered by event [number] 'Sensor -1 type , Description [device] state assert for . Part Name/Number N/A N/A Manufacturer N/A'. |
Функционал вроде бы не нарушен, проявляется на оборудовании разных производителей, но эти же события имеют тип info в ESXi.
Проблема в том, что данные события переполняют логи vCenter и систем мониторинга.
Участник Reddit пишет:
Our vCenter daily log is usally something like 15-20KB, but it has blown up to 1.7-2.3 GB since the 10-node upgrade.
То есть рост логов в сутки составил всего-то сто тысяч(!) раз.
А что поддержка? Ничего – ещё не признали проблему! Видать, все на VMWorld уехали.
Update
VMware признала проблему и предложила пару обходных решений в базе знаний – Excessive Hardware health alarms being triggered for “Sensor -1 type” on ESXi hosts running vSphere 6.7 U3 (74607).
Останов VCSA при нехватке места
У нас неожиданно стал прекращать работать VCSA, а конкретно сервис VPXD.
Стартнёшь ручонками – работает то десяток часов, то 20 минут. Из warning’ов – мало места для базы данных (List of VMDKs/Partitions for a vCenter Server Appliance 6.7 – Size Mount point and Purpose (70625)). VAMI показывает, что места в SEAT занято 90%. Также не работает Update Manager даже при запущенном VPXD. Все логи vpxd.log перебрали – ничего не заметили, как будто штатный останов.
Написали в техподдержку – те попросили логи собрать, а как их соберёшь, если vCenter то потухнет, то погаснет. Кое-как собрали через VAMI, да и те оказались не полные, пришлось ручонками скопировать с помощью WinSCP папку логов VPXD.
Поддержка логи смотрела внимательнее и нашла:
1 2 3 |
2019-08-27T06:50:34.343Z error vpxd[102197] [Originator@6876 sub=vpxdVdb] Shutting down the VC as there is not enough free space for the Database(used: 95%; threshold: 95%). 2019-08-27T06:50:34.343Z info vpxd[102197] [Originator@6876 sub=Default] Initiating VMware VirtualCenter shutdown 2019-08-27T06:50:35.412Z error vpxd[102111] [Originator@6876 sub=vpxdVdb] Insufficient free space for the Database (used: 95%; threshold: 95%) |
Действительно, места не хватает и VPXD сам себя отправляет отдыхать. Описание поведения vCenter есть КБ-шечке “Shutting down the VC as there is not enough free space for the Database” error (67017). Вот только она про /storage/db, а про /storage/seat умалчивает.
Добавили место у диска SEAT по инструкции Increasing the disk space for the VMware vCenter Server Appliance in vSphere 6.5 and 6.7 (2145603). Перезагрузили VCSA и всё заработало.
P.S. Так и не понял – с каких пор 90%=>95%?
P.P.S. Андрей подсказал откуда разница в процентах (данные после увеличения диска):
Вывод в VAMI: seat Total space 54.0 GB Used space 32.4 GB Available space 21.6 GB 60.1% of 54.0 GB
Вывод в df -h: /dev/mapper/seat_vg-seat 55G 33G 19G 64% /storage/seat