HP – vMind.ru

Переход на VMware vSphere 7.0 update 2

Постоянный читатель прислал свои мысли о выборе гипервизоров и убедительной победе vSphere 7.0, несмотря на все грабли ;).

С чего все началось

Недавно у наших коллег появилось осознание, что:

самым старым серверам в продуктивной среде уже 8 и больше лет,
поддержки и запчастей на них нет,
нагрузка по памяти под 90%, но ее там очень немного,
установлена максимально возможная для этих серверов ESXi 6.5 , на тот момент 17477841 (сейчас 18071574).

Поэтому было решено:

начать закупку новых серверов,
обновить, где возможно, до ESXi 7.0 для единообразия.

Серверы, в основном, производства HPE и Huawei, на каких-то задачах используются серверы Supermicro. Предлагают закупать Dell, HPE, Lenovo. У Huawei сейчас все сложно, а присматриваться к линейке Kunpeng на Arm сейчас нет времени. Хотя под Arm есть и MS Server, и ESXi.

Почему ESXi, а не что-то еще Continue reading “Переход на VMware vSphere 7.0 update 2”

VMware vSphere Quick (Re)Boot

В платформе VMware vSphere 6.7 появилась технология vSphere(ESXi) Quick Boot, предназначенная для быстрой перезагрузки ESXi хостов во время обновлений с помощью vSphere Update Manager.

Технология требует соблюдения нескольких условий, описанных в БЗ Understanding ESXi Quick Boot Compatibility (52477):

Модель сервера находится в VMware HCL (функция QuickBoot для ESXi 7.0+) либо хранится локально в ESXi 6.7 в текстовых файлах.
Выключена технология TPM.
Нет passthru-устройств, подключенных к ВМ с хоста.
Не загружены vmklinux-драйверы на хосте.

В vSphere 7.0 третье ограничение снято, а четвертое отсутствует архитектурно.

Для проверки можно использовать локальный скрипт, выводящие информацию о совместимости модели сервера и драйверов:

/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py

1	/usr/lib/vmware/loadesx/bin/loadESXCheckCompat.py

Пример вывода на стендовом хосте:

LoadESX is not compatible with vmkLinux drivers.
This platform (IBM:System x3650 M2 -[794744G]-) is not compatible with loadESX.
Compatibility check failed: violating one or more strict requirements (loadESX is not supported on this machine)

LoadESX is not compatible with vmkLinux drivers.

This platform (IBM:System x3650 M2 -[794744G]-) is not compatible with loadESX.

Compatibility check failed: violating one or more strict requirements (loadESX is not supported on this machine)

Для быстрого обновления хостов технология включается в vSphere 7+ Menu->Lifecycle Manager-> Images/Baselines Remediation Settings->Quick Boot. Сокращение времени установки равно времени проверок UEFI при полной перезагрузке хоста.

Также меня заинтересовала возможность быстрой перезагрузки хостов без применения обновлений, поиск в интернете выявил два схожих варианта.

Вариант с Reddit:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESX.py
reboot

/bin/loadESXEnable -e

/usr/lib/vmware/loadesx/bin/loadESX.py

reboot

Вариант от Jiří Viktorin:

/bin/loadESXEnable -e
/usr/lib/vmware/loadesx/bin/loadESXShutdown.sh prepare
reboot

/bin/loadESXEnable -e

/usr/lib/vmware/loadesx/bin/loadESXShutdown.sh prepare

reboot

Прошу проголосовать за добавление функционала в графический интерфейс на портале по сбору идей vSphere Ideas, авторизация стандартная от vmware.com.

VMware ESXi 7.0 и неподдерживаемое оборудование

Disclaimer: все дальнейшие рассуждения и действия не соответствуют политике технической поддержки VMware. Любое использование оборудования вне VMware HCL может быть использовано только на свой страх и риск. В статье рассматривается только то оборудование, на котором возможен технический запуск ESXi 6.7U3.

В связи с выходом платформы VMware vSphere 7.0 виртуальные системные администраторы стали анализировать возможность обновления либо внедрения данного продукта.

Если проблемы с vCenter 7.0 вполне решаемы и описаны в нашей статье Обновление VMware vCenter с версии 6.7 до 7.0, то с ESXi 7.0 всё не так просто.

Для “упрощения” работы администраторов VMware расширила функциональность Update Manager (VUM) полуавтоматическим анализом оборудования: сверкой моделей серверов с HCL, проверкой версий прошивок и драйверов компонентов. Данная функциональность уже была частично представлена в VSAN [Skyline] Health Hardware compatibility для дисковой подсистемы. Новая версия VUM стала называться vSphere Lifecycle Manager (vLCM). Для загрузки HCL следует в административном интерфейсе нажать ACTIONS->Sync HCL.

Мои ожидания от vLCM были примерно такие – запускаю на хосте Updates -> Hardware Compatibility и система пишет, что оборудование не в HCL, такие-то компоненты не имеют драйверов и не будут работать. В реальности, если сервер не в HCL, то на этом проверка останавливается:

Host model is not compatible with ESXi 7.0
Skipped checking host devices.

Что как бы нас совершенно не устраивает, так как наша цель – запуститься вне HCL, и хотелось бы понимать какие компоненты не имеют драйверов и поддержки.

Поэтому с компонентами придётся разбираться самостоятельно. Continue reading “VMware ESXi 7.0 и неподдерживаемое оборудование”

HPE MSA Analyzing Tool

Всем привет!

HPE выпустила онлайн-утилиту по анализу конфигурации и прошивок для массивов MSA, начиная с третьего поколения (HPE MSA P2000 G3).

Собираете логи массива, загружаете на портал и “вжух” – получаете набор рекомендаций по настройкам и прошивкам.

Ниже я привожу выдержки из отчёта с одной из моих MSA:

Continue reading “HPE MSA Analyzing Tool”

Релиз Stor2RRD 2.80

Вышла версия 2.80 бесплатного мониторинга систем хранения Stor2RRD.

Поддержка новых систем хранения, ПО и функций:

- NetApp SolidFire
- FalconStor FreeStor
- Hitachi Content Platform (HCP)
- QNAP
- NetApp E-Series через REST API
- Отрисовка SAN Topology
- SAN Brocade:RX and TX powerlevels graphs for SFP
- Hitachi VSPG через REST API
- Импорт/экспорт приборных панелей 😉
- Исправление ошибок

Настройка NVMe-oF подключения к RHEL 8.1

Dmitriy Shevchenko прислал продолжение цикла инструкций по настройке NVMe-oF. Сегодня речь пойдёт об операционной системе RHEL.

Перечень оборудования и ПО

Система хранения: Netapp AFF A320, версия ПО ONTAP Release 9.7P1.

Коммутаторы сети хранения данных: Switch Brocade 6505 16Gb 24 Port 2шт. FW 8.2.1c.

Серверы: Fujitsu PRIMERGY RX2530 M5 c FC адаптерами Broadcom (EMULEX) LPe32002 версия FW 12.6.240.22 (рекомендованная в матрице совместимости Netapp).

Операционная система: Red Hat Enterprise Linux release 8.1 (Ootpa) (Примечание: в 8.2 с установкой драйверов, были проблемы, нет ключа -n).

Предварительная подготовка

Устанавливаем Red Hat Enterprise Linux release 8.1 (без установки обновлений):

# cat /etc/redhat-release
Red Hat Enterprise Linux release 8.1 (Ootpa)

1 2	# cat /etc/redhat-release Red Hat Enterprise Linux release 8.1 (Ootpa)

Скачиваем необходимые драйвера и ПО с сайта broadcom.com:
- Firmware LPe31000-Series and LPe32000-Series Firmware and Boot Code Version: 12.6.240.22: lancerg6_A12.6.240.22.grp
- FC Binary Driver (Signed) for Linux – RHEL 8 This driver includes support for NVMe over FC on RHEL 8.0-8.2. Version: 12.6.240.27-1: elx-lpfc-dd-rhel8-12.6.240.27-ds-1.tar.gz
- OneCommand Manager Core Application Kit (CLI) for Linux – RHEL 8.0 Version: 12.2.360.0-1: elxocmcore-rhel6-rhel7-rhel8-12.2.360.0-1.tgz

Устанавливаем OneCommand Manager: Continue reading “Настройка NVMe-oF подключения к RHEL 8.1”

Настройка NVMe-oF подключения к VMware vSphere 7.0

В связи с выходом VMware vSphere 7.0 стала доступна технология NVMe over Fabric (NVMe-oF) для управления операциями с накопителями и передачи данных по протоколу NVMe вместо SCSI.

Dmitriy Shevchenko прислал инструкцию, которую мы сегодня и публикуем.

Перечень оборудования и ПО

Система хранения: Netapp AFF A320; версия ПО: ONTAP Release 9.7P1.

Коммутаторы сети хранения данных: Brocade 6505 16Gb 24 Port 2 шт. ; FOS FW 8.2.1c.

Сервер: Fujitsu PRIMERGY RX2530 M5 c FC-адаптерами Broadcom (EMULEX) LPe32002, версия FW 12.4.243.17 (рекомендованная в матрице совместимости Netapp).

Гипервизор: ESXi-7.0.0-15843807.

Схема подключения: Continue reading “Настройка NVMe-oF подключения к VMware vSphere 7.0”

Анонс Stor2RRD версии 2.70

1920 февраля 2020 года ожидается выход новой версии бесплатного мониторинга систем хранения Stor2RRD.

Поддержка новых систем хранения и ПО:

Dell EMC² Elastic Cloud Storage (ECS)
HPE Primera
iXsystems FreeNAS, TrueNAS
Hitachi Virtual Storage Platform 5000 Series

Stor2RRD от поддержки корпоративных систем переходит к поддержке популярных SOHO решений, если в версии 2.70 поддержан FreeNAS, то во втором-третьем кварталах 2020 года планируется поддержать и другие очень популярные решения начального уровня:

NetApp SolidFire
Oracle Database
Hitachi Content platform (HCP)
QNAP
Synology
Brocade SANnav
RAIDIX
Ceph

Самое главное – обещают поддержать отечественную систему хранения RAIDIX!

UPDATE:

Также анонсирована дорожная карта для мониторинга виртуальных сред LPAR2RRD:

Q2 2020

Oracle VM
Oracle Database

Q3 2020

Nutanix
AWS

UPDATE 2.0:

В платной версии STOR2RRD v2.80 будет доступная полная топологическая схема SAN через инструмент Mapping.

HPE another SSD Critical Issue

Всем привет и с НГ праздниками!

В декабре 2019 Интернет бурлил от новости о том, что в SSD-накопителях HPE обнаружена критическая неуязвимость, выводящая SSD из строя после трех лет работы. Прочитать об этом можно, например, в блоге Алексея.

К сожалению, у меня практически не использовались SSD от HPE, за исключением пачки VK000240GWJPD, установленной в блейд-серверах, поэтому я с радостью выдохнул и продолжил ~~ничего не делать~~ работать.

Continue reading “HPE another SSD Critical Issue”

Epic fail story

Всем привет!

Пятница, вечер, дождик…

1) В одной компании вышел из строя RAID6 на HP Proliant Gen6, виртуальные машины на VMware ESXi стали частично недоступны.

Пошли за бэкапами на систему хранения QNAP – оказалось, что она тоже потеряла два диска в RAID5, вследствие чего бэкапов тоже нет.

Владелец взял где-то два брендовых SATA-диска IBM, объединил их в программное зеркало (динамический диск MS Windows) и скинул туда данные с сервера Hyper-V. Сервер Hyper-V был переформатирован под ESXi.

Когда через месяц-два он раздобыл новый сервер под Hyper-V, оказалось, что оба IBM-диска неживые.

Я не уточнял у него, как он вышел из этой ситуации.

2) В другой компании внезапно стали недоступными виртуальные машины, находящиеся на одном из RAID-массивов. Как оказалось, LUN3, состоящий из двух SSD-дисков в зеркала, решил что ну его…

У нас же есть бэкапы, заявил мой тезка. Угу-угу, VMware Data Protection 6.1.2 не загружался, в консоли висела надпись:

/usr/local/vdr/configure/bin/checkforddrpreset.pl", exit status=0

1	/usr/local/vdr/configure/bin/checkforddrpreset.pl", exit status=0

Перезагрузка не помогла, через час все было точно также.

vDP пытались оживить сначала вручную, потом через техподдержку VMware. Третий по счету инженер из EMC смог оживить бэкапы и мы узнали… что последний бэкап сделан год назад. Так как “Retention Policy” требует хранить бэкапы за последние 90 дней…

Тут мой тезка и говорит “у меня есть еще одна система резервного копирования, сохраняющая файлы на сервер в Amazon. Но я залогиниться туда не могу 🙁

В общем, сервер с бэкапами на Amazon оказался заражен каким-то ransomware…

Параллельно была сделана попытка выключить и включить система храения с выдергиванием/втыканием SSD-дисков (потому что она еще и на RAID-контроллер ругалась)…

После включения массива сдохло еще 4 SAS-диска (2 уже не работали), вследствие чего Lun2 ушел следом за Lun3. Как оказалось, MD3220i более 7 лет.

Какие выводы (кроме настройки уведомлений) вы бы сделали из обоих историй?

Какие epic fail были у вас?