Epic fail story

Всем привет!

Пятница, вечер, дождик…

1) В одной компании вышел из строя RAID6 на HP Proliant Gen6, виртуальные машины на VMware ESXi стали частично недоступны.

Пошли за бэкапами на систему хранения QNAP – оказалось, что она тоже потеряла два диска в RAID5, вследствие чего бэкапов тоже нет.

Владелец взял где-то два брендовых SATA-диска IBM, объединил их в программное зеркало (динамический диск MS Windows) и скинул туда данные с сервера Hyper-V. Сервер Hyper-V был переформатирован под ESXi.

Когда через месяц-два он раздобыл новый сервер под Hyper-V, оказалось, что оба IBM-диска неживые.

Я не уточнял у него, как он вышел из этой ситуации.

2) В другой компании внезапно стали недоступными виртуальные машины, находящиеся на одном из RAID-массивов. Как оказалось, LUN3, состоящий из двух SSD-дисков в зеркала, решил что ну его…

У нас же есть бэкапы, заявил мой тезка. Угу-угу, VMware Data Protection 6.1.2 не загружался, в консоли висела надпись:

Перезагрузка не помогла, через час все было точно также.

vDP пытались оживить сначала вручную, потом через техподдержку VMware. Третий по счету инженер из EMC смог оживить бэкапы и мы узнали… что последний бэкап сделан год назад. Так как “Retention Policy” требует хранить бэкапы за последние 90 дней…

Тут мой тезка и говорит “у меня есть еще одна система резервного копирования, сохраняющая файлы на сервер в Amazon. Но я залогиниться туда не могу 🙁

В общем, сервер с бэкапами на Amazon оказался заражен каким-то ransomware…

Параллельно была сделана попытка выключить и включить система храения с выдергиванием/втыканием SSD-дисков (потому что она еще и на RAID-контроллер ругалась)…

После включения массива сдохло еще 4 SAS-диска (2 уже не работали), вследствие чего Lun2 ушел следом за Lun3. Как оказалось, MD3220i более 7 лет.

Какие выводы (кроме настройки уведомлений) вы бы сделали из обоих историй?

Какие epic fail были у вас?

Политика ротации резервных копий vCenter не работает

В последнее время VMware часто озвучивает новый функционал VCSA VAMI – создание резервных копий конфигурации vCenter на разные хранилища по протоколам FTP/FTPS, HTTP/HTTPS, SCP,  NFS, SMB.

Мы сразу после внедрения VCSA 6.7 настроили резервные копии на FTP, время от времени удаляя копии с хранилище.

После реализации поддержки SMB перенастроили на новый протокол, но с удивлением обнаружили, что ротация резервных копий так и не работает.

Поиск в БЗ VMware подсказал ответ – VCSA VAMI backup is failing to delete old backups according to retention policy (70823). То есть проблема нам не померещилась и когда-нибудь будет исправлена, а пока чистим руками…