Epic fail story

Всем привет!

Пятница, вечер, дождик…

1) В одной компании вышел из строя RAID6 на HP Proliant Gen6, виртуальные машины на VMware ESXi стали частично недоступны.

Пошли за бэкапами на систему хранения QNAP — оказалось, что она тоже потеряла два диска в RAID5, вследствие чего бэкапов тоже нет.

Владелец взял где-то два брендовых SATA-диска IBM, объединил их в программное зеркало (динамический диск MS Windows) и скинул туда данные с сервера Hyper-V. Сервер Hyper-V был переформатирован под ESXi.

Когда через месяц-два он раздобыл новый сервер под Hyper-V, оказалось, что оба IBM-диска неживые.

Я не уточнял у него, как он вышел из этой ситуации.

2) В другой компании внезапно стали недоступными виртуальные машины, находящиеся на одном из RAID-массивов. Как оказалось, LUN3, состоящий из двух SSD-дисков в зеркала, решил что ну его…

У нас же есть бэкапы, заявил мой тезка. Угу-угу, VMware Data Protection 6.1.2 не загружался, в консоли висела надпись:

/usr/local/vdr/configure/bin/checkforddrpreset.pl", exit status=0

Перезагрузка не помогла, через час все было точно также.

vDP пытались оживить сначала вручную, потом через техподдержку VMware. Третий по счету инженер из EMC смог оживить бэкапы и мы узнали… что последний бэкап сделан год назад. Так как «Retention Policy» требует хранить бэкапы за последние 90 дней…

Тут мой тезка и говорит «у меня есть еще одна система резервного копирования, сохраняющая файлы на сервер в Amazon. Но я залогиниться туда не могу 🙁

В общем, сервер с бэкапами на Amazon оказался заражен каким-то ransomware…

Параллельно была сделана попытка выключить и включить система храения с выдергиванием/втыканием SSD-дисков (потому что она еще и на RAID-контроллер ругалась)…

После включения массива сдохло еще 4 SAS-диска (2 уже не работали), вследствие чего Lun2 ушел следом за Lun3. Как оказалось, MD3220i более 7 лет.

Какие выводы (кроме настройки уведомлений) вы бы сделали из обоих историй?

Какие epic fail были у вас?

Запись опубликована в рубрике Hardware, HP, Hyper-V, Microsoft, VMware, vSphere, Статьи с метками . Добавьте в закладки постоянную ссылку.

9 комментариев на «Epic fail story»

  1. KorP говорит:

    > вследствие чего Lun2 ушел следом за Lun2
    где то закралась ошибка в цифрах

  2. KorP говорит:

    А про выводы давно сказано — бекапы нужно тестировать! СХД должны быть на мониторинге (хотя бы snmp трапы), тогда спать можно будет спокойно.

  3. Mister Nobody говорит:

    >где то закралась ошибка в цифрах
    fixed

  4. VVelichko говорит:

    Все ит-шники делятся на три категории:
    1. Кто еще не делает бекап.
    2. Кто уже делает.
    3. Кто делает и регулярно восстанавливает.

  5. Андрей Вахитов говорит:

    Угу 🙂
    Зато 3PAR — огонь:
    — в 9:33 пришло письмо о выходе из строя диска;
    — в 10:27 приходит письмо с заявкой от HPE о замене диска.

  6. Юрий говорит:

    Из фееричного:
    Досталась настроенная система бекапа, планировщик бекапа был настроен в виндовом шедулере, шедулер запускал батник с командами на бекап. Работало все годами отлично — был успешный бекап и успешный рестор. В какой то момент надо было что-то отресторить — а бекапа нет (( В результате разбора было выяснено что в винде по дефолту стоит галочка на прекращение работы задания если оно идёт больше трех дней, с годами бекапы выросли и последнее задание не всегда стало успевать выполняться… Галочка кстати в 2003 не на виду была, в Advanced где-то..

  7. sss говорит:

    Так 3PAR стоит на круг (т.е. со всеми возможными поддержками и SLA) один диск от 3 до 5 млн. руб. Мне считали на 7 Тб один. Еще бы он, сук, не огонь был.

  8. Андрей Вахитов говорит:

    В случае 3par вы еще и получаете бонусом Dedupe+Compression, которая эту сумму (в сравнении с Dell MD со скриншота) «делит» на 2-4 (за счет сжатия).

    Мне кажется, что 7ТБ диски у всех midrange-массивов (которые не Dothill) примерно одинаково стоят, или нет?

  9. sss говорит:

    Диски, возможно, да. У Fujitsu (например dx500) как-то по разумнее цена и дедуп это же не про диск, а функционал полки, который не должен добавлять стоимость к носителю. Да и не столько он стоит в конце концов. Короче, рассматривал 3пар, вышло в круг пизд…ц как дорого. Остановился на фуджи, при том же (почти:) функционале. Но 3пар — топ, это факт.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *