Коллеги попросили разобраться: почему-то в ночи погасла критичная виртуальная машина. Конечно, ее включили, но осадочек-то остался.
Чтение Tasks показало, что ВМ никто не выключал. Events показали, что произошла какая-то ошибка после консолидации дисков, после чего виртуальная машина была просто выключена.
Чтение файликов vmware*.log, предварявших время сбоя, показало, что машина была выключена с подобной ошибкой:
[msg.log.error.unrecoverable] VMware ESX unrecoverable error: (vcpu-0).
Гуглеж быстро вывел меня на февральскую статью VMware KB. Оказывается, на хосте с VMware vSphere 5.5 Update3 Build 3029944 возможен следующий сбой: при консолидации жестких дисков после удаления снапшота виртуальная машина просто выключается!
Как вам, а? 🙂
Как по мне – очень мило, учитывая, что стандартный процесс создания бэкапа включает в себя создание и удаление снапшота на ежедневной основе.
Проверил – действительно, виртуальная машина до выключения работала на этой версии vSphere.
С помощью утилиты RVTools быстро произвел инвентаризацию виртуальной фермы коллег. Прелестно, они попали на установку обновлений к 50% своих хостов.
P.S. Почему-то в качестве связанных постов указана всякая ерунда. Я прекрасно помню, что в этом блоге багам VMware 2016 посвящена целая серия постов, прямо хоть тэг специальный заводи.
С другой стороны, vSphere 5.5 Up3 вышла год назад. С тех пор выпущено 5 апдейтов!
P.P.S. Пользуясь случаем, хочу передать привет Юре, который не любит обновлять свои продуктивные системы 😉