Вчера на работе было пару скачков напряжения, переключение ну УПСы и все такое - в общем мелочи, но не приятно - все сработало нормально... Напихал начальник управления, что не делаем запланированную работу - взялись за нее... В 9 ухожу с работы, дома как обычно...
Утро, ровно в 9 захожу в кабинет, смортю пацаны не уходили, что в принципе нормально... Только они что-то мне попытались сказать, как вырубается свет, все кроме чистого питания... Я не раздевшись бегом в серверную... Все нормально, но там уже все на ушах... Как мне сказал дежурный, ночка выдалась веселая - переключений электричества было штук 5, вылетели из строя кондеры, в серверной из-за повышенной температуры вырубились серваки (около 40 градусов было)... Ладно, свет востановился... Вроде все нормально... Захожу в серверную и наблюдаю, что температура растет, сначала я не обратил внимания, т.к. с уличного мороза (-20) сильный ветер (+10 или меньше) воспринимается как жара, но температура в самой серверной неуклонно росла... Сразу к дежурному, перегружаем кондеры, все нормально... Сразу пришла идея сделать бэкапы юникса всех боевых серверов... Успел сделать только 2 (из 9)... Влитает начальник управления: глаза больше чем лицо

, у каждого уха по телефону и кричит: "Как 11% зарядки??? Сколько времени??? - и уже нам - Парни тушите все!!! У вас 5 минут, все на УПСах, дизели не включились!!!" Мы бегом по тачкам и давай пытаться все валить, благо root'овские пароли уже были у нас... Но не успели - сеть отвалилась... Бегом в серверную и консолей тушить все... Обрадовали тем, что дизель запустили в ручную и времени больше... Но потушить не успели... Весь софт свалился, нам оставалось только "корректно" потушить сами железки... Этим уже занимались дольше... Не торопясь, потом вообще забили. :) В общем из 34 серверов и 10 массивов (хотя их больше - локальные не считал) не потушеными остались только 5 серверов и 4 массива... Хотя это число в конечном итоге сократилось... А в здании жизнь идет стандартным ходом, все нормально функционирует, никакой экономии света, многие даже не знали, что все работает на дизеле... Вот я сейчас пишу и сам не знаю на чем мы сидим... Прошло уже 6 часов, а толком ничего не известно. Начальник дал указание запустить боевые серваки... 2 не запустились, вернее железо заработало, но софт поднять не можем, теперь ломаем голову как это исправить, как раз самого пострадавшего я успел сделать бэкап, так что чую востанавливать сегодня будем.
Пока тишина, поэтому я и взялся за дневник...
У меня были прикольные ощущения, когда все это началось. Представьте, типа вышел я только из тира, пару раз с воздушки пострелял, а мне тут сразу боевой автомат в руки и иди на врага, а я хз че как и куда жать... Вот так вот и было, только с серваками, а не с автоматом. Веселого мало, но теперь я чую буду жить на работе чтобы научиться всему, что только можно для работы... Т.к. сказать осознал всю серьезность ситуации и мое незнание вопроса. Надеюсь у меня получится...
А теперь буду готовиться к ночевке на работе...
Решил выложить предысторию: письмо от начальника, свидетеля ночных происшествий.
"В 12 ночи пришлось придти в МинФин. В серверной 516-3, где ИНИСовские сервера, сломался кондиционер. Температура поднялась до 40 градусов, сервер БД ИНИС и Superdome ушли в аут. Часам к 3 температуру сбили, сервера завели, база поднялась нормально.
В 4 часа был сбой питания, минут 10 на дизеле сидели.
Сейчас ИНИС работает, очереди расходятся, ограничение доступа пользователям убрал. Пойду покимарю, к 9-и не буду. Здоровье вроде на поправку пошло, так что как отосплюсь подойду. А сейчас башка раскалывается...
По кондиционеру Аппель в курсе, ему звонили. Договор на его обслуживание заключал МинФин (ДИТ), так что, это их проблемы. Кондиционерщики ночью отключились, недоступны. Исправлять ситуацию будут с утра.
Если что, вкратце проблема в следующем. Около 10 вечера упало давление в компрессоре (судя по логам), начала расти температура, в 12-м часу сервера повалились из-за высокой температуры. Обычный ресет не помогал, через 3-5 минут ошибки снова появлялись. Кроме того, кондиционеры не работали на охлаждение, а просто гоняли воздух, как вентиляторы. Попробовали отключить оба кондиционера, дали им отдохнуть минут 5, потом включили только первый (с монитором). Он начал нормально работать, на охлаждение. Минут через 20 снова вылезло сообщение по низкому давлению. Отключили, через пару минут снова запустили. Проработал минут 15, снова ошибка. Снова отключили, через пару минут включили. С того времени (где-то с 3.30-3.40) работает без сбоев. Во всяком случае до текущего момента (6 часов утра). Второй кондиционер выключен, и включать не надо, иначе снова возникнут ошибки.
Это на случай, если будут вопросы, что да как.
А пока кондиционерщики не подойдут смотрите почаще, иначе там за полчаса температура поднимется до критического уровня. Если будут ошибки и ресет не помогает, отключите кондиционер, минуты через 2-3 запустите снова, должно помочь. И можно двери пооткрывать, чтобы проветривалась серверная."
Вот это было письмо от моего начальника.