Oversunmercury Pic3

Несколько советов по бесперебойной работе дата-центра

Как обеспечить высокий аптайм дата-центра, максимально снизив при этом возможное время простоя (а по возможности вообще исключив простои)? Это не так просто, как могло бы показаться, нужно выполнять рутинные работы и периодически проверять, все ли идет по плану. В продолжении — несколько практических советов по повышению аптайма дата-центра.

Проведение регламентных работ

В начале года обязательно нужно составлять график, очень детальный, регламентных работ и так называемых предупредительных ремонтов. Подобную работу можно сравнить с техническим обслуживанием автомобиля — вроде бы все работает, но нужно регулярно проверять и прозванивать все системы.

Идеально, если все системы зарезервированы — в таком случае можно отключить одну систему или ее часть для проверки, задействовав на это время резервную.

Часто регламентные работы не предусматривают выполнение таких действий, как проверка и замена мелких деталей, включая конденсаторы, которые относительно часто подводят. Определить нерабочий конденсатор или конденсатор, который вскоре может выйти из строя, можно при помощи тепловизора. Этот прибор показывает проблемные места на плате, поскольку проблемные детали обычно нагреваются сильнее остальных.

Обо всех регламентных работах необходимо уведомлять клиентов, если таковые имеются. В противном случае для клиента может оказаться большим сюрпризом неработающий сайт или сервис. Само собой, работы должны выполняться специально подготовленной командой технических специалистов, которые точно знают, что и как нужно делать.

Кроме самих работ, нужно проводить и тренировочные испытания, с определенной регулярностью.

План на случай аварии

Если не будет плана, то любая команда, насколько бы подготовленной она бы ни была, будет действовать хаотично. План должен быть не только у инженеров.

  1. Такой план должен быть у диспетчера, причем план желательно иметь пошаговый. В плане диспетчер получит подробные инструкции о своих действиях на случай сбоя/аварии;
  2. Также план должен быть у команды, занимающейся противопожарными работами. Должна быть специальная одежда и оборудование. Кроме того, у каждого «пожарника» должен быть собственный план действий.
  3. В план действия необходимо включить и план эвакуации — на тот случай, если вообще все пойдет не так;
  4. Также нужно отметить номера телефонов ответственных специалистов — каждый работник должен знать кому и куда звонить в случае аварии.

Рутинные задания

Повторяющиеся типы работ должны быть в каждом дата-центре, ЦОД-е. Это и уборка, и проверки оборудования и много чего еще.

Та же уборка должна проводиться регулярно, причем имеется в виду как сухая, так и влажная или мокрая уборка. При этом уборку должна выполнять либо уборщица под наблюдением кого-то из саппорта, либо же специально обученный специалист, если речь идет о сверх-надежных дата-центрах и ЦОД-ах.

Кроме того, проверочные работы тоже должны быть регулярными. Например, проверка резервных генераторов или линии охлаждения должна выполняться по определенным дням, каждую неделю или месяц.

Все работы должны быть согласованы между отдельными службами и командами.

Видеонаблюдение

Должна быть как штатная система наблюдения, так и резервные системы, либо системы, установленные заказчиками.
Элементы системы наблюдения должны быть рационально расставлены, проблемы с доступом к таким элементам у службы поддержки быть не должно. Кроме того, оборудование должно регулярно проверяться.

comments powered by Disqus