Expect The Unexpected 600x375

Ожидая неожиданное: топ-10 самых странных простоев дата-центров

Expect-the-Unexpected-600x375

Каждый раз, когда система энергоснабжения или резервного копирования дает сбой, или техник делает ошибку, ваш центр обработки данных «падает». Практика отрасли постоянно учит нас, что еще может пойти не так. Но иногда бывают «черные лебеди» — случаи, когда что-то странное и совершенно неожиданное вызывает незапланированный простой дата-центра.

Вот список некоторых самых странных случаев отказа ЦОД:

1. Ошибка Second leap, известная как ошибка високосной секунды

leap-second-1200

Second leap — это регулировка на одну секунду, которая применяется к всемирному времени для учета изменений скорости вращения Земли. Добавление одной секунды до времени атомных часов вызвало проблемы у ряда ИТ-систем в 2012 году, когда несколько популярных веб-сайтов, в том числе LinkedIn, Reddit, Mozilla и The Pirate Bay, ушли в даунтайм. В Австралии 400 рейсов компании Qantas были задержаны на два часа, так как авиакомпании пришлось перейти на ручную проверку модулей. Ошибка Second Leap заставила многие Linux-сервера застрять в цикле, бесконечно проверяя дату и время. На самых активных ЦОДах Интернета энергопотребление почти мгновенно подскочило на мегаватты.

2. Белка сокрушила центр обработки данных Santa Clara компании Yahoo

sparky-squirrel

Белки, «роняющие» дата-центры на самом деле не такая уж редкость. Они жуют все, включая важные кабеля, которые мы используем для передачи данных. В 2010 году белка «уронила» половину центра обработки данных Yahoo  в Санта-Кларе

3. Миграция данных в буквальном смысле

truck2

Перемещение серверов может быть непростым делом. NaviSite (в настоящее время принадлежит Time Warner) приобрела хостинг-провайдера под названием Alabanza в 2007 году и перемещала клиентские счета из главного центра обработки данных Alabanza в Балтиморе на объект в Андовер, штат Массачусетс.

Что сделали работники — они попросту отключили серверы, положили их в грузовик, и перегнали их на расстояние более 700 километров. Многие веб-сайты, размещенные на Alabanza, «лежали» до тех пор, пока установка серверов и ПО не закончилась.

4. Корабль бросает якорь в Интернете

anchor,beach,photography,art,anchors,sand-db80994d99eb034ed3f6552c278d0660_h

Массивные подводные кабели передачи трафика с континента на континент весьма долговечны, учитывая то, где они работают. Тем не менее, есть по крайней мере один случай, когда корабль бросил якорь на одном из них неподалеку от Дубаи. Целая эпидемия обрезки подводных кабелей была в 2008 году, она не обязательно вызывала отключения ЦОД, но простои доступа в сеть были для целых регионов.

5. «Каждая стена — это дверь.» — Ральф Уолдо Эмерсон

hole-in-the-wall

Nianet, датский провайдер «упал», когда воры вырезали отверстие в стенах его дата-центра в Таструпе. Они проникли в здани и ушли с кучей сетевых карт, по сообщениям СМИ. Как воры смогли прорваться через стену ЦОД, и почему они сделали это просто для того, чтобы украсть сетевые платы, остается загадкой.

6. Курение вредит не только здоровью

actor-olivia-wilde

По крайней мере один инцидент простоя центра обработки данных был вызван тлеющей сигаретой. ЦОД в городе Перт в Западной Австралии был закрыт в течение часа после того, как  VESDA (система раннего обнаружения дыма) обнаружила дым в дата-центре. Причина была идентифицирована как возгорание опавших листьев вдоль внешней стены объекта, вызванное горящим окурком.

7. Продолжая тему грузовиков

best-truck-gps

В 2007 году Rackspace, компания с феноменальными рекордами безотказной работы, пострадала — нескольких часов простоя случились после того, как грузовик въехал в силовой трансформатор, который взорвался. Резервное питание пыталось завестись, но две холодильные машины не удалось запустить. Это привело к простою нескольких самых больших сайтов в Интернете на то время.

8. Чешская ловкость

x4x

В 2009 году из-за одного неосторожного объявления неизвестного чешского провайдера, возникли краткие перебои у нескольких крупных хостинговых компаний. Чешский Supronet единолично вызвал глобальный Интернет кризис, длящийся более часа — из-за неверных настроек BGP.

9. — Мой сервер лежит? — Да, в ломбарде.

attackВ 2007 году два человека в масках ворвались в центр обработки данных в Чикаго и украли кучу компьютерной техники. Центр обработки данных принадлежал к старинной хостинговой компании под названием CI Host. Компания была в конечном итоге приобретена и ее больше не существует.

Одинокий сотрудник, работавщий в ночь ограбления был ударен элеткрошоком (по другим сообщениям — оглушен пистолетом). Около 20 серверов были украдены, убрав кучу сайтов из интернета навсегда.

10. Супершторм Сэнди

squarespace-75broad-bucket

Трудно найти событие более непредсказуемое, чем ураган Сэнди. Один раз в жизни (мы надеемся) шторм вызвал хаос в Нью-Йорке . Отключения ЦОД привели к удивительным последствиям.

Например, команда дата-центра Squarespace наполняла ведра дизельным топливом, и передавала их подобно пожаной команде времен позапрошлого века, чтобы непрерывно поддерживать работу генератора, удерживавшего ЦОД онлайн во время массового отключения энергоснабжения. Помпа, подающая дизтопливо на 17 лестничных пролетов отказала, и команда решила вопрос дедовским способом.

Если у вас есть своя удивительная история простоя ЦОД, поделитесь ей в комментариях.

comments powered by Disqus