9fb2b9182cfd42f1982a71222d26a7d1

CERN увеличит свои вычислительные возможности до 150 тысяч ядер

Европейская организация по ядерным исследованиям (CERN) нуждается в значительных вычислительных мощностях. Все дело в том, что данные, поступающие с Большого адронного коллайдера, требуют обработки и анализа, а самих данных — петабайты.

Сам БАК начали строить еще в 1989 году, и с тех пор CERN обзавелся поистине масштабными вычислительными центрами. Так, CERN использует сразу 4 облачных среды, которые базируются на OpenStack. Облака располагаются в двух ЦОД-ах, первый из которых расположен в Мейране (Швейцария), а второй — в Будапеште (Венгрия).

Самое крупное облако базируется на основе 70000 вычислительных ядер (примерно 3 тысячи серверов). Три остальных облака, меньшего размера, базируются на 45 тысячах вычислительных ядер. При этом штаб-квартира CERN в Женеве имеет прямой канал со своим подразделением в Будапеште, с пропускной спобностью в 100 Гбит/с.

Облачную среду для CERN начали создавать три года назад, базой служило Open-Source ПО, которое называлось Cactus. После этого команда CERN перешла на OpenStack, начав с версии OpenStack Grizzly. Теперь все облака центра работают на основе OpenStack версии Icehouse. Поскольку БАК работает все более активно, а данных накапливается все больше, то вычислительные мощности центра планируют увеличить. Сейчас готовится к запуску еще 2000 серверов, позволяющих более, чем в 10 раз увеличить производительность всех облаков центра. К слову, до настоящего момента было сгенерировано более 100 петабайт данных, и в 2014 году сгенерировано 27 петабайт.

20aba73794ab4b75a3c6f3f53f38b5e6

По мнению специалистов, уже в следующем году количество генерируемой информации возрастет до 400 петабайт в год. Само собой, для обработки всех этих данных необходимы более значительные вычислительные возможности центра, чем сейчас.

Что касается архитектуры облака, то здесь все более, чем интересно. Так, облако располагается сразу в двух ЦОД-ах, каждый из которых состоит из кластеров с вычислительными узлами и контроллерами кластеров. Последние работают с главным контроллером, располагающимся в Швейцарии, что позволяет распределять потоки данных между двумя основными узлами.

Облако работает, как уже говорилось выше, на OpenStack, со следующими компонентами:

  • Git: продвинутая система управления версиями программных компонентов комплекса;
  • Ceph: объектное хранилище, работающее распределенно;
  • Elasticsearch: собственная система аналитики в режиме реального времени на распределенной основе;
  • Kibana:визуализация результатов, на основе Elasticsearch;
  • Puppet: продвинутое управление конфигурацией системы;
  • Foreman: компонент, используемый для настройки серверных компонентов и управления конфигурацией серверов;
  • Hadoop: распределенные вычисления, все это работает с BigData;
  • Rundeck: планировщик;
  • RDO: инструмент для развертывания OpenStack на дистрибутиве Linux Red Hat;
  • Jenkins: утилита для так называемой непрерывной интеграции.

ff3b823db552451da2f7fd940a3d4158

По словам разработчиков системы, в самом начале стоял выбор между Chef и Puppet. Несмотря на то, что оба инструмента можно считать универсальными, был выбран Puppet, поскольку этот инструмент разработан с учетом декларативного подхода.

В дальнейшем планируется увеличить производительность ЦОД-ов CERN еще вдвое, произойти это должно уже в первом квартале 205 года.

comments powered by Disqus