LPP 021

Как Google использует машинное обучение для повышения эффективности дата-центров + руководство по внедрению

Google использует машинное обучение и искусственный интеллект, чтобы добиться еще большей эффективности от своих и без того могучих центров обработки данных.

В презентации на сегодняшней Data Centers Europe 2014, представитель Google Джо Кава заявил, что компания начала использовать нейронную сеть для анализа океанов данных, собираемых со своих серверных ферм, и нахождения пути их совершенствования. Кава является вице-президентом интернет-гиганта по направлению центров обработки данных.

По сути, Google создала компьютер, который знает больше о своих дата-центрах, чем даже инженеры компании. Люди остаются у власти, но Кава сказал, что использование нейронных сетей позволит Google выйти на новые рубежи эффективности своих серверных ферм, выходя за рамки того, что инженеры компании могут увидеть и проанализировать.

Google уже управляет одними из наиболее эффективных центров обработки данных на земле. Использование искусственного интеллекта позволит Google заглянуть в будущее и оценить модели, по которым ее центры обработки данных будут выполнять свои функции в тысячах разнообразных сценариев.

В начале использования, нейронная сеть могла предсказать эффективность потребляемой мощности — PUE — в ЦОД Google с точностью 99,6%. Ее рекомендации привели к повышению эффективности, которое кажется небольшим, но может привести к значительной экономии затрат при работе дата-центров, состоящих из десятков тысяч серверов.

Почему компания обратилась к машинному обучению и нейронным сетям? Основной причиной является растущая сложность ЦОД компании. Это вызов для Google, которая использует датчики для сбора сотен миллионов единиц данных о своей инфраструктуре и использовании энергии.

— В такой динамичной среде, как центр обработки данных, для людей может быть трудно увидеть, как все переменные взаимодействуют друг с другом,- рассказал Кава.- Мы занимались этим (оптимизацией ЦОД) в течение длительного времени. Все решения из очевидного передового опыта, уже реализованы, и нам теперь действительно нужно выйти за рамки.

Нейронная сеть компании Google был создана Джимом Гао, инженер, чьи коллеги дали ему прозвище Boy Genius за его мастерство анализа больших наборов данных. Гао сделал анализ охлаждения с использованием расчетов в области гидродинамики, которые используют данные мониторинга, чтобы создать 3D-модель воздушного потока внутри серверной комнаты.

Гао подумал, что возможно создать модель, которая отслеживает более широкий набор переменных, в том числе ИТ-загрузку, погодные условия и нагрузку охлаждающих градирен, водяных насосов и теплообменников, которые поддерживают серверы Google в рабочем состоянии.

«Одна вещь, в которой компьютеры хороши — это видеть скрытую историю в данных, поэтому Джим взял информацию, которую мы собираем в ходе нашей повседневной деятельности и пропустил его через модели, чтобы помочь разобраться в сложных взаимодействиях, которые его команда — будучи простыми смертными — в ином случае не заметила бы», написал Кава в блоге . «После нескольких проб и ошибок, модели Джима сейчас на 99,6 процентов точны в предсказании PUE. Это означает, что он может использовать их, чтобы придумать новые способы выжать больше эффективности из наших действий».

 

Accuracy-PUE-predictions-47График, показывающий, как проекции нейронного инструмента сети Google соответствуют фактическим показаниям PUE.

Как это работает? Гао начал работать по инициативе машинного обучения в рамках «Проекта 20%» — традиции Google позволять сотрудникам тратить пятую часть своего рабочего времени, исследуя инновации за пределами своих конкретных трудовых обязанностей. Гао еще не был экспертос в области искусственного интеллекта. Чтобы узнать тонкости машинного обучения, он изучил курс от профессора Стэнфордского университета Эндрю Нг.

Нейронные сети имитируют работу человеческого мозга, позволяя компьютеру адаптироваться и «учиться» выполнению задач, не будучи явно запрограммированным для них. Сам поисковый движок Google часто приводится в качестве примера этого типа машинного обучения, который также является ключевым фокусом исследований в компании.

Machine-Learning-Visual-470

— Модель — это ничто иное, как ряд дифференциальных уравнений,- пояснил Кава. — Но вы должны понимать, математику. Модель начинает изучать взаимодействия между переменными.

Первой задачей Гао было обработать данные, чтобы определить факторы, которые имели наибольшее влияние на повышение энергоэффективности центров обработки данных Google, измеряемой как PUE. Он сузил список до 19 переменных, а затем разработал нейронную сеть, которая может анализировать большие массивы данных, чтобы распознавать в ней паттерны.

Что касается аппаратного обеспечения, система машинного обучения не требует высокой вычислительной мощности. Кава говорит, что она работает на одном сервере и может работать даже на десктопе.

Система была введена для работы внутри нескольких центров обработки данных Google. Она смогла предложить ряд изменений, которые дают постепенные улучшения в PUE, в том числе уточнения в миграциях нагрузки центра обработки данных во время модернизации энергетической инфраструктуры, а также небольшие изменения в температуре воды в нескольких компонентов системы охлаждения.

— Фактическое тестирование на ЦОД Google указывает, что машинное обучение является эффективным методом использования существующих данных датчиков для моделирования энергоэффективности дата-центра и может дать значительную экономию средств,- пишет Гао.

Кава говорит, что инструмент может помочь моделированию симуляций, но не волнуйтесь — центры обработки данных компании Google не станут обладать собственным сознанием в ближайшее время. В то время как компания заинтересована в автоматизации и недавно приобрела несколько фирм из области робототехники, новые инструменты машинного обучения не будет принимать на себя управление любым из центров обработки данных.

PRY_16

— Нам все еще нужны люди, чтобы выносить правильные суждения об этих вещах,- сказал Кава. — Я все еще хочу, чтобы наши инженеры постоянно рекомендовали нам что-то.

Большие преимущества нейронных сетей «можно увидеть в том, как Google строит свои серверные фермы в ближайшие годы. Я могу представить себе использование этих технологий в цикле проектирования ЦОД», считает Кава. «Вы можете использовать это в качестве перспективного инструмента для проверки конструктивных изменений и нововведений»

Google делится своим подходом к машинному обучению в специально подготовленном Гао документе , в надежде, что другие операторы высоконагруженных центров обработки данных будут в состоянии разработать аналогичные инструменты.

— Это не то, что только Google или только Джим Гао может сделать,- говорит Кава. — Я хотел бы видеть этот тип инструмента для анализа используемым более широко. Я думаю, что индустрия может извлечь из этого пользу. Это отличный инструмент для повышения эффективности.

Руководство по внедрению технологии нейронных сетей на собственных ЦОД можно изучить здесь.

comments powered by Disqus