Big Data

Большие данные: что это означает для инфраструктуры центра обработки данных

Сегодня, мы собираем и храним данные из множества источников, в том числе мобильных устройств и автоматических датчиков, интернет-транзакций или активности в социальных медиа. Нужды программного обеспечения всегда ведут к усовершенствованию аппаратных средств. В этом случае, «большие данные» со всей их мощью, являются движущей силой развития устройств хранения, сетевой инфраструктуры и новых способов выполнения постоянно растущих вычислительных задач. Наиболее важным аспектом инфраструктуры аналитики «больших данных» является хранение.

Емкость

Данные, превышающие по размеру петабайт (10·15 байт или 1024 терабайта), считаются «большими данными». К примеру, Google оперирует примерно 24 петабайтами ежедневно. Количество данных, быстро возрастает, поэтому системы хранения должны быть масштабируемыми, а также гибкими, чтобы вся система не падала при увеличении объемов хранения. «Большие данные» используют огромное количество метаданных, поэтому традиционные файловые системы не могут поддерживать их. Для того чтобы уменьшить влияние масштаба, необходимо использовать объектно-ориентированные файловые системы

Задержка

Аналитика больших данных включает в себя отслеживание данных социальных медиа и транзакций, что требует тактического принятия решений в режиме реального времени. Таким образом, система хранения «больших данных» не может допустить большую временную задержку, иначе вы рискуете работать с устаревшими данными. Некоторые приложения могут требовать данных в реальном времени для немедленного принятия решений. Системы хранения должны иметь возможность масштабирования без ущерба для производительности, что может быть достигнуто расширенным внедрением твердотельных накопителей.

Доступ

Аналитика «больших данных» используется между различными платформами и хостинговыми системами. Это обусловливает необходимость связывания воедино «перекрестных», взаимосвязанных данных, чтобы дать вам общую картину. Следовательно, система хранения должна иметь возможность обрабатывать данные из различных систем одновременно.

Безопасность

Из-за необходимости использования «перекрестных» данных на совершенно новом уровне, требуются более сложные и продвинутые решения безопасности по сравнению с существующими ИТ-сценариями. Системы хранения должна быть в состоянии справиться с новыми требованиями уровня безопасности без ущерба для масштабируемости или величины задержки.

Стоимость

«Большие данные» — большая стоимость. Самым дорогим компонентом аналитики «больших данных» является хранение. Проверенные методы — исключение дупликации данных, регулярное резервное копирование, спроектированная избыточность системы для сопротивления пиковым нагрузкам и создание собственных аппаратных средств, вместо использования первых попавшихся на рынке устройств хранения — может значительно снизить затраты.

Гибкость

«Большие данные» обычно предполагают приложения бизнес-аналитики, которые требуют интеграции и миграции данных. Учитывая масштабность «больших данных», система хранения должна быть исправлена в случае неполадок и простоев без необходимости переноса данных. Одновременно от нее требуется достаточная гибкость, чтобы работать с различными типами и источниками данных, опять же без ущерба для производительности и задержки.

Проявляйте осторожность, рассматривая все возможные текущие и будущие сценарии использования при проектировании и внедрении системы хранения.

comments powered by Disqus