Статьи
Май 11, 2011

Свежий взгляд на управление стоимостью хранения данных. Часть I.


  

Скачать PDF

Simon Piff
Февраль 2011

ООО “ИНФОСТОР”  (перевод на русский язык)
Часть I


М н е н и е  э к с п е р т о в

В 2010 году вопросы хранения данных обрели большую значимость для директоров  компаний, отвечающих за информационные технологии. Это было обусловлено, в основном, начавшимся выходом из глобального экономического кризиса 2009 года, который выявил со всей очевидностью главную тенденцию, касающуюся хранения данных – рост их объема продолжается, несмотря на ситуацию на рынках.

Это понимание стало очень болезненным для многих руководителей IT подразделений, которые вынуждены теперь добиваться увеличения бюджета на приобретение все новых хранилищ в условиях, когда обороты снижаются. Как следствие, теперь они должны уделять гораздо больше внимания, чем раньше, стратегии, экономике и вопросам администрирования хранилищ, и с этого начинаются значительные изменения в представлениях о стратегии хранения данных вообще.

Появилось множество новых вызовов к ранее столь понятной технологической концепции. Рассмотрим основное назначение хранилища: безопасно и без потерь хранить данные и обеспечивать их доступность для любого приложения или пользователя в желаемое время. Может показаться, что это очень простая задача, но в современном взаимосвязанном мире данные могут потребоваться кому угодно и где угодно, причем пользователь обычно рассчитывает получить их в течение нескольких миллисекунд. Сложите это с безопасностью и конфиденциальностью, добавьте немного законодательства и умножьте то, что получилось, на рост объема данных, который оценивается в 50% за год. Теперь понятно, что проектирование, развертывание и администрирование систем хранения становится гораздо более сложным делом, и руководители IT подразделений  находят его гораздо более интересным, чем ранее.

В  Э Т О Й  С Т А Т Ь Е

В этой статье обсуждаются причины все ускоряющегося роста объемов данных организаций и анализируются технологические подходы, которые могут помочь IT подразделениям управлять затратами, связанными с необходимостью обеспечения большей эффективности хранилищ.

Понимание того, что движет ростом объемов данных, проблем, вытекающих из существующей практики подготовки к работе новых хранилищ и экономических последствий слабого их использования на большинстве предприятий, поможет найти правильный подход при организации новых хранилищ, особенно в свете изменений в динамике развития экономики и маячащей впереди угрозы потери контроля над хранилищами.

Предметом главных забот об инфраструктуре хранилища для IT подразделений компаний является:

· Обеспечение доступности приложений и данных

· Cокращение простоев, как плановых, так и внеплановых

· Обеспечение безопасности данных и их целостности

· Снижение первоначальных вложений и последующих затрат, связанных с
хранилищем

· Управление ресурсами хранилища и уровнем их использования

· Устранение трудностей в окружении хранилища

Все эти вопросы - предмет особой заботы IT подразделений, и если для них не найдены правильные решения, это может стать препятствием для нормального ведения бизнеса. Так как многие IT подразделения занимаются именно этими вопросами, мы начинаем понимать, как много проблем возникает, когда приходит время увеличить емкость хранилища, будь то для новых приложений, или в связи с ростом объема данных существующих приложений или пользователей.

О Б З О Р  С И Т У А Ц И И

Взрывной рост объемов данных и недоиспользуемая емкость

Давайте рассмотрим, как обеспечивается работа новых приложений во многих случаях. Для начала определяются болевые точки и подыскивается подходящее решение, которое способно удовлетворить возникшие требования. Затем это решение доводится до уровня обслуживания, установленного техническим заданием. С перспективной точки зрения основными моментами являются постоянная готовность данных, их целостность и безопасность. Для того, чтобы обеспечить готовность данных, IT отделы организации первым делом решают, какой объем дискового пространства будет выделен конкретному приложению. При этом учитываются текущие потребности, плюс оценка будущих запросов.

Именно отсюда и начинается неэффективность, поскольку все это - только оценки, нет никакой гарантии, что выделенная с избытком емкость будет когда-нибудь использована. К тому же, нет никакой необходимости с самого начала распределять емкость сверх всяких пределов, чтобы приложения работали именно так, как ожидалось, а емкости хватало бы для роста объема данных. Посмотрим, как будет чувствовать себя IT персонал, если приложение затормозит или вообще прекратит работу из-за недостатка емкости хранилища. Влияние на ход бизнеса будет огромным, соответственно, действия в отношении ответственных за это личностей, скорее всего, будут крайне жесткими, поэтому неудивительно, что сверхвыделение емкости есть не просто проявление сверхосторожности отдельных личностей, а, во многих случаях, систематическая процедура, часть стандартного производственного процесса. По мере добавления новых приложений это сверхвыделение емкости продолжается, и именно таким образом, что неиспользуемое дисковое пространство становится запертым для других устройств. Как следствие, в последние месяцы наметился рост объемов неиспользованного и, что более важно, неиспользуемого дискового пространства. Это и есть те дополнительные непроизводительные затраты в IT, которыми пришло время заняться.

Вопросы целостности данных

Вторая причина для беспокойства IT отделов - целостность данных. К обеспечению целостности можно подходить разными путями, для наглядности давайте предположим, что данные уже находятся в среде хранения. Одно из наиболее традиционных решений - резервная среда. Это означает, что просто создается копия хранящихся данных, в идеале на самом дешевом носителе, но таким способом, который может обеспечить простое и относительно быстрое восстановление, если источник первичных данных выйдет из строя.

Так что теперь мы имеем, по крайней мере, две копии одних и тех же данных. Мы говорим "по крайней мере", так как всегда существует вероятность, что размножение данных выйдет из-под контроля. В случае, когда приложение имеет дело с транзакциями, и большинство данных генерируется самой системой, вероятность создания идентичных копий первичных данных невелика, однако, если имеется возможность вмешательства пользователя, то всегда существует и вероятность появления нескольких копий наборов данных. Один из примеров - система взаимодействия с покупателями, где один из сотрудников, занимающихся аккаунтами, создает аккаунт для какой-либо компании, а второй пользователь не может легко найти его и создает дубликат аккаунта со вторым входом в систему. Правда, когда возникает эта ситуация, влияние на увеличение объема данных будет минимальным, так как обновление активности аккаунта и контактов, скорее всего, ограничится одним случаем и одной записью.

Где на самом деле нарастание количества дубликатов данных можно выпустить из рук, так это область хранения данных с файловой организацией, причем в тех организациях, где экономическая рецессия действительно приводит к увеличению объема данных. Возьмем, к примеру, сотрудника отдела маркетинга. Маркетинговые исследования обычно начинаются с анализа данных, чтобы понять, что же происходит на рынке, и, в идеале, предсказать, где могут появиться новые возможности для продвижения продуктов или услуг. Табличный анализ требует очень интенсивной работы с данными, в результате появляются новые данные в виде итоговых форм и прогнозов. Во многих организациях эти итоговые документы затем превращаются в те или иные виды презентаций, которые, в сегодняшних условиях, могут быть очень насыщены данными и медиа-контентом, что, в свою очередь, увеличивает размер файла. Если презентация адресована большой аудитории, всегда находятся отделы, которые захотят сделать из нее более подробный документ с комментариями, которые позволяют проследить ход мыслей при выработке презентуемых решений. На каждом из этих этапов создаются новые файлы данных, которые надо где-то сохранять. Во многих организациях исходные документы хранятся на жестких дисках рабочих станций или ноутбуков. Затем эти данные копируются, как часть стандартной IT процедуры, на устройства хранения общего доступа в инфраструктуре организации.

Именно здесь, где файлы данных становятся общими, наблюдается наибольшее их разрастание. Наиболее распространенный инструмент для обмена данными с файловой организацией - электронная почта, и мы можем видеть, как каждый из документов, созданных отделом маркетинга, впоследствии размножается в почтовой среде. Это продолжается непрерывно, так как все больше пользователей размещают копии этих документов на жестких дисках своих компьютеров, а затем копируют их на резервные устройства по стандартной IT процедуре. В процессе создания и редактирования документов они, скорее всего, умножаются в числе (с минимальными отличиями), так что копии одних и тех же файлов сохраняются, пересылаются и снова сохраняются по всей организации.

На этом примере мы можем видеть, как одно какое-то действие может привести к появлению многих копий одного и того же документа у всех заинтересованных участников, которые так или иначе участвуют в процессе и, конечно же, захотят сохранить всю информацию о нем.

Если теперь учесть еще и текущую ситуацию, обусловленную экономической рецессией, а также попытки бизнеса найти пути для роста в условиях падающих рынков, или, хотя бы, средства для снижения расходов, то понятно, что количество циклов создания все новых и новых копий данных возрастает.

Тенденция консолидации датацентров

Еще одно обстоятельство, которое следует учитывать при более глубоком анализе инфраструктуры хранилища - нарастающая тенденция консолидации датацентров, подталкиваемой множеством факторов, включая серверную консолидацию и виртуализацию, а также, в некоторых регионах, стремление снизить электропотребление, либо из экономии, либо по причине плохого энергоснабжения. Осуществление программ консолидации датацентров ведет к возрастанию требований к SAN. В то же время, от IT администраторов требуется обеспечить многоцелевое использование хранилищ и пулов общего доступа для сильно отличающихся приложений. Конечно, всегда останутся приложения, которые требуют выделенного хранилища (например, главные системы банков или платежные системы, где готовность данных, их целостность и безопасность есть ключевые элементы существования бизнеса), хотя и в этой среде имеется возможность критически проанализировать существующую практику и решить, действительно ли хранилище используется оптимально, как теперь того требует изменившаяся экономика IT сектора.

Вопросы управления данными

Влияние всех этих данных на производственные процессы усложняет также и администрирование. В этом отношении основное внимание должно быть обращено на то, чтобы нужные данные были доступны в нужное время и нужной аудитории, а теперь еще и с оговоркой: эффективно.

Вполне обычная, хотя и неразумная практика - хранить все имеющиеся данные на одном первичном хранилище, на уровне 1. Почему следует поступать именно так, казалось вполне оправданным на заре развития IT технологий, когда все данные сохранялись в одном месте и управлялись одной системой, с резервным копированием и архивированием по одним правилам.  Однако, изменение типа данных и их ценности со временем, вместе с изменениями в доступных технологиях, сделали этот подход как непродуктивным, так и неэффективным. Когда все данные были структурированы и умещались в несколько гигабайтов, этот подход оправдывал себя, но сегодня ни то, ни другое не соответствует действительности. В настоящее время большая часть данных и большая часть их прироста представляет собой неструктурированные данные, и их доля стремительно растет. Большинство мировых компаний сегодня измеряют объем своих данных в петабайтах, размер некоторых файлов (видео и аудиоконтент) лежит в мультигигабайтном диапазоне и старые рабочие процедуры больше неприменимы.

Понятие уровней хранения данных возникло как ответ на вопрос о стоимости и эффективности управления данными. Уровень 1 - это обычно самая дорогая категория, он соответствует критичной для данного бизнеса информации. Данные уровня 2 хранятся на менее дорогих (и, вероятно, более емких) дисках, за этим уровнем следует резервное копирование и архивирование, которые завершают иерархию уровней. В некоторых случаях появляется уровень 0 на твердотельных дисках (SSD), для сверхкритичных данных, там, где ценность информации (и, что более важно, скорость доступа к ней) важнее для организации, чем высокая стоимость твердотельных устройств.

Однако в этом многоуровневом подходе потенциально таится некая опасность, которая заключается в том, что приходится вручную перемещать данные с уровня на уровень и, несмотря на то, что в результате геройских усилий удастся сберечь целый день, значительная часть ценности данных (и, что еще хуже, часть самих данных) может быть утрачена, если этот процесс не автоматизировать. Следовательно, автоматическое распределение данных по уровням и управление данными есть еще одна тема, которая должна быть в первых пунктах планов развития руководителей компаний и IT отделов и определять стратегию их действий.

Новая забота - управление мощностью потребления

В последние 18 - 24 месяца в датацентрах возник еще один предмет для озабоченности - потребление энергии. В развитых экономиках США и Европы это не только вопрос собственно энергоснабжения, но и также и вопрос влияния датацентров га окружающую среду. В Азии это комбинация стоимости электричества и невозможности в некоторых странах, как, например, в Китае, подвести требуемую мощность к датацентрам - это ограничивает возможности последних.

Реагируя на эти реальные трудности в США и Европе и скрытые трудности в Азии, многие производители сейчас вкладывают сюда средства, чтобы добиться большей эффективности аппаратуры, и системы хранения - не исключение. Имея в виду миллионы вращающихся дисков, потребляющих энергию, эта отрасль представляет интерес для многих организаций, в некоторых случаях даже независимо от того, нужны ли им сами диски и данные на них. Хотя сегодня не так уж важно быть в верхней части списка “нужно иметь” при новых закупках, однако было бы очень недальновидным для организаций не планировать получить максимальную энергоэффективность - в терминах потребляемой мощности и ограничений, связанных с охлаждением - от любой рассматриваемой системы хранения. Учитывая, что многие IT организации начинают выходить “за черту” в затратах на электропитание датацентров, а также неуклонно уменьшающиеся IT бюджеты, этот вопрос становится все острее с течением времени.

 

Полный текст статьи вы можете скачать в виде pdf файла:

Скачать PDF



все статьи

 
     Разработка сайтов РуСофт © 2026 ИНФОСТОР. Все права защищены.