SSD для Больших Данных?!

На днях мне довелось ответить на пару вопросов для журнала. Получилась мини-статья, которой я с удовольствием с вами делюсь.
Заранее прошу прощения за несколько официозный тон, принятый для прессы 🙂

Тема, как нетрудно догадаться, касается двух горячих вопросов — Большие Данные и твердотельные накопители. И хочу заметить, что в умах широкой аудитории эти две интересные области пока не связаны напрямую друг с другом. И вот, сейчас этот процесс начинается практически на наших глазах.

Сегодня твердотельное хранение получило широкое распространение в СХД. Возможным преимуществом данной технологии в контексте задач Больших Данных является высокая скорость обмена данных (200МБ/сек и 3500 IOPS на накопитель), которая изменила парадигму хранения. Сдерживающим фактором пока является сравнительно высокая цена, вопрос о которой я затрону во второй половине поста.

Однако, несмотря на цену, технологически мы вступаем в эпоху, когда накопители перестают быть узким местом при обработке данных. Разрыв между хранением и обработкой, сдерживавший человечество последние лет 10-20 резко сократился. Многоядерные процессорные технологии, дополненные скоростными носителями, стали доступны для предприятий широкого спектра.

Это открывает перед производителями ПО обработки данных недоступные ранее возможности — актуальным становится вопрос формирования круга задач и коммерческих решений, которые способны эффективно использовать новые возможности. Т.е. волшебная палочка у бизнеса уже есть — осталось загадать желание. А с этим просто бывает только в сказках.

Теперь, сдерживающим фактором в наращивании производительности СХД становится процессорная мощность контроллеров хранения. Т.е. мы можем использовать хоть 16-ти ядерные контроллеры с SMP архитектурой, но, в конце концов, даже для небольшого количества SSD (например, для 100 штук) контроллеры станут узким местом. Очевидно, что наращивание количества ядер в контроллере по традиционной схеме лишь временное решение. Назрела необходимость в новой архитектуре СХД, оптимизированной для использования твердотельной памяти. Такой архитектурой является scale-out подход (горизонтальное масштабирование), позволяющее добавлять уже не ядра в контроллеры, а неограниченно объединять множество контроллеров хранения для повышения производительности СХД.

Далее, так как SSD очень быстрые, то, начиная с определенного момента, может отпасть потребность в энергозависимой кэш-памяти, и мы смогли бы исключить накладные ресурсы на перекладывание данных между кэшем, и постоянным хранилищем, увеличивая тем самым быстродействие системы хранения.

Кстати, флэш-технология является лишь одним из вариантов реализации solid state памяти. Сейчас все чаще приходится слышать о новом виде твердотельных накопителей, построенных на базе памяти фазового перехода (PCM – phase change memory). Преимуществами PCM накопителей является не только значительно более высокое быстродействие самого носителя, но и отсутствие эффекта «выгорания», с которым пришлось бороться разработчикам флэш-дисков. PCM память уже используется в некоторых мобильных устройствах, так как  хранение на PCM энергонезависимо, обработка данных треюбует гораздо меньше энергии чем флэш, а скорость позволяет устройствам быстро загружаться.

Насколько я вижу, дальнейшее развитие СХД будет идти по направлению совершенствования самих носителей (например, развитие в сторону PCM), будет увеличиваться сама емкость SSD, а так же будет находить все более широкое применение технологии Scale Out и ее оптимизация для применения твердотельных накопителей.

Теперь давайте подумаем о деньгах. Кажется SSD стоят недешево?

Таки да — стоимость за ГБ у твердотельных накопителей сравнительно высокая, поэтому они еще не полностью заменили обычные вращающиеся диски. При этом продвинутые пользователи знают, что у любых накопителей кроме емкости есть другие важные метрики, например, относительная стоимость быстродействия ($ за IOPS, $ за МБ/сек), а так же энергоэффективность (Ватт на операцию).  По этим параметрам твердотельные диски являются самыми экономными, потому что один SSD может выполнять работу почти двух десятков обычных дисков занимая при этом гораздо меньше места, потребляя меньше энергии и стоя при этом как шесть обычных дисков.

П онятное дело, что пока на одном SSD накопителе может быть сохранено меньше информации, чем на механическом диске, и поэтому наиболее эффективно их совместное применение, нашедшее себя в гибридных система хранения. Такие  системы автоматически умеют определять какие данные наиболее выгодно положить на быстрые SSD, а какие на медленную механику.

Разумная автоматизация хранения в сочетании разными типами носителей позволяет добиться повышения производительности СХД для широкого класса задач, и вместе с этим, снижения стоимости хранения по сравнению с традиционными носителями. Это неочевидно, поэтому я поясню мысль на несколько наивном, но зато простом примере 🙂

Пусть вам нужно 100 тысяч операций в секунду (IOPS) и 100ТБ сырой емкости.
Планируя дизайн системы нужно выбрать сначала конфигурацию по производительности и посчитать, сколько для этого нужно дисков.
При быстродействии диска 300ГБ 15к
rpm около 180 IOPS, нам нужно 560 дисков и 168ТБ сырой емкости, из которых 68ТБ – лишние, но вы вынуждены их покупать.

Решение на гибридной СХД будет содержать 5% флэш-памяти, которая будет кэшировать наиболее активно опрашиваемые данные, а оставшиеся 95% можно сохранить на самых экономичных носителях – NL-SAS, которые заведомо дешевле, чем 15к rpm диски.

При быстродействии одного SSD около 3500 IOPS получаем 30 SSD для обеспечения 100000 IOPS. Размер выбираем исходя из необходимости обеспечения 5ТБ емкости, т.е. 200ГБ SSD. Оставшиеся 95ТБ размещаем на 95 дисках NL-SAS 1 ТБ.

200 ГБ SSD диск стоит примерно как 6 дисков 300ГБ 15к rpm.

1000 ГБ NL-SAS диск стоит примерно как 1 диск 300ГБ 15к rpm.

Сравнение двух решений приведено в таблице ниже:

  560 дисков 300ГБ 15к 30 дисков 200ГБ SSD +

95 дисков 1ТБ 7.2к

Выигрыш гибридной СХД
Сырая емкость 168ТБ 101ТБ
Производительность 100000 IOPS 100000 IOPS
Место в стойке 4 шкафа 1/2 шкафа 8 раз
Энергопотребление 9.91 kVA 2.63 kVA 3.8 раз
Тепловыделение 30,100 Btu/hr 8,000 Btu/hr 3.8 раз
Контроллер СХД VNX 7500 VNX 5700 Дешевле лицензирование и контроллер
Относительная цена дисков 560 отн. единиц 30*6+95=275 отн. единиц На 50% дешевле

Понятно, что вводные данные и цены на диски могут варьироваться, но суть остается прежней – во множестве случаев гибридные СХД позволяют сделать использование SSD экономичным, выгодным и эффективным по множеству параметров.

При современном росте объемов данных и требований к производительности гибридное хранение является незаменимым подспорьем для повышения быстродействия и эффективности хранения. Поэтому оно принято на вооружение почти всеми ведущими производителями СХД – EMC, IBM, HP, HDS, и др.

Другим методом повышения экономичности СХД, в том числе и твердотельных, является технология виртуализации хранения, и выделения емкости по требованию (Thin Provisioning). Это позволяет исключить явление over provisioning, когда емкость СХД резервируется за каким-либо приложением, но реально не используется. В результате over provisioning-а многие старые СХД хранят на более чем половине своей емкости пустые блоки. При этом пустые блоки нельзя использовать нигде больше. При помощи тонкого выделения ресурсов вся выделяемая емкость будет гарантированно использоваться, а все пустые блоки будут свободны для перераспределения между любыми серверами в вашем окружении.

Еще один механизм повышения экономической эффективности – дедупликация. На твердотельных носителях эта технология может успешно применяться не только для бэкапа (как это делается в системах с механическими дисками), но и для дедупликации высокоактивных производственных данных. Это позволяет снизить объем физически хранимых данных в разы, нивелируя тем самым кажущуюся дороговизну SSD.

Тонкое выделение ресурсов и дедупликация – позволяют эффективно использовать емкость, но обратной стороной этих технологий являются накладные расходы, и поэтому находят ограниченное применение. Однако, по мере увеличения мощности процессоров, и технологий горизонтального масштабирования scale out, они могут стать де-факто стандартами хранения Больших Данных на SSD.

Денис Серов

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s