Суперкомпьютер на базе DSSD — самый быстрый в генной индустрии (updated)

wranglerРедко какой технологический продукт выходит на рынок будучи уже открыто признаным чемпионом. Но DSSD, похоже, будет исключением. Еще до начала маркетинговой кампании проект с этой системой без особого шума получил премию HPCWire.

Показатели в 12ГБ/сек и 2 млн IOPS на один суперкомпьютерный узел, это только для затравки. Потому что дальнейшее масштабирование предполагает наращивание до многих десятков узлов. Премия суперкомпьютерного сообщества была вручена самому быстрому генетическому суперкомпьютеру Wrangler, созданному в Техасском Вычислительном Центре (TACC).

Давайте посмотрим немного поближе на этот суперкомпьютер и на DSSD D5 в нем.

На нижеприведенной схеме быстрый флэш находится в нижнем левом углу. Заложенная проектная производительность составляет 1ТБ/сек и 250 миллионов IOPS. Как я понял из презентации, использовалась одноконтроллерная версия D5, но не в единичном экземпляре. Конкретное количество систем мне из презентации непонятно, но их не более 96 штук. То есть, на 1 контроллер приходится порядка 2-2.5 млн IOPS. А насчет двухконтроллерной версии в презентации сказано, что ожидается увеличение производительности. М.б. в 2 раза, то есть, до 4-5 млн IOPS. Но это лишь мои оценки.

dssd@wrangler

Кстати, не без удовольствия хочется отметить, что сервера в суперкомпьютере — производства Dell.

dell.JPG

Интересно еще, что хотя подключение серверов к системе хранения осуществляется по PCI Express, но привязки к какому-то одному вычислительному узлу не происходит. Достигнуто это, по всей видимости, при помощи параллельной файловой системы GPFS.

DSSD_in_TACC

Производительность, которую может получить от этой системы один сервер не является узким местом. Это важно не только для суперкомпьютеров, но и для высокопроизводительных СУБД. Я полагаю, что поставщики In-Memory СУБД будут в полном восторге.

dssd2

Инженеры Wrangler использовали параллельную файловую систему GPFS для того, чтобы организовать быстрое флэш хранилище, доступное всем вычислительным узлам одновременно.

wrangler storage

Перспективными областями применения, по заключению специалистов TACC,  являются

  1. Постоянные БД с высокой нагрузкой, а также высоконагруженный web backend
  2. Временные БД, как SQL так и noSQL
  3. Традицонные приложения с высокой нагрузкой
  4. Задачи Hadoop с большой нагрузкой
  5. Биоинформатика — работа с большими наборами данных в преимущественно последовательном режиме

use cases

Отмечается еще, что DSSD, используемый в суперкомпьютере Wrangler, представляет собой не просто полки с SSD, а массив из более 100 тысяч NAND флэш микросхем. И в том числе благодаря этому удается достигать коллосальных скоростей параллельной работы с большим объемами данных.

И, в заключение, не могу привести цитату из презентации:

Many Data Researchers want to work with Data not <optimaly>

 –“What’s wrong with creating 4 Million 1K files and working with them at random?”

Источники:

Оригинал презентации  Wrangler: A New Generation of Data-intensive Supercomputing

Видеозапись презентации про Wrangler:

Другие источники (Updated):

  1. Why TACC’s New Data ‘Wrangler’ Is a Big Deal
  2. Texas HPC cowboys win award for data-nomming flashy Wrangler
  3. TACC Recognized in HPCwire Readers’ and Editors’ Choice Awards
  4. WRANGLER GROUNDBREAKING DATA INTENSIVE COMPUTING

 

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s