Большая Игра в Большие Данные

Поле битвы – Big Data

Большие объемы данных требуют новых подходов к хранению и обработке, и эта истина осознана давно. Пока традиционная архитектура позволяла худо-бедно решать задачи, проблему удавалось маскировать, не выделяя в отдельный класс, поэтому материальной сущностью Большие Данные стали лишь с выходом на рынок технических решений со специализированной архитектурой, созданной именно для данного класса задач.

Аналитика Больших Данных сегодня привлекает большое внимание — крупные поставщики, включившись в борьбу, рассаживаются по вагонам уже отправившегося поезда. Кто-то с комфортом едет в премиум классе, а кто-то рад и сидячей плацкарте. Те кто в поезд не сел — догоняют на оем-дрезинах.

Аналитика имеет дело с базами данных, но в Аналитику Больших Данных теперь играют компании, которые недавно не имели отношения не только к аналитике как таковой, но и вообще к базам данных.

Стратегии игроков

Неизвестно пока кто имеет больше преимуществ в игре. Дело в том, что согласно мнению аналитиков, традиционные СУБД не могут так же успешно справляться с Аналитикой Больших Данных, как специализированные СУБД.

Так это или нет, для меня лично, пока вопрос открытый. Я вижу большое количество проектов, где проблему продолжают достаточно успешно решать «по-старинке», а многообещающие инновационные подходы натыкаются на грабли и детские болезни. Но есть бесспорные тенденции

1) Неуклонный роста объемов данных
2) Растущие требования к скорости обработки
3) Большой интерес к обработке неструктурированных данных, noSQL, Hadoop
4) Все более ярко проявляющиеся архитектурные ограничения традиционных подходов.

Активное участие в игре Oracle абсолютно понятно — супермонстру на рынке корпоративных СУБД и аналитики до Больших Данных один шаг. IBM тоже можно засчитать за игрока на рынке СУБД — во-первых, это IBM, а во-вторых, у них есть DB2.

А вот такие компании как HP, Dell и EMC – новички на этой поляне, они не разрабатывали СУБД, и стержневой экспертизы в данном направлении традиционно не имели, сотрудничая в данной сфере с производителями и поставщиками соответствующего ПО – Oracle, IBM, SAP, Sybase, итд.

В результате, чтобы быстро включиться в борьбу за Аналитику Больших Данных, была выбрана стратегия приобретения соответствующей технологии на рынке или партнерства с ключевыми игроками:

EMC купила Isilon и Greenplum
HP купила IBRIX, Vertica и Autonomy
Dell выбрал модель сотрудничества с компаниями Cloudera, Pentaho и Rainstor.

У HP и Dell, конечно же, свои красивые истории, что же касается EMC, то могу рассказать подробнее.

От хранителя до мудреца …

Чисто по человечески, включение эксперта по хранению в игру Аналитики Больших Данных, выглядит абсолютно логично. Кому же еще, править миром Аналитики Больших Данных, как не их главному Хранителю? А что понятно на интуитивном уровне, то работает и на рынке.

Есть множество успешных подтверждений правильности стратегии присоединения к основному бизнесу родственно-смежных сегментов – Google начинался как поисковик, Amazon как интернет-магазин, Oracle как производитель СУБД. Да и EMC начиналась с СХД высшего уровня, а сейчас является не только активным игроком, но и лидером в СХД высшего, среднего класса и устройств резервного копирования, но и борется за лидерство в защите данных, информационной безопасности, управлении контентом и ИТ инфраструктурой. Вот дошло время и до СУБД и аналитики.

Главное не промахнуться с технической реализацией бизнес-идеи. И вот тут как раз могут быть нюансы…

Большие Данные и Большая Пропасть

Стратегия, которую выбрала EMC для освоения этой вкусной, но новой поляны – глубокий охват. Необходимость двустороннего подхода вызвана тем, что между хранением Больших Данных и их аналитикой лежит настоящая пропасть. Примерно такая же, как между кладовщиком и библиотекарем.

Хранение данных – это IOPS и МБ/сек, Терабайты и даже Петабайты, а аналитика – это SQL, SELECT и table scan.
Соответственно, для охвата проблемы выбраны два генеральных направления – Хранение Больших Данных (Isilon) и Аналитика Больших Данных (Greenplum).

Резонный вопрос «Почему нельзя было совместить оба направления и обеспечить аналитику Больших Данных прямо на месте их хранения?».

Все очень просто – сначала было просто хранение данных, а обработка и анализ выполнялись на серверах. Поэтому анализ на уровне внешних хранилищ довольно инновационен.

Да и вообще, к анализу структурированных и неструктурированных данных (разнотипные файлы и таблицы СУБД) в настоящее время два разных подхода – SQL и noSQL. Первый хорошо изучен и отработан. Второй – активно развивается в наши дни. В перспективе они должны соединиться, и тогда будет «все вместе». Такая тенденция уже начала постепенно проявляться, и пропасть постепенно как бы «мелеет».

И вот, настало время раскрыть технологические сходства и различия архитектуры двух направлений.

Сходства и различия архитектуры двух направлений
Единство и борьба противоположностей…

Различия

Специализация Isilon – бесконечно масштабируемая кластерная файловая система для скоростной обработки файлов. Протестированный объем – более 15ПБ, производительность Specfs – более 1 млн IOPS.

Специализация Greenplum – бесконечно масштабируемая кластерная СУБД для высокоскоростной аналитики. Ее характеристики – чуть меньше 12ПБ с компрессией, и скорость сканирования данных 336 ГБ/сек.

Это две принципиально разные программные платформы, разрабатывавшиеся под разные задачи.

Isilon это иерархическое хранение файлов с большой скоростью отдачи наружу, здесь клиентам нужна большая скорость подачи информации. Это, например, медийные приложения, 3D моделирование, геологические, сейсмические приложения, и прочие. Здесь нашему брату все интуитивно понятно. Здесь оправдано и применение технологии автоматизированного многоуровневого хранения, и перемещению больших объемов данных между узлами дается больших приоритет — внутренний интерконнект Isilon — Infiniband.

А Greenplum – это СУБД с большой скоростью внутренней параллельной обработки данных при помощи встроенного распараллеливания SQL запросов, поступающих от клиентов. Здесь клиентам не нужна большая скорость подачи «сырых данных», а нужен лишь конечный ответ на запрос. Например, выборка SQL SELECT с определенными параметрами. Причем выборка может состоять из вложенных SELECT-ов, со сложной промежуточной табличной и даже математической обработкой хранимых данных.

Кстати, тут многоуровневое хранение не работает, потому, что сканирование затрагивает более-менее в равной степени все слои данных, от самых старых, до самых свежих. Так что хранение данных для аналитических СУБД должно быть организовано по традиционному плоскому типу. Иерархическое хранение для Аналитики не применимо. В этом мы уже успели убедиться на своем опыте.

Перемещение данных между узлами по возможности минимизируется за счет интеллектуального распараллеливания обработки данных таким образом, чтобы они обрабатывались внутри узлов без межузловой передачи. Это позволяет снизить объемы трафика, и требования к интерконнекту. Поэтому в Greenplum для объединения кластера можно использовать 10Gig Ethetnet.

Сходства

1) Два этих продукта имеют главную общую черту — масштабируются практически бесконечно и линейно.
2) Достигается это за счет того, что в основе их архитектуры обоих лежат многоузловые высокомасштабируемые и высоконадежные кластера,
3) Обе архитектуры построены на базе универсальных узлов (модулей) x86 архитектуры, отвечающих как за хранение, так и за обработку данных, и использующих DAS архитектуру. Сделано это для того, чтобы исключить узкие места на дисках и дисковых контроллерах.
4) Наращивание характеристик – емкость и производительность – выполняется путем добавления универсальных узлов.
5) Производительность растет строго пропорционально количеству добавляемых узлов. Это называется линейным масштабированием (scale-out), которое является неотъемлемым свойством scale-out архитектуры.
6) Модернизация выполняется в онлайн-режиме и не требует даунтайма.
7) Отказоустойчивость обеспечивается на уровне RAIN (Redundant Array of Independent Nodes) – когда резервирование происходит не только на уровне дисков, но и на уровне узлов.

Стратегия развития Игры

Для стороннего наблюдателя может показаться, что наступление EMC по обоим направлениям развивается как бы параллельными путями. Но это уже не так. Два ранее независимых продукта уже начали взаимную интеграцию друг с другом через то пространство, которое является «темной материей» цифровой вселенной – неструктурированные данные. Начиная с конца прошлого года в Isilon была незаметно анонсирована поддержка файловой системы Hadoop, являющейся основой аналитики MapReduce.

Таким образом, уже сейчас у EMC в портфеле продаваемых продуктов есть уникальное на рынке коммерческое аналитическое решение, сочетающее в себе свойства продукта корпоративного класса, и перспективы разработки сообщества ПО с открытым исходным кодом для массово-параллельной обработки практически не ограниченного объема любой информации вплоть до масштаба Интернета.

У меня есть ощущение, что интеграция Isilon и Greenplum будет продолжаться. Ведь оба продукта построены на стандартной архитектуре, и вопрос лишь в степени их будущего взаимного проникновения. Возможно, оно будет полным, или появится некий гибрид с разделением ролей узлов.

Во всех этих рассуждениях есть только одно «но» — в портфеле EMC нет решений для непосредственно интеллектуального анализа Больших Данных, и расчет делается на альянс с такими лидерами как SAS Institute, Microstrategy и многие другие. По аналогиии с миром серверов, EMC расчитывает на широкое сотрудничество с поставщиками конечных бизнес-приложений, некоторым из которых, может быть, еще только предстоит появиться на свет.

Что имеем в сухом остатке

Группа решений класса «Большие Данные», стала качественно новым технологическим ответом на рост Цифровой Вселенной. Все мировые ИТ лидеры обзавелись своими продуктами в портфелях, за счет приобретений инновационных технологий созданных для данного класса задач, либо за счет «прокачки» традиционных решений до более мощного уровня.

Решения EMC в данном направлении состоят из сверхмасштабируемого Хранения (Isilon)и Аналитики (Greenplum), построенных на базе x86 архитектуры, неуклонно вытесняющей проприетарные разработки.

Деление на две ветки позволяет EMC охватить максимальный спектр задач из области Больших Данных. Однако, продукты имеют не только общую аппаратную архитектуру, но и множество схожих архитектурных свойств. Между ними происходит постепенная интеграция и взаимное проникновение.

Главная ставка делается на массово-параллельную обработку неструктурированных данных, где пока наблюдается низкая наполненность полноценными коммерческими решениями, поэтому у EMC есть все шансы стать лидером не только в Хранении Больших Данных, но и их Аналитике.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход / Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход / Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход / Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход / Изменить )

Connecting to %s