Hadoop становится мейнстримом

Hadoop – яркий представитель новых технологий, задуманный сообществом open source, Google, Yahoo и другими. Появление этого фреймворка обещало долгожданное решение проблемы больших данных. В перспективе этот  проект может захватить все предприятия, учитывая удачный старт - многие компании из списка Fortune 500, включая eBay, Bank of America и JP Morgan, экспериментируют с развертыванием Hadoop. Вот 5 ключевых факторов, по мнению венчурного инвестоа Мэтта Ховарда из Norwest Venture Partners, почему Hadoop станет мейнстримом 2012 и 2013 года.

1. SQL обеспечивает “быструю передачу” в Hadoop

Первое препятствие, которое должен преодолеть Hadoop, связано с его происхождением. Как продукт open source, Hadoop и его многочисленные собратья воспринимаются традиционными IT поставщиками с опаской, пренебрежением и общим неприятием. Не зависимо от потенциала Hadoop, есть угроза, что инвестиции хлынут не в их русло, а в дорогие приложения и приоприетарные технологии. Хотя есть научное доказательство того, что открытый код не уступает по качеству проприетарному.

Интерфейс SQL может стать мостом между будущими, настоящими и наследуемыми технологиями. Организации уже покупают инструменты Hadoop, которые предлагают различные уровни совместимости SQL. Open source SQL интерфейс для Hadoop Hive – хороший старт для более глубокой поддержки SQL. В ближайшие полтора года это может инициировать намного более широкое развертывание Hadoop.

2. Большой рост производительности Hadoop

Одной из главных причин использования Hadoop является его чрезвычайная масштабируемость. До настоящего времени та масштабируемость часто сопровождалась существенными потерями производительности, включая издержки запросов MapReduce и уровень хранения, который требует общего сканирования по файловым системам.

К счастью, вся индустрия Hadoop — включая быстро распространяющуюся группу стартапов (Cloudera, Hadapt, Hortonworks, MapR), инновационное open source сообщество, и такие признанные поставщики, как IBM, — упорно занимаются этими проблемами производительности. Грядущий Hadoop v0.23 и последующие выпуски будут включать усовершенствования, увеличивающие производительность, включая основную производительность файловой системы, минимальную задержку работы MapReduce, и производительность высокоуровневых интерфейсов запросов (например, Hive, Apache Pig).

3. Hadoop становится более надежным

Чтобы избежать единой точки отказа, Hadoop должен обратить внимание на топологию и проблемы развертывания, оставшиеся от его первоначальной реализации. Hadoop использует главный узел, чтобы отследить данные и определить, как получить доступ к ним. Если этот "мозг" потеряет работоспособность, все может оказаться в опасности без корректной топологии и избыточности. За некоторое время сообщество Hadoop сделает улучшения этой области. Cloudera, Hortonworks, MapR и другие коммерческие поставщики уже отреагировали на это.

 4. Появляются основные тематические исследования

Hadoop - массовое явление, которое появилось в социальных сетях и потребительском мире интернет. И как всегда, есть ранние последователи, которые идут по лезвию ножа, и есть более консервативные организации, наблюдающие за пионерами со стороны.

В 2011 году, использование Hadoop было на уровне эксперимента. Сейчас, эксперты считают,  что Hadoop находится на краю переломного момента - перехода от экспериментов до принятия. В результате, люди, использующие Hadoop сегодня, учатся на уроках, извлеченных пионерами.

В 2012 и 2013 году, будут появляться все больше новых тематических исследований и лучшие практики использования технологии Hadoop, способствующие его развертыванию в корпоративной среде.

5. Архитектура Hadoop развивается

Приложения Hadoop обрабатывают огромное количество данных параллельно с помощью множества компьютеров, полагаясь на MapReduce, как распределяющую платформу. В настоящий момент Hadoop сильно связывает распределенное управление ресурсами и единую распределенную парадигму программирования (MapReduce) в один пакет. Сообщество Hadoop сейчас разъединяет эти две функции. Их разделение обеспечит большее управление различными системными функциями, и освободит обработку запросов.

Следующие выпуски Hadoop будут иметь улучшенную платформу MapReduce и обладать растущим массивом альтернативных парадигм распределенных вычислений. Вероятнее всего это будет Интерфейс передачи сообщений (Message Passing Interface, MPI), распределенные системы оболочек, OpenDremel и  Bulk Synchronous Parallel (BSP). С этими дополнительными программными и распределительными опциями Hadoop сможет поддерживать еще большее разнообразие рабочих нагрузок.

Таким образом, Hadoop имеет потенциал стать частью стандартного набора IT-инструментов. Чтобы удовлетворить требованию этого набора, поставщики начинают упаковывать Hadoop в коммерческое массовое ПО (COTS). На ваших глазах Hadoop становится платформой.

Источник: 
http://gigaom.com

Рекомендуем просмотреть раздел Все новости нашего сайта