27 февраля 2014 г. в Москве прошла конференция по аналитике Больших данных - Oracle Big Data & BI Forum. Мероприятие организовано московским представительством корпорации Oracle при поддержке Intel. Напомним, тема Больших данных в настоящее время является одной из самых популярных в области информационных технологий. Причем, это уже не просто интерес, регулярно появляются идеи и примеры практического использования данных технологий.
Большие данные принято характеризовать следующими важными свойствами. Во-первых, объем: никогда ранее человечество не сталкивалось с необходимостью обработки и хранения информации, измеряемой тысячами терабайт и петабайт. Во-вторых, скорость: трафик генерируется всё быстрей, на обработку данных и получение результатов анализа требуется всё меньше времени. В-третьих, постоянно появляются новые виды данных. Здесь самое главное – возможность одновременной обработки и различных типов структурированных и слабоструктурированных данных. В-четвертых, ценность: значимость тех или иных данных сильно разнится в зависимости от целей исследования. Здесь главный вызов состоит в том, чтобы определить, какие данные полезны, суметь правильно преобразовать их и извлечь для дальнейшего анализа.
Традиционный бизнес-анализ имеет дело с выверенными, очищенными и достоверными данными. Их может быть очень много и все они содержатся во внутренних источниках – хранилищах данных и корпоративных информационных системах. Сейчас к ним добавился огромный поток неструктурированных или слабоструктурированных данных внешних источников – блоги, социальные сети, Интернет-ресурсы, показатели различных датчиков, изображения и фотографии. Содержащаяся в них информация потенциально несет в себе огромные возможности для бизнеса, если суметь извлечь из нее пользу.
Руководитель направления Big Data, Oracle EMEA, Луис Кампос отметил важность использования аналитики Больших данных для многих отраслей: госсектора, образования, финансовой и телекоммуникационной отрасли, транспорта, и так далее.
Например, министерство образования Турции приобрело планшеты для всех школьников страны. Это не только избавило детей от необходимости ходить в школу с тяжелыми портфелями, но сделало доступным множество данных: программы, составленные учителями, электронные учебники, интерактивные уроки, учебные видео-пособия и многое другое.
В финансовой отрасли особого внимания требует оценка рисков, особенно сейчас. До конца текущего года многим мировым банкам придется испытать собственную устойчивость в сложной экономической ситуации. Для этого придется проанализировать огромное количество накопленных данных. Технологии Big Data используются и для борьбы с фродом. В одном из крупных банков Германии установлена самообучающаяся система, способная отслеживать все подозрительные операции.
Аналитика полезна и для улучшения обслуживания клиентов. Банкам, например, важно, чтобы в пиковые моменты потребления денег, в банкоматах их было достаточно. Луис Кампос полагает, что тенденция 2014 года такова: у каждого клиента финансового учреждения должно быть свое персональное «облако», где будет храниться и обрабатываться личная информация.
Телеком-отрасль также является крупным потребителем технологий Big Data. Например, в Африке анализ больших данных применяется не только для улучшения качества обслуживания клиентов, но и для борьбы с терроризмом.
В Японии на основе анализа Больших данных создали технологию «спрятанный голос». Дело в том, что каждый год японский словарь дополняется четырнадцатью новыми словами. Это породило спрос на услуги по анализу текстов.
Луис Кампос привел еще много примеров использования Big Data. Он подчеркнул, что эта технология не предполагает слома всего предыдущего, ее нужно просто добавить.
Алексей Рогачков, специалист по корпоративным технологиям, Intel, рассказал, что по подсчетам аналитиков, объем данных возрастает каждый год примерно на 40%. Это означает, что в период с 2009 по 2020 год их станет больше в 44 раза. Уже к 2015 году в мире будет 7,9 зетабайт информации. «Данные объективно существуют везде вокруг нас», - отметил Алексей Рогачков.
Области применения технологий Big Data – операционная эффективность (управление трафиком дорожного движения, освещенностью городских улиц и др.), безопасность и управление рисками (не только для финансовых организаций), поведение клиентов, увеличение их лояльности.
Однако, чтобы полностью использовать возможности, открываемые благодаря вовлечению огромных массивов разнообразных данных, требуется модернизация ИТ-инфраструктуры. В отличие от средств бизнес-анализа, где самое главное – вычисления, здесь не менее важны эффективность поисковых операций, возможность интуитивного исследования данных. Требования к инфраструктуре, позволяющей обрабатывать Большие данные, охватывают области, связанные со сбором, консолидацией и анализом данных.
В последнее время в каждой из них появилось много новых технологий и инструментов. Это Hadoop и MapReduce для долговременного распределенного хранения и обработки данных; NoSQL – нереляционные базы данных для эффективного хранения огромных объемов данных. Это средства статистического анализа и data mining, поддерживающие углубленный анализ данных большого объема и разнообразия, а также инструменты класса Data Discovery для интуитивного анализа с расширенными поисковыми возможностями.
Корпорация Oracle предлагает комплексное интегрированное решение, отвечающее всей совокупности требований к промышленной инфраструктуре уровня Big Data. Базовой платформой для работы с Большими данными является программно-аппаратный комплекс Oracle Big Data Appliance, который объединяет в единое целое специально оптимизированное оборудование и программное обеспечение.
Комплекс содержит следующий набор продуктов, готовых для решения задач сбора и анализа больших данных: Apache Hadoop, Cloudera Manager для администрирования всех компонент Cloudera, среду статистических исследований R (версия свободного распространения). Далее, это Oracle NoSQL Database Community Edition, набор коннекторов и адаптеров для интеграции с другими продуктами Oracle, а также ОС Oracle Enterprise Linux и Oracle Java VM.
Полное решение, по словам Андрея Пивоварова, руководителя группы перспективных технологий предпроектного консалтинга, Oracle СНГ, объединяющее Big Data Appliance, Oracle Exadata и Oracle Exalytics обеспечивает «высокий уровень производительности, безопасности и надежности при обработке Больших данных». Этот комплекс позволяет эффективно решать все задачи по сбору, консолидации, хранению и анализу Больших данных.
На конференции обсуждался практический опыт работы с Big Data технологиями, построения систем поддержки принятия решений для сервисно-ориентированных компаний, возможности новой аналитики на платформе Endeca Data Discovery и Oracle NoSQL Database, и другие вопросы.