От Big Data к Machine Learning


Роман Рудык
Data Analyst

bigdata2302

Интерес к Big Data не угасает, наоборот, все больше людей интересуются тем как собирать, структурировать, анализировать и применять в своей работе и бизнесе огромные объемы данных, которые в наше время поступают фактически отовсюду. Это неудивительно, ведь за одну минуту в Интернете появляется 570 новых сайтов, за 1 день в мировом информационном пространстве происходит более 2 млрд событий, которые даже после обработки и сжатия занимают около 400 Гбайт, а каждый год общий объем получаемых и хранимых бизнес-данных удваивается.

Мировые корпорации и большие компании уже несколько лет активно используют Big Data для развития своего бизнеса, инвестируя миллионы долларов в их изучение, в то время как украинские компании только начинают интересоваться этим направлением. Но действительно ли Big Data является панацеей или необходимо что-то большее?

Big Data – это большой объем структурированных или неструктурированных данных, ценность которых зависит от конкретно поставленной задачи. В наше время уже все данные становятся большими, но большинство задач требует малых данных. Большие данные — не всегда дают ожидаемый результат. Особенно важной становится проблема качества данных, так как вместе с ценной информацией генерируется куча информационного мусора. Для качественного анализа и практического применения Big Data нужна хорошая команда аналитиков, которые смогут извлечь полезные знания и правильно их интерпретировать.

Практическая ценность Big Data перешла в новую плоскость, и ее фактически заменил новый класс технологий — Machine Learning («Машинное обучение»), появившийся относительно недавно. Machine Learning — это метод анализа данных, основанный на построении автоматизированной аналитической модели. Используя математические алгоритмы анализа данных, Machine Learning позволяет находить скрытые факторы и зависимости, не будучи заранее запрограммированным на определенное место поиска.

Важным аспектом в Machine Learning является способность адаптироваться и переобучаться на вновь поступивших данных, для получения надежных и репрезентативных результатов. С ростом производительной мощности компьютеров значительно расширились сферы применения Machine Learning для анализа больших данных. Вот несколько примеров, о которых вы могли слышать:

  • Самоуправляемый автомобиль Google — яркий пример результатов машинного обучения.
  • Рекомендательные системы типа Amazon и Netflix. Применение машинного обучения для решения ежедневных проблем.
  • Интеллектуальный анализ текстов для того чтоб знать, что другие пользователи пишут о вас в Twitter.
  • Борьба с мошенничеством. Одна из наиболее очевидных и важных целей сегодня.

meachine

Рост интереса к Machine Learning и его практической значимости обусловлен тем, что сейчас для его применения есть все инструменты, как никогда ранее: постоянно растущие объемы и разновидности имеющихся данных, дешевые вычислительные мощности и хранилища данных, постоянно совершенствующееся программное обеспечение, которое позволяет проводить анализ и обработку данных, не имея углубленных знаний в этой области.

Machine Learning позволяет быстро в автоматическом режиме анализировать большие, более сложные данные и обеспечивает более быстрый, более точный результат. А результат — это ценные предсказания, которые помогают принять лучшее решение и сделать правильные действия в реальном времени без вмешательства человека.

По этому поводу хорошо высказался ведущий ученый в области аналитики Томас Дэвенпорт в своем комментарии The Wall Street Journal. По его словам, в условиях быстро меняющихся, растущих объемов данных, «… Вам необходимо быстрое потоковое моделирование, чтобы не отставать.» И вы можете сделать это с помощью Machine Learning. Он говорит:

Люди могут создать одну или две хороших моделей в неделю; Machine Learning может создать тысячи моделей в неделю.

Материалы по теме